Практическое руководство по использованию узла Дискретизация
До начала работы вы должны знать: принципы работы с проектами, узлами и, в частности, с узлом Файлы CSV. Процесс дискретизации в PolyAnalyst включает преобразование непрерывной переменной (например, колонки с данными числового или целочисленного типа) в дискретную переменную (например в строку/категорию/целочисленный идентификатор). Дискретизация используется во многих проектах анализа данных. Например, если вам необходимо использовать модель классификации, но целевой атрибут является непрерывным, то узел Дискретизация предлагает простой способ преобразования переменной в дискретную форму для использования в качестве зависимого атрибута в модели. Дискретизация также полезна при попытке визуализировать данные или рассмотреть корреляции между классами, как в случае с узлом Анализ связей. Для изучения данного практического руководства, предположим, что вы работаете со следующей таблицей данных о клиентах.
ID клиента |
Возраст |
1 |
2 |
2 |
4 |
3 |
6 |
4 |
8 |
5 |
10 |
6 |
12 |
7 |
14 |
8 |
16 |
Предположим, что нам нужно сгруппировать пользователей по четырем возрастным группам для анализа каждой возрастной группы по отдельности. Мы могли бы использовать узел Производные колонки и написать длинное SRL-выражение, чтобы включить каждого клиента в нужную возрастную группу. Однако, узел Дискретизация оптимизирует этот процесс: он позволяет легко создать четыре отдельных сегмента. В ходе выполнения узла PolyAnalyst автоматически определяет, что для того, чтобы клиент был отнесен к первой возрастной категории, его возраст должен составлять от 0 до 4 лет; для второй возрастной категории - от 4 до 8, для третьей - от 8 до 12; остальные попадают в четвертую возрастную категорию. В выходных данных узла мы увидим новую колонку с названием Age_Bin, которая содержит значения границ четырех возрастных групп:
Age_Bin |
4 |
8 |
12 |
При последующем применении полученной классификации (например, с помощью узла Применение моделей), значение идентификатора сегмента начнется с 0 и будет постепенно повышаться.
-
Создайте новый проект "Руководство по использованию узла Дискретизация" и откройте его.
-
Добавьте узел Файлы CSV и из папки PolyAnalyst Examples загрузите файл CarData. Вы можете открыть окно просмотра узла после его выполнения.
-
Теперь добавим узел Дискретизация на скрипт. В палитре узлов узел Дискретизация расположен в разделе операций с колонками, поскольку цель данного узла - создание новой колонки дискретных значений. Добавьте узел Дискретизация на скрипт и соедините его с узлом Файлы CSV.
-
Откройте настройки узла Дискретизация. На первой вкладке выберите колонку для дискретизации. Предположим, что мы хотим преобразовать в дискретную форму значения колонки Mpg. Выберите колонку Mpg в качестве колонки дискретизации.
-
Назовите новую колонку "MPG Class", т.к. мы рассматриваем интервалы Mpg как классы.
-
Задайте нужное количество выходных сегментов (классов). Их может быть, например, 3 (это значение может быть выставлено по умолчанию). При этом различные значения Mpg будут разделены на 3 отдельных класса. Мы могли бы использовать число 2, 4 и т.д. в зависимости от нашей цели. Настоящее руководство просто демонстрирует принцип работы узла. В реальном анализе количество сегментов имеет очень большое значение, поскольку это число задает степень обобщенности значения при его преобразовании из непрерывной переменной в дискретную. Если мы создадим слишком большое количество сегментов, оно будет немногим меньше количества значений в исходной колонке. Классификация будет неэффективной. Если мы выберем слишком малое количество сегментов, мы "потеряем" исходные данные, поскольку мы игнорируем мелкие различия в значениях, которые могут оказаться важными. Конечно, если мы зададим неверное число сегментов, мы всегда сможем вернуться на шаг назад, изменить настройки узла и выполнить узел снова.
-
На вкладке Общие введите имя узла - Derive MPG Class или другое имя, которое объясняет назначение узла.
-
Выполните узел.
-
Откройте окно просмотра результатов узла. На вкладке Границы дискретизации будет представлена новая колонка MPG Class. Здесь мы можем увидеть, что она содержит такие значения, как 19 и 27. Это границы сегментов, т.е. в первый класс входят автомобили низкой топливной экономичности, расходующие галлон бензина на 19 или меньше миль, второй класс составляют автомобили средней топливной экономичности, расходующие галлон на 19-27 миль, третий - наиболее экономичные машины (более 27 миль на галлон).
Не забудьте сохранить свой проект, чтобы иметь возможность вернуться к нему.