Практическое руководство по использованию узла Дискретизация

До начала работы вы должны знать: принципы работы с проектами, узлами и, в частности, с узлом Файлы CSV. Процесс дискретизации в PolyAnalyst включает преобразование непрерывной переменной (например, колонки с данными числового или целочисленного типа) в дискретную переменную (например в строку/категорию/целочисленный идентификатор). Дискретизация используется во многих проектах анализа данных. Например, если вам необходимо использовать модель классификации, но целевой атрибут является непрерывным, то узел Дискретизация предлагает простой способ преобразования переменной в дискретную форму для использования в качестве зависимого атрибута в модели. Дискретизация также полезна при попытке визуализировать данные или рассмотреть корреляции между классами, как в случае с узлом Анализ связей. Для изучения данного практического руководства, предположим, что вы работаете со следующей таблицей данных о клиентах.

ID клиента	Возраст
1	2
2	4
3	6
4	8
5	10
6	12
7	14
8	16

Предположим, что нам нужно сгруппировать пользователей по четырем возрастным группам для анализа каждой возрастной группы по отдельности. Мы могли бы использовать узел Производные колонки и написать длинное SRL-выражение, чтобы включить каждого клиента в нужную возрастную группу. Однако, узел Дискретизация оптимизирует этот процесс: он позволяет легко создать четыре отдельных сегмента. В ходе выполнения узла PolyAnalyst автоматически определяет, что для того, чтобы клиент был отнесен к первой возрастной категории, его возраст должен составлять от 0 до 4 лет; для второй возрастной категории - от 4 до 8, для третьей - от 8 до 12; остальные попадают в четвертую возрастную категорию. В выходных данных узла мы увидим новую колонку с названием Age_Bin, которая содержит значения границ четырех возрастных групп:

Age_Bin

При последующем применении полученной классификации (например, с помощью узла Применение моделей), значение идентификатора сегмента начнется с 0 и будет постепенно повышаться.

Создайте новый проект "Руководство по использованию узла Дискретизация" и откройте его.
Добавьте узел Файлы CSV и из папки PolyAnalyst Examples загрузите файл CarData. Вы можете открыть окно просмотра узла после его выполнения.
Теперь добавим узел Дискретизация на скрипт. В палитре узлов узел Дискретизация расположен в разделе операций с колонками, поскольку цель данного узла - создание новой колонки дискретных значений. Добавьте узел Дискретизация на скрипт и соедините его с узлом Файлы CSV.
Откройте настройки узла Дискретизация. На первой вкладке выберите колонку для дискретизации. Предположим, что мы хотим преобразовать в дискретную форму значения колонки Mpg. Выберите колонку Mpg в качестве колонки дискретизации.
Назовите новую колонку "MPG Class", т.к. мы рассматриваем интервалы Mpg как классы.
Задайте нужное количество выходных сегментов (классов). Их может быть, например, 3 (это значение может быть выставлено по умолчанию). При этом различные значения Mpg будут разделены на 3 отдельных класса. Мы могли бы использовать число 2, 4 и т.д. в зависимости от нашей цели. Настоящее руководство просто демонстрирует принцип работы узла. В реальном анализе количество сегментов имеет очень большое значение, поскольку это число задает степень обобщенности значения при его преобразовании из непрерывной переменной в дискретную. Если мы создадим слишком большое количество сегментов, оно будет немногим меньше количества значений в исходной колонке. Классификация будет неэффективной. Если мы выберем слишком малое количество сегментов, мы "потеряем" исходные данные, поскольку мы игнорируем мелкие различия в значениях, которые могут оказаться важными. Конечно, если мы зададим неверное число сегментов, мы всегда сможем вернуться на шаг назад, изменить настройки узла и выполнить узел снова.
На вкладке Общие введите имя узла - Derive MPG Class или другое имя, которое объясняет назначение узла.
Выполните узел.
Откройте окно просмотра результатов узла. На вкладке Границы дискретизации будет представлена новая колонка MPG Class. Здесь мы можем увидеть, что она содержит такие значения, как 19 и 27. Это границы сегментов, т.е. в первый класс входят автомобили низкой топливной экономичности, расходующие галлон бензина на 19 или меньше миль, второй класс составляют автомобили средней топливной экономичности, расходующие галлон на 19-27 миль, третий - наиболее экономичные машины (более 27 миль на галлон).

Не забудьте сохранить свой проект, чтобы иметь возможность вернуться к нему.