Узел Нормализация
dataset categorizebinaries big

Узел Нормализация используется для компактного представления многовариантных переменных. Он преобразует большое количество бинарных переменных в небольшое количество категориальных переменных.

Например, вы работаете с таблицей данных, в которой содержатся сотни брендов пива, представленных на рынке.

Можно представить каждый бренд как бинарную переменную (Pilzner, Carlsberg, Guinnes и т.д.) и сохранять потребительские предпочтения по пиву как ряд двоичных флагов, которые чаще всего оказываются ложными.

Другой вариант - сохранять эти предпочтения в небольшом количестве категориальных переменных Выбор 1, Выбор 2, …​ Для каждого пользователя переменная Выбор 1 представляет наиболее популярный бренд среди всех брендов, выбранных им, Выбор 2 - второй наиболее популярный бренд и так далее. Единственное, что нужно знать в этом случае - максимальное количество потребительских предпочтений.