Узел Консолидация категорий

Узел Консолидация категорий генерирует новые колонки, которые содержат агрегированные значения исходных колонок. Редкие значения отображаются как отдельное уникальное значение в каждой выходной колонке. Подобно узлу Дискретизация, данный узел позволяет группировать значения колонки.

В проекте этот узел обычно используется на этапе обработки данных, после того, как данные были импортированы в проект, до начала собственно аналитического этапа. В начале проекта пользователи могут обнаружить, что некоторые независимые переменные слишком разнородны, и поэтому некоторые алгоритмы могут их игнорировать или некорректно интерпретировать. В таком случае пользователи могут использовать узел Консолидация категорий с целью повысить точность анализа и полезность последующих узлов. Некоторые настройки данного узла требуют наличия глубокого знания статистики, однако пользователи могут использовать потенциал этого узла и при его базовой настройке.

Применение узла Консолидация категорий

Иногда бывает так, что собранные данные не готовы к анализу в связи с ограничениями алгоритма. Узел Консолидация категорий в этом случае - полезный инструмент предварительной обработки данных при работе со строковыми или целочисленными колонками большой вариативности, т.е. при наличии слишком большого количества уникальных значений для анализа. В качестве независимых переменных в анализе данных удобнее использовать агрегированные колонки с меньшим количеством уникальных значений. Кроме того, сокращение количества уникальных значений уменьшает вычислительную нагрузку, в связи с чем на изучение данных уходит меньше времени.

Невозможно однозначно сказать, когда именно нужно использовать узел Консолидация категорий в анализе, поскольку он может помочь в одних проектах, но навредить другим. Игнорирование редких значений может рассматриваться как потеря данных, т.к. агрегированная форма исходной колонки похожа на выборку и лишь частично представляет входные данные. Этот тип подготовки данных позволяет аналитикам "видоизменять" данные до начала анализа, что в некоторых случаях рассматривается как смещение данных или введение человеческого фактора в данные, которые будет позже обрабатывать алгоритм "без учителя". При подобном смещении данных в анализе всегда возникает вероятность погрешности в статистике.

По сравнению с другими узлами, необходимость использования данного узла возникает достаточно редко. Более того, многие аналитики стараются избегать потерь данных, которые происходят в результате агрегирования, либо экспериментируют с исходными данными, используя разные варианты настройки алгоритма для того, чтобы получить разные результаты. Этот узел также нечасто используется для того, чтобы отсеять аномальные значения, поскольку многие редкие значения являются индикаторами аномалий. Узел Производные колонки позволяет получить похожий результат, но для того, чтобы его использовать, пользователю придется составить длинное SRL-выражение. В этом отношении узел Консолидация категорий предлагает удобный графический интерфейс, который снимает с пользователя эту сложную задачу.

Например, предположим, что вы работаете с демографическими данными и хотите получить более детальную информацию по отдельным странам.

Просматривая данные о распределении населения конкретной страны, вы видите, что 15 из 20 стран широко представлены в данных и часто упоминаются, поскольку в каждой из этих стран проживают тысячи людей, упоминаемых в в данных. Оставшиеся 5 стран очень небольшие, в них проживают менее 10 человек из тех, чьи данные имеются в таблице. Узел Консолидация категорий представляет собой удобный способ группировки этих 5 редких значений в одно значение "Другая страна". Исходная колонка Страна (Country) будет унаследована из родительского узла и сохранена в отчете узла. Подобно узлу Производные колонки, узел Консолидация добавит к таблице дополнительную колонку, которая будет содержать агрегированные значения стран.

Для каждой исходной записи, содержащей одно из 5 значений редко упоминаемых стран, в новой колонке будет отображено значение "Другая страна" (Another country). Для каждой исходной записи, содержащей одно из значений часто упоминаемых стран, в новой колонке будет сохранено прежнее значение (эти значения не изменяются). В этом случае узел Консолидация категорий используется для фильтрации бесполезных данных, игнорируются 5 значений нечасто упоминаемых стран.

Узлы, которые используют выходные данные узла Консолидации категорий, теперь могут использовать колонку с агрегированными значениями стран (Aggregated country) вместо исходной колонки Country. При этом график будет выглядеть более понятным, т.к. в этом случае круговая диаграмма не будет содержать много мелких секторов. Кроме того, многие алгоритмы анализа данных, в которых агрегированное значение страны будет использовано в качестве независимой переменной, будут работать быстрее и эффективнее, поскольку индекс колонки будет ниже, а поиск и сравнение значений друг с другом будут выполняться быстрее.