Узел Замена категорий
dataset replacecategories big

Узел Замена категорий создает таблицу данных с одной или несколькими новыми колонками на основе родительского массива данных с учетом заданных настроек преобразования значений.

Соединения на скрипте

Узел Замена категорий требует наличия одного входящего соединения с любым узлом, который создает таблицу данных, например, узлы операций со строками, колонками или таблицами. Выходными данными узла Замена категорий является массив данных, который может быть использован другими узлами, которые принимают таблицу данных на входе (в том числе и сам узел Замена категорий).

Использование узла Замена категорий

Предположим, что у вас имеется категориальная колонка (колонка с данными строкового типа, подробное описание см. в соответствующем разделе) со значениями "Алексей", "Иван" и "Мария". С помощью узла Замена категорий вы можете создать новую колонку, в которой значение "Алексей" будет заменено на "Андрей", значение "Иван" будет заменено на пустое (т.е. это значение будет удалено), а значение "Мария" будет представлено в исходном виде (в этом случае говорят, что значение "сохраняется" при обработке).

Таким образом, в узле Замена категорий пользователям доступны следующие действия:

  • Заменить – заменить имеющееся значение на новое;

  • Удалить – заменить имеющееся значение на пустое;

  • Сохранить – оставить имеющееся значение без изменений.

При удалении конкретного значения вся запись целиком не удаляется. В этом случае происходит замена указанного значения в записи на нулевое. Если вы хотите удалить запись из массива данных по значению в колонке, используйте узел Фильтрация строк с SRL-выражением [Колонка] != "Значение" (например, [Имя] != "Иван"). При этом в отчет узла Фильтрация строк будут включены только те записи, в которых отсутствует данное значение.

Узел Замена категорий был специально разработан таким образом, чтобы его можно было повторно использовать на новых данных. Вам нужно только задать настройки преобразования значений, после чего вы можете применять полученную конфигурацию к любому количеству массивов данных или последующим версиям одних и тех же таблиц данных (по мере добавления новых сведений). В дальнейшем вы можете изменить настройки преобразования (при условии, что узел не выполняет активную обработку данных). Это может быть особенно полезно в случаях, когда вы изначально настраиваете проект для специального домена, в котором вы работаете с несколькими источниками данных. Как правило, при этом возникает необходимость объединения подобных источников, что приводит к проблеме, вызванной тем, что каждый источник данных хранит значения по-разному, в связи с чем невозможно указать первичный ключ (поскольку значения ключей не соответствуют друг другу). Вы можете загрузить один массив данных и заменить значения ключей соответствующими значениями ключей второго массива данных, а затем объединить два массива данных, используя колонку с ключами из каждого массива, в которой присутствуют общие значения.

Узел Замена категорий обычно используется на раннем этапе аналитического проекта в ходе подготовки данных. Массивы исходных данных могут содержать значения, которые не всегда понятны, а узел Замена категорий позволяет заменить такие значения на более доступные. Вы можете подобрать значения, которые лучше вписываются в отчет или которые удобнее использовать в SRL-выражении. Заменив две отдельные категории одним и тем же выходным значением, вы можете эффективно объединить/агрегировать значения (данный процесс еще называют слиянием или сокращением значений). Вы также можете обозначить категории, которые должны быть включены в выходные данные в исходном виде, изменив только указанные категории. При необходимости можно настроить удаление определенных категорий, эффективно "обнуляя" их, либо конвертируя в "отсутствующие значения" в соответствующей колонке выходных данных. Возможность удаления может быть особенна полезна при использовании в сочетании с узлом Аудит данных после определения аномальных значений, либо с узлом Агрегирование после определения редких значений. Широко распространена операция удаления редких или псевдослучайных значений из категориальной колонки, содержащей большое количество уникальных значений (представленные на вкладке Уникальные записи в окне просмотра таблицы данных) при подготовке некоторого типа моделирования (например, классификации с использованием узла Дерево решений).

Узел Замена категорий также представляет собой удобный инструмент для работы с "нулевыми" значениями в исходном массиве данных. Таким образом вы можете заменить "отсутствующие значения" строковой колонки другим значением. Стандартный аналитический метод подразумевает замену отсутствующего значения значением статистического показателя моды колонки (которое указывается на вкладке Статистика в окне просмотра таблицы данных).

В связи с тем, что узел Замена категорий имеет общий характер и ориентирован на данные, он может быть использован в любой области при работе с проектами, содержащими структурированные данные. Его можно добавить в проект анализа данных опроса общественного мнения для изменения демографической информации или удаления значений, где респонденты ответили "Не применимо". Таким же образом данный узел можно использовать для замены ответов на вопросы со множественным выбором (например, заменить "Вариант Д" на "Мне не понравилось", что сделает ответы и графики более понятными). Узел можно использовать при работе с данными колл-центра для изменения различных атрибутов звонков или с данными по пациентам для изменения кодов диагноза. Существует огромное количество различных вариантов использования данного узла: все зависит от конкретного случая и особенностей имеющегося набора данных.

Несмотря на возможность настройки узла Замена категорий на работу с несколькими колонками одновременно, рекомендуется выбирать только одну колонку. Это упростит настройку, поскольку узел будет работать с меньшим количеством исходных значений, которые подлежат замене, удалению или сохранению. Это также может быть полезно при выполнении отдельных шагов по подготовке данных для разных узлов, каждый из которых может быть описан отдельно: это сделает скрипт более доступным для понимания, а цели и назначение проекта – более прозрачными. Использовать узел Замена категорий для работы с несколькими колонками следует только в том случае, когда колонки исходной таблицы имеют одинаковые значения, а варианты преобразования значений справедливы для каждой исходной колонки. Особенность системы PolyAnalyst заключается в том, что создание нескольких узлов Замена категорий для выполнения различных преобразований значений практически не сказывается на общей производительности.

Пользователи могут без опасений добавлять на скрипт несколько узлов Замена категорий: новый массив данных хранится в оптимизированном виде, исключающем хранение избыточных строк и колонок. С технической точки зрения, отчет узла Замена категорий в действительности является средством просмотра результатов объединения исходного массива данных и таблицы данных, состоящей исключительно из новых колонок. При просмотре отчета узла Замена категорий может показаться, что весь массив исходных данных был продублирован в массиве выходных данных, но это не так. Новые колонки (результат замены) объединяются с колонками исходной таблицы данных в одну таблицу.