Настройка узла Замена категорий

Окно настроек узла Замена категорий разделено на три вкладки: Колонки, Карта значений и Общие. Исходные колонки выбираются на первой вкладке. На второй вкладке настраивается преобразование исходных значений. Вкладка Общие в основном используется для изменения имени и описания узла.

Настройка вкладки Колонки

Вкладка Колонки содержит опции выбора исходных колонок, значения которых необходимо изменить. В левой части представлен список доступных строковых колонок из родительского массива данных. Если предшествующий узел не был настроен или выполнен, список будет пустым. Его можно отсортировать по убыванию или по возрастанию, нажимая на соответствующий заголовок. В случае возникновения трудностей с нахождением конкретной колонки, воспользуйтесь полем Фильтр.

window properties tab columns.rus

В таблице справа отображаются выбранные исходные колонки и их свойства. Процесс выбора колонок подробно описан в соответствующем разделе.

По умолчанию результирующие колонки "наследуют" имя исходного атрибута с суффиксом _rep (от англ. "replaced" – "замененный"). Так, например, если имеется исходная колонка Model, колонка с результатами преобразования значений будет именоваться Model_rep. Если вы хотите указать другое имя, нажмите на значение по умолчанию в колонке Новое имя. Для применения изменений используйте клавишу ENTER или нажмите на любую другую область в окне настроек узла.

Согласно общему правилу в системе PolyAnalyst, все колонки таблицы должны иметь уникальные имена. Указание одинакового имени для нескольких колонок вызовет ошибку, а выполнение узла Замена категорий будет невозможно.

Опция Исключить источник определяет, будет ли включена исходная колонка в результирующую таблицу данных. Если флажок отмечен галочкой, в отчете узла будет представлена только колонка с результатами замены. Подобная функциональная возможность также используется в других узлах операций с колонками (например, Извлечение терминов и Замена терминов).

Для успешного выполнения узла Замена категорий необходимо выбрать как минимум один атрибут.

Настройка вкладки Карта значений

На вкладке Карта значений представлены все уникальные значения из исходных колонок, которые были выбраны на предыдущей вкладке. Если одно и то же исходное значение присутствует в нескольких колонках, в таблице оно будет представлено только один раз. Удаление атрибута из списка выбранных повлияет только на соответствующие значения, т.е. аналогичные значения других входных колонок будут сохранены.

Вкладка разделена на две области. Опции в верхней части изменяют входные значения, позволяя выполнить предварительную обработку на основе конкретных параметров. В нижней части представлена таблица преобразований с уникальными значениями входных колонок.

window properties tab values map.rus

По умолчанию узел настроен на отображения входных значений в неизменном виде, т.е. выбраны режимы Учитывать регистр и Сохранить все символы. При необходимости вы можете заменить исходные значения на аналогичные в верхнем/нижнем регистре с помощью соответствующих радиокнопок.

Предположим, что у нас есть входная колонка со следующими значениями: Amc Concord, Amc concord, amc concord и даже AmC cOnCoRd. Все они рассматриваются как уникальные, поэтому для каждого из них необходимо указать свой вариант замены. Однако если мы переключимся в режим Верхний регистр или Нижний регистр, все эти значения будут объединены в одно (AMC CONCORD/amc concord), что сделает таблицу преобразований компактной и емкой.

Аналогичным образом мы можем объединить значения AMC Concord DL и AMC Concord DL 6 в AMC Concord DL, выбрав режим Только буквы (исключив все небуквенные знаки), или объединить AMC Concord DL и AMC Concord D/L в AMC Concord DL в режиме Только буквы и цифры (исключив все знаки, кроме букв и цифр).

Таблица преобразований имеет четыре колонки:

  • Удалить – содержит флажки, которые используются для исключения выбранных значений из результирующей таблицы;

  • Поддержка – отображает количество записей с данным значением;

  • Найти – используется для ввода исходного значения (по умолчанию содержит уникальные значения исходной колонки);

  • Заменить – используется для ввода значения, на которое будет заменено исходное значение.

Нажав правой кнопкой мыши на заголовок таблицы, вы можете настроить порядок сортировки, ширину колонок, а также отображение панели поиска.

Для каждого исходного значения пользователь может выбрать одно из трех возможных действий: удалить, заменить и сохранить. Каждое из них по-своему влияет на исходное значение и значение замены.

  • Активация функции удаления осуществляется с помощью соответствующего флажка, в результате чего исходное значение игнорируется, а в результирующую колонку добавляется нулевое значение. При этом сама запись, которая содержит данное значение, не удаляется.

    Опция Удалить применима только в случаях, когда соответствующее поле в колонке Заменить оставлено пустым. В противном случае, данный режим будет отключен.
  • Для выполнения замены необходимо указать новое значение в соответствующем поле. Данное значение будет содержаться в новой колонке, которую создаст узел.

  • Для сохранения исходного значения "как есть" оставьте поле Заменить пустым. Фактически в узле Замена категорий данный вариант поведения выбран по умолчанию, если никакие другие настройки не заданы. В этом случае в результирующей колонке будет содержаться значение, которое полностью соответствует исходному.

Если во входящих колонках встречаются пустые строки, которые представляют отсутствующие значения, рекомендуется заменять их на новые. Данный процесс является ключевым шагом во многих проектах анализа данных. Большинство статистических инструментов и алгоритмов PolyAnalyst (а также и других статистических программах) работают лучше и выдают гораздо более точные и полезные результаты, если в исходных данных нет отсутствующих значений. Однако выбор правильной замены для отсутствующих значений – нелегкая задача. "Условное" назначение значений является крайне нежелательным, поскольку подобное действие расценивается как систематическая ошибка, вносимая человеком, что в свою очередь сказывается на алгоритме и на результатах. Убедитесь в том, что вы принимаете обоснованное решение по отсутствующим значениям при их замене в узле. Если позже вы будете использовать статистические инструменты на массиве выходных данных, подобные замены должны быть объяснены в сносках при описании результатов.

Над таблицей преобразований имеется панель инструментов с четырьмя кнопками:

  • Кнопка button add replacement (Добавить замену) используется для создания нового правила замены. В появившемся окне необходимо указать исходное значение и значение замены:

    add replacement.rus

    Созданное правило будет добавлено в таблицу преобразований.

Если у правила: 1) Поддержка=0, 2) отсутствует значение в поле Заменить и 3) отключен режим Удалить, то оно будет автоматически удалено после закрытия окна свойств узла Замена категорий с помощью кнопок ОК или Выполнить.
  • Кнопка button set replacement for selected (Назначить замену для выбранных) позволяет указать значение замены для выбранных записей:

    set replacement.rus

    Данная функциональная возможность особенно полезна в случаях, когда необходимо ввести одно значение замены для нескольких исходных значений. Для выделения нескольких строк нажмите и удерживайте клавишу CTRL (для выбора по одной позиции) или клавишу SHIFT (для выбора диапазона). Подобный метод выделения нескольких элементов используется и в других программах.

  • Для сохранения добавленных правил в отдельный файл *.xml нажмите на кнопку button import from xml (Импорт из XML). Если вы хотите загрузить файл настроек, нажмите на кнопку button export to xml (Экспорт в XML- файл).

Вы можете добавлять и назначать замены для выбранных значений, нажав правой кнопкой мыши на нужное значение в таблице и выбрав соответствующую опцию:

replacement 1.rus