Настройка узла Замена терминов

Свойства узла Замена терминов представлены на нескольких вкладках. Исходные колонки выбираются на вкладке Колонки. Вкладка Настройки позволяет задать правила поиска и замены терминов. Вкладка Общие одинакова для всех узлов в PolyAnalyst. См. здесь для подробного описания каждой опции на этой вкладке.

Выбор исходных колонок

Колонки, с которыми должен работать узел Замена терминов, настраиваются на вкладке Колонки. Вкладка выглядит следующим образом:

replace terms columns source

Слева отображается список доступных колонок из исходной таблицы данных. Справа находится список выбранных исходных колонок.

Чтобы выбрать исходную колонку:

  1. Найдите колонку в списке доступных колонок слева. Дополнительная информация по выбору колонок, фильтрации и сортировке списка колонок и др. представлена в разделе по выбору колонок. Узел Замена терминов может обрабатывать только строковые или текстовые колонки.

  2. Чтобы выбрать колонку, нажмите левой кнопкой мыши на имя колонки в списке доступных колонок.

  3. Нажмите на кнопку с изображением стрелки для перемещения колонки в список колонок справа. Это действие позволяет выбрать колонку в качестве рабочей колонки узла Замена терминов.

После того, как вы выбрали рабочую колонку, вы можете задать имя для выходной колонки узла, которая будет создана на ее основе. При перемещении исходной текстовой колонки в список выбранных колонок справа, PolyAnalyst автоматически присвоит ей имя, которое генерируется на основе имени исходной колонки. На рисунке выше колонка Comment уже перемещена в список справа. PolyAnalyst показывает выходное имя для исходной колонки в колонке Новое имя в списке выбранных колонок. Выходное имя нашей колонки — Comment_rep. Оно создано путем добавления суффикса "_rep" к имени исходной колонки.

Вы можете изменить предлагаемое имя. Для того, чтобы настроить выходное имя для исходной колонки, дважды нажмите на предлагаемое имя и введите новое значение.

replace terms columns rename

Нажмите Enter, чтобы изменения вступили в силу. Либо нажмите левой кнопкой мыши в любом месте окна.

Выбранные вами имена колонок могут не сохраниться, если вы удалите исходящее соединение с узлом Замена терминов, скопируете и вставите узел, либо выполните его на другой таблице данных. Если вы планируете изменить положение узла на скрипте, соединения узлов или заменить исходную таблицу данных, и если вы не хотите вводить новое имя для выходной колонки при каждом последующем использовании узла, целесообразно использовать имена колонок по умолчанию, и лишь затем изменить их с помощью узла Модификация колонок.

По умолчанию узел Замена терминов создает выходную таблицу данных, в которую входят как исходные, так и сгенерированные узлом колонки.

Например, если исходная таблица данных состоит из одной колонки Comment, то выходная таблица будет состоять из двух колонок — Comment и Comment_rep.

Вы можете включить в выходные данные только новые колонки. Для этого нужно исключить исходные колонки из выходной таблицы. Для этого используйте опцию Исключить источник.

replace terms columns drop
Обзор вкладки Настройки
replace terms columns options

Вкладка Настройки разделена на семь основных областей, которые подробно описаны далее.

  • Имя правила - cписок правил в верхней левой части. Данная таблица, которая содержит колонки с номерами и названиями правил. Эта область далее будет обозначена как "список правил" или "верхний список правил".

  • Над списком правил находится панель инструментов с опциями добавления правил в список и удаления правил из него, а также некоторые другие опции, которые объясняются позже в данном разделе.

  • Под списком правил есть выпадающее меню Общие настройки. Здесь можно выбрать фрагмент текста, по которому будет выполняться поиск, настроить парсер, подключить журнал, в котором PolyAnalyst фиксирует отдельные замены. Общие настройки будут подробнее описаны ниже.

  • В верхнем правом углу находится поле Поисковое выражение. Здесь вводится искомая последовательность символов или слов.

  • Расположенное под поисковым выражением поле Замена позволяет ввести последовательность символов или слов, которыми необходимо заменить найденный фрагмент текста.

  • Ниже расположено выпадающее меню Настройки правила. Здесь доступны опции, которые относятся только к выбранному правилу.

    Пользователь может определить Настройки правила, выбрав подстроку, шаблон поиска или регулярное выражение. Дополнительные настройки правил (поиск с учетом регистра, поиск целого слова или текста и др.) описаны ниже.

  • В нижней части окна находятся еще две вкладки — Проверка правил и Библиотека правил. Вкладка Проверка правил позволяет проверить, работает ли правило, и какой результат оно позволяет получить. Библиотека правил содержит сохраненные пользователем правила, которые можно использовать в других узлах Замена терминов.

Краткие сведения об использовании правил в узле Замена терминов

В узле Замена терминов правилом называется особая последовательность команд поиска и замены текстовых фрагментов, которые имеют несколько настраиваемых свойств. Каждое правило имеет два основных свойства:

1) Критерии, которые позволяют найти в исходном тексте некоторый фрагмент; 2) Текст, который нужно вставить вместо найденного фрагмента, и который будет отображен в выходной таблице.

Например, простейшее правило может искать в исходном тексте слово "принтеры" и заменять его на форму единственного числа "принтер".

Правила можно также называть шаблонами или операциями/командами поиска и замены текстовых фрагментов.

В процессе выполнения узел Замена терминов применяет одно или несколько правил к одной или нескольким исходным текстовым колонкам для того, чтобы создать одну или несколько выходных текстовых колонок. Данный процесс предполагает анализ каждого исходного значения по отдельности, применение каждого правила к исходному значению, и сохранение выходного значения в новой таблице данных. Чем больше правил нужно обработать, тем больше времени требуется на выполнение узла. Кроме того, скорость выполнения узла зависит и от количества исходных документов.

Правила применяются к исходному тексту в том порядке, в котором они перечислены в списке правил на вкладке Настройки. Чем ближе правило к началу списка, тем раньше оно будет обработано. Это называется "приоритетом правил". Вы можете изменить приоритет правил, используя опции Вверх и Вниз на панели инструментов, расположенной над списком правил на вкладке Настройки.

Подробнее о работе с правилами см. далее.