Просмотр результатов узла Извлечение терминов

Отчет узла Извлечение терминов можно представить как набор страниц с результатами нескольких поисковых запросов в сети Интернет, в которых вы указали, какая информация должна появиться на странице результатов. С технической точки зрения, каждая запись в выходной таблице узла соответствует одному из правил, заданных на этапе настройки.

На первый взгляд, результирующая таблица данных очень похожа на исходную таблицу:

extract terms view.rus

Однако при более детальном изучении можно заметить ряд важных отличий:

  • Во-первых, запись из исходной таблицы может появиться в выходной таблице несколько раз, поскольку разные правила извлекли разные термины из одной и той же записи.

  • Во-вторых, выходные колонки отличаются от колонок исходной таблицы. В отчет добавляется несколько новых колонок, количество и тип которых зависят от настроек узла. В этих колонках содержатся статистические и метаданные для каждого соответствия. Если правило находит в записи соответствие, то она включается в результирующую таблицу данных вместе с другими исходными колонками (в дополнение к текстовой колонке, которая была выбрана изначально).

Так, например, на скриншоте выше мы видим следующие новые колонки:

  • Match – содержит сегмент текста, который соответствует правилу.

  • RuleName – содержит имя правила, добавленное на вкладке Настройки.

  • MatchNumber – отображает порядковый номер соответствия в пределах одной записи.

В выбранной строке (полный текст записи представлен на текстовой панели над таблицей) присутствует только один сегмент текста, который отвечает условию правила. Найденное соответствие выделяется цветом. Далее в сетке данных, согласно заданным настройкам, отображаются следующие колонки:

  • Document – содержит номер записи в исходной таблице;

  • StartSymbol – содержит целочисленное значение, которое определяет порядковый номер символа, с которого начинается найденный сегмент. Добавление данной колонки в отчет полезно при работе с большими текстами, т.к. пользователям будет легче ориентироваться в данных.

Имена всех результирующих колонок можно настроить с помощью соответствующих полей в окне настроек узла.

Если правилам не соответствует ни одна исходная запись, узел создаст пустую таблицу данных.

Подсветка результатов в узле Извлечение терминов доступна только в его отчете и не может быть перенесена в другие узлы. Как правило, подсветка наследуется только из PDL-запросов .

Производительность и масштабируемость

В ходе выполнения узла PolyAnalyst ищет текстовые фрагменты, которые соответствуют регулярному выражению, после чего создает новую таблицу данных, в которой найденные текстовые фрагменты добавляются в отдельную колонку, свойства которой настраиваются на вкладке Колонки в окне настроек. Если одна запись отвечает условиям нескольких правил, то в результирующей таблице данных она будет представлена несколько раз на разных строках.