Узел Извлечение терминов
Общие сведения
Узел Извлечение терминов создает таблицу терминов, извлеченных из исходной текстовой колонки на основе заданных условий.
Настройка узла предполагает определение правил (условий). Правило – это выражение, которое однократно или многократно обнаруживает определенную последовательность символов в документе. Правила составляются в форме регулярного выражения.
По своей сути, регулярное выражение – это краткий поисковый запрос, который находит различные группы символов, такие как слова, телефонные номера и прочие уникальные шаблоны.
Данный синтаксис сложен для изучения, но затраченные усилия и время легко окупаются, поскольку язык регулярных выражений является универсальным и гибким инструментом, позволяющим обнаруживать любые группы символов в тексте. Для того, чтобы успешно использовать узел Извлечение терминов, необходимы определенные знания синтаксиса регулярных выражений.
В процессе работы с узлом вы также можете определить несколько атрибутов, которые частично соответствуют сегментам составленных вами правил, а затем указать эти атрибуты в отдельных колонках выходной таблицы.
Расположение узла Извлечение терминов на палитре узлов
Несмотря на то, что работа с данным узлом подразумевает большой объем текстового анализа, узел Извлечение терминов расположен в разделе Операции с колонками палитры узлов, т.к. его основное назначение – создание таблицы данных.
Соединения на скрипте
Для того, чтобы настроить и запустить узел Извлечение терминов, необходимо одно входящее соединение из любого другого узла, который производит таблицу данных, например, узел-источник данных, узел операций с колонками, строками или таблицами. Исходная таблица данных должна содержать как минимум одну текстовую колонку.
Результатом работы узла Извлечение терминов является массив (таблица) данных.