Узел Извлечение терминов
extract terms icon big
Общие сведения

Узел Извлечение терминов создает таблицу терминов, извлеченных из исходной текстовой колонки на основе заданных условий.

Настройка узла предполагает определение правил (условий). Правило – это выражение, которое однократно или многократно обнаруживает определенную последовательность символов в документе. Правила составляются в форме регулярного выражения.

По своей сути, регулярное выражение – это краткий поисковый запрос, который находит различные группы символов, такие как слова, телефонные номера и прочие уникальные шаблоны.

Например, регулярное выражение может искать любое слово, начинающееся с двух букв "а", за которыми следуют три буквы "б", после которых стоит неизвестное количество букв, и заканчивающееся на букву "я".

Данный синтаксис сложен для изучения, но затраченные усилия и время легко окупаются, поскольку язык регулярных выражений является универсальным и гибким инструментом, позволяющим обнаруживать любые группы символов в тексте. Для того, чтобы успешно использовать узел Извлечение терминов, необходимы определенные знания синтаксиса регулярных выражений.

В процессе работы с узлом вы также можете определить несколько атрибутов, которые частично соответствуют сегментам составленных вами правил, а затем указать эти атрибуты в отдельных колонках выходной таблицы.

Например, имея правило для телефонных номеров, вы можете создать атрибут "код области", который извлекает телефонный код области из номера и сохраняет его в отдельной колонке в таблице выходных данных.

Расположение узла Извлечение терминов на палитре узлов

Несмотря на то, что работа с данным узлом подразумевает большой объем текстового анализа, узел Извлечение терминов расположен в разделе Операции с колонками палитры узлов, т.к. его основное назначение – создание таблицы данных.

Соединения на скрипте

Для того, чтобы настроить и запустить узел Извлечение терминов, необходимо одно входящее соединение из любого другого узла, который производит таблицу данных, например, узел-источник данных, узел операций с колонками, строками или таблицами. Исходная таблица данных должна содержать как минимум одну текстовую колонку.

extract terms flowchart.rus

Результатом работы узла Извлечение терминов является массив (таблица) данных.