Узел Разметка текста

Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.

Узел Разметка текста позволяет выполнять классификацию слов из исходной текстовой колонки по частям речи. Этот процесс обычно называют частеречной разметкой (разметкой частей речи), или тегированием (от англ. POS-tagging, part-of-speech tagging), или лексико-грамматической категоризацией. Программные компоненты, которые выполняют эту функцию, известны как инструменты частеречной, или автоматической морфологической разметки (POS-разметчики). Цель POS-разметки – точно определить лексико-грамматическую категорию каждого слова в документе. Под лексико-грамматической категорией также понимают часть речи, (лексический) класс слова, синтаксическую категорию или грамматический класс.

Вы наверняка уже выполняли подобную процедуру (процедуру частеречной разметки) при изучении русского языка в школе, когда в предложении нужно было определить, является ли отдельное слово существительным, глаголом, наречием и т.д. В нашем случае задача заключается в том, чтобы алгоритм выполнял такую же классификацию на большом количестве документов (значений текстовой колонки) автоматически и с максимальной эффективностью.

Узел Разметка текста использует алгоритм парсинга составляющих, результаты которого доступны в колонке с суффиксом parsed. Парсер составляющих описывается в дальнейших главах данного раздела.

На палитре узлов Разметка текста расположен в разделе Текстовый анализ.

Соединения на скрипте

Узел Разметка текста в качестве исходных данных принимает таблицу. Чтобы правильно настроить и выполнить узел, исходная таблица должна содержать как минимум одну колонку текстового типа. Родительским узлом для узла Разметка текста может быть любой узел, который производит таблицу данных, например, узел-источник данных, узлы операций с колонками или строками.

Выходом узла Разметка текста является таблица, следовательно, данный узел можно соединить с любым другим узлом, который в качестве исходных данных принимает таблицу.

Для чего нужна частеречная разметка? Как используется узел Разметка текста?

POS-разметка является распространенным и зачастую весьма важным компонентом программ, которые анализируют тексты. POS-разметчики также применяются в поисковых системах, но в них эта технология обычно скрыта от конечных пользователей. Информация, полученная в результате частеречной разметки текста, позволяет получать еще более эффективные результаты, выполняя другие типы анализа. Например, узел Извлечение сущностей также использует разметку частей речи. Его цель – найти такие сущности, как имена людей, названия организаций, телефонные номера, адреса веб-сайтов и т.д. Если при обработке текста сначала использовать разметку частей речи, то инструменты извлечения сущностей при их распознавании в тексте работают эффективнее. Например, при определении того, какие именно слова являются именами людей, названиями организаций или мест, алгоритм извлечения сущностей можно настроить таким образом, чтобы он обрабатывал только существительные.

Таким же образом, распределение слов из входных данных по частям речи позволяет вам просматривать списки слов, которые были отфильтрованы по конкретным грамматическим категориям. Например, при использовании узла Извлечение ключевых слов удобнее просматривать список только наиболее часто встречающихся глаголов или существительных. При этом полученные данные могут быть полезнее, чем целый список всех слов. Вы также можете отфильтровать все слова, которые считаются служебными (например, такие слова, как при, уж, и), поскольку эти слова редко имеют отношение к выраженным в тексте идеям.

В аналогичном смысле если вы хотите выполнить анализ структурированных данных на свойствах, извлеченных из текста, то можно использовать только определенные классы слов в качестве возможных независимых атрибутов для модели классификации или кластеризации.

В исследовательском проекте узел Разметка текста обычно используется после того, как исходный текст был подготовлен для анализа (например, были исправлены орфографические ошибки), а также в качестве родительского узла для иных инструментов текстового анализа, которые для получения результатов используют информацию о частях речи.