Узел Извлечение ключевых слов
Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.
tmlkeywordextractor big

Узел Извлечение ключевых слов генерирует интерактивный отчет, содержащий ключевые слова и прочие статистические данные, которые были извлечены из текстовой колонки исходной таблицы данных. Результаты извлечения позволяют быстро понять суть данных, а также получить представление о том, как настроить другие узлы, например, узел Таксономия.

Данный узел обычно применяется на ранних этапах анализа. Вы также можете использовать результаты узла для создания таблиц слов, которые буду участвовать в других видах текстового анализа.

В системе PolyAnalyst имеется несколько узлов для исследования ключевых слов и фраз. В частности, узел Извлечение ключевых слов – это простой и быстрый способ изучения некоторых часто упоминаемых в тексте терминов. Кроме того, вы можете исследовать цепочки слов (фраз) или специальных категорий слов (сущностей), например, адреса электронной почты, почтовые адреса, а также имена людей или названия организаций.

Соединения на скрипте

Узел Извлечение ключевых слов принимает на входе таблицу, таким образом, в качестве родительского может выступать любой узел PolyAnalyst, который производит таблицу данных. Например, можно настроить узел-источник данных, такой как Файлы CSV, а затем подключить его к узлу Извлечение ключевых слов. Исходная таблица данных также должна содержать текстовую колонку.

Узел Извлечение ключевых слов будет автоматически индексировать исходный текст в соответствии с алгоритмом индексирования PolyAnalyst по умолчанию. Вы можете изменить используемые по умолчанию настройки индексации текста с помощью узла Индекс, разместив его непосредственно перед узлом Извлечение ключевых слов. Таблица, используемая в качестве исходной для узла Индекс,также будет исходной и для узла Извлечение ключевых слов.

Узел Извлечение ключевых слов производит несколько видов отчета. Основным является интерактивный отчет, представленный в окне просмотра результатов. Однако узел Извлечение ключевых слов создает еще и модель, которая может использоваться многими другими узлами.

Например, вы можете соединить узел Извлечение ключевых слов с узлом Таксономия. В этом случае таксономия будет работать с той же исходной таблицей данных, что и узел Извлечение ключевых слов. В окне просмотра результатов узла Таксономия также появится вкладка Ключевые слова, содержащая только те слова, которые были найдены узлом Извлечение ключевых слов. Кроме того, таксономия будет использовать тот же индекс, что и в узле Извлечение ключевых слов.

Узел Извлечение ключевых слов можно соединить и с узлом Производная таблица, чтобы создать таблицу со структурированными данными. В зависимости от настроек дочернего узла Производная таблица вы можете создать разные таблицы. Например, вы можете создать таблицу, состоящую из исходной текстовой колонки и колонки с булевым (логическим) типом данных, в которой для каждого ключевого слова, присутствующего в записях, будет отображаться положительное (истинное) значение. Далее эту структурированную таблицу можно использовать в качестве исходной для одного из многих узлов анализа структурированных данных. Например, можно использовать колонки с ключевыми словами как независимые переменные для одного из алгоритмов классификации PolyAnalyst (например, Дерево решений), чтобы узнать, могут ли ключевые слова спрогнозировать категориальное значение. Предположим, у вас имеется таблица с отчетами о состоянии ценных бумаг, где обозначены решения о покупке и продаже. Вы можете использовать ключевые слова из этих отчетов для создания модели, которая позволила бы спрогнозировать оптимальные условия для покупки или продажи ценных бумаг в зависимости от присутствия, отсутствия или частоты использования определенных ключевых слов.