Результаты узла Извлечение ключевых слов
Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.

Выходные данные Извлечение ключевых слов узла представлены на пяти вкладках: Тексты, Таблица ключевых слов, Облако ключевых слов, Статистика и Настройки.

О вкладке Тексты

На вкладке Тексты представлены записи из исходной таблицы данных, а также список ключевых слов для каждой отдельной записи:

window view texts.rus

Нажмите на ключевое слово в списке справа для того, чтобы подсветить соответствующее слово в текстовой панели.

Если в окне настроек узла была включена опция Подсчет локальной значимости, в отчете будет активна кнопка Показать локальную значимость. Нажмите на нее для добавления в таблицу справа дополнительной колонки с соответствующими статистическими данными:

window view texts local significance.rus
Вкладка Таблица ключевых слов

Вкладка Таблица ключевых слов разбита на три основных раздела:

window view keywords table.rus

В левой верхней части представлена таблица ключевых слов и их свойства. Под таблицей – панель с более подробной информацией о выбранном ключевом слове. В правой части расположена область детализации, отображающая записи, содержащие выбранное ключевое слово.

Таблица ключевых слов содержит список ключевых слов, найденных узлом. Каждая строка соответствует одному ключевому слову. В таблице имеются следующие колонки:

  • Ключевое слово – ключевые слова, которые можно отобразить в алфавитном или в естественном порядке;

  • Значимость – метрика значимости. Подробнее об этом см. раздел Значимость ключевых слов;

  • Поддержка – количество записей, содержащих ключевое слово;

  • Частота – показатель того, сколько раз ключевое слово встречается в данных.

Значение ключевого слова, отображаемое в таблице, нормализуется. Даже если в исходных данных слово встречается в верхнем или в разных регистрах, в отчете узла ключевое слово всегда будет отображаться в нижнем регистре.
Значение всегда нормализуется морфологически. Множественное число и другие формы ключевого слова объединяются в форму единственного числа. Например, слово dog в таблице фактически может соответствовать не только случаям употребления слова dog, но также dogs и dogged.

Ключевые слова, обнаруженные узлом, отображаются в виде стандартной сетки данных. В связи с этим все опции, доступные для сетки данных, доступны и при просмотре списка. Например, можно сортировать список по различным колонкам, осуществлять поиск по списку, выполнять фильтрацию, экспортировать некоторые слова и так далее. Для получения дополнительной информации по выполнению каждого действия см. раздел по просмотру данных.

Обратите внимание на полупрозрачные столбики на фоне значений колонок в таблице ключевых слов. Такое цветовыделение выполняет функции гистограммы. Самое высокое значение обозначается полным цветным столбиком.

С помощью функции экспорта данных, которая доступна на панели инструментов, вы можете экспортировать как всю таблицу, так и только выбранные ключевые слова.

Цветовая маркировка ключевых слов

Некоторые слова и фразы в списке ключевых слов выделяются цветным шрифтом. Цвет обозначает принадлежность слов и фраз к конкретным словарям.

  • Зеленый цвет обозначает слова и фразы, которые имеются в словаре фраз (Phrases);

  • Серый цвет применяется для слов и фраз, которые присутствуют в словаре стоп-слов (StopLists). Эти слова исчезнут из таблицы после перевыполнения узла;

  • Фиолетовый и красный цвета обозначают слова и фразы, которые имеются в словаре синонимов (Synonyms). Фиолетовым цветом обозначаются заголовки синонимичных групп (например, "bus service"), а красным – все синонимы, которые не являются заголовками групп (например, "bus company"). После перевыполнения узла такие синонимы будут объединены с заголовками.

Пользователи могут настроить цвета по своему усмотрению. Для этого в контекстном меню скрипта выберите Настройки проекта…​, переключитесь на вкладку Настройки пользователя и перейдите в раздел Цветовые настройки.

Использованию меню Показать

Выпадающее меню Показать, которое расположено над таблицей ключевых слов позволяет пользователям отобразить/скрыть дополнительную информацию и колонки.

window view menu view.rus

В меню доступны следующие опции:

  • Показать только стандартные фразы – позволяет отобразить в таблице только стандартные словосочетания из используемого словаря фраз (Phrases);

  • Показать только слова, имеющие синонимы – позволяет отобразить в таблице только те ключевые слова и фразы, которые имеют синонимы в используемом словаре синонимов (Synonyms);

  • Показать часть речи – добавляет отдельную колонку с частями речи всех ключевых слов в таблице;

  • Показать корпусную статистику – добавляет колонки, содержащие значения поддержки и частоты ключевых слов в статистическом словаре Statistics (если словарь статистики указан в настройках узла). В случае, если статистический словарь отключен, в дополнительных колонках отображается внутренняя статистика по исходной таблице данных, т.е., например, колонки Поддержка и Поддержка в корпусе будут содержать одно и то же значение для отдельного ключевого слова;

  • Нормализовать значимость – позволяет перевести все значения значимости ключевых слов в промежуток от 0 до 100. По умолчанию данная опция включена;

  • Показать детализацию – позволяет отобразить/скрыть область детализации, содержащую все записи, в которых встречается отдельное ключевое слово. По умолчанию данная опция включена.

Детализация ключевых слов

Выберите ключевое слово в таблице для просмотра записей, содержащих это ключевое слово, в поле справа. Оно представлено в виде стандартной сетки данных.

Текстовая панель над записями отображает полный текст выбранной в данный момент записи. Ключевые слова в текстовой панели выделяются цветом. Слово также выделяется цветом в самой сетке данных. Помните, что сетка данных отображает только первые 100 символов для колонок текстового типа. Для просмотра случаев употребления слова всегда ориентируйтесь на полный текст в текстовой панели, поскольку слово может не появиться в первых 100 символах текста.

Не забудьте, что ключевые слова в таблице нормализованы. Например, даже если вы выбрали слово dog в таблице, в области детализации в исходной записи может быть представлено слово dogs. В исходных данных форма слов не изменяется.

Для перемещения между случаями употребления слова (но не записями) используйте кнопки button previous highlighted и button next highlighted на панели инструментов текстовой панели. Если слово появляется в одной и той же записи несколько раз, то при нажатии на эти кнопки фокус текстовой панели будет перемещен до предыдущего/следующего употребления слова в пределах той же записи.

Нажмите на кнопку Настройки для отображения меню стандартных опций таблицы данных. Для получения дополнительной информации по опциям см. раздел по просмотру данных.

PolyAnalyst также добавляет новую колонку Частота к таблице в поле детализации. Исходные данные при этом не изменяются. Данная колонка показывает количество вхождений ключевого слова в каждой записи в таблице.

Поиск и фильтрация таблицы ключевых слов

Используйте кнопку Найти на панели инструментов для отображения/скрытия панели поиска под таблицей ключевых слов. Поиск можно выполнять по любой колонке. Данный функциональная возможность аналогична опции Найти для сетки данных. Для получения дополнительной информации см. раздел по просмотру данных.

Опция Фильтр работает так же, как и во многих других таблицах данных PolyAnalyst. Подробное описание доступно в том же разделе по просмотру данных.

Просмотр статистики и дополнительной информации по выбранному слову в таблице ключевых слов

Информационная панель, расположенная под таблицей ключевых слов, отображает дополнительные сведения о выбранном слове. Данная информация сгруппирована по вкладкам:

  • Вкладка Часть речи отображает различные части речи, найденные в тексте, а также статистические данные по каждому случаю употребления слова, например, сколько раз данное слово использовалось как существительное и сколько раз как глагол.

  • Вкладка Синонимы отображает синонимы для выбранного слова в соответствии с используемым словарем синонимов, при наличии.

  • Вкладка Супермножество отображает группы понятий, к которым относится данное слово в словаре WordNet (например, слово компьютер может относиться к набору понятий машины).

  • Вкладка Шкала времени отображается только при условии выбора колонки с датой/временем в настройках предшествующего узла Индекс:

    window timeline condition index.rus

    На данной вкладке представлено изменение встречаемости выбранного ключевого слова с течением времени. Соответственно, по оси X отображается время, а по оси Y – количество документов, в которых встретилось данное ключевое слово.

  • Вкладка Словари показывает, присутствует ли слово в одном или нескольких используемых словарях.

Создание новых узлов при просмотре результатов узла Извлечение ключевых слов

Результаты узла Извлечение ключевых слов могут быть использованы для создания других узлов с предварительной настройкой. На панели инструментов нажмите кнопку Сгенерировать для отображения списка доступных узлов.

После того, как вы выберете узел, PolyAnalyst добавит его на скрипт и настроит. Как правило, PolyAnalyst пытается разместить узел справа от узла Извлечение ключевых слов. Однако если это место занято, PolyAnalyst подберет другое расположение. Для того, чтобы найти новый узел на скрипте, ориентируйтесь на исходящие соединения из узла Извлечение ключевых слов.

Выберите Связь терминов для создания узла Связь терминов с предварительной настройкой. Он используется для визуализации ассоциативных связей между извлеченными ключевыми словами.

Выберите Таксономия, чтобы создать узел Таксономия с предварительной настройкой. PolyAnalyst создаст категорию таксономии на основе каждого ключевого слова. Каждая категория создается с помощью выражения, которое ищет данное ключевое слово.

Выберите Таблица для добавления нового узла Производная таблица. Создание производной таблицы позволяет пользователям сохранить таблицу ключевых слов в виде отдельного набора данных, который может использоваться в качестве родительского узла для любого узла, который принимает на входе таблицу данных. Настройка узла Производная таблица, созданного на основе результатов узла Извлечение ключевых слов, описана в специальном разделе.

Наведите курсор на опцию Производные колонки и выберите один из режимов создания узла Производные колонки с предварительной настройкой. Узел Производные колонки создает новые колонки для каждого выбранного ключевого слова в таблице. Опция Да/нет создает колонки с булевым типом данных, а Частота – целочисленные колонки.

Вне зависимости от того, что вы выбрали, откроется дополнительное окно для ввода имени нового узла. Вы можете использовать имя, предлагаемое по умолчанию, или указать другое:

window generate node name.rus

Обратите внимание на опцию Использовать только выбранные объекты. Она доступна только для узла Производные колонки, и только в том случае, когда вы предварительно выделили отдельные ключевые слова в таблице (используя клавиши Shift или Ctrl). По умолчанию данная опция отключена.

Нажмите ОК для создания узла. Теперь вы можете вернуться на скрипт для работы с этим дочерним узлом.

Изменение временного диапазона при просмотре результатов узла Извлечение ключевых слов

Узел Извлечение ключевых слов позволяет выбирать в отчете временной диапазон, внутри которого должны определяться ключевые слова. Изначально узел извлекает ключевые слова из всей родительской таблицы данных. В ходе просмотра результатов узла пользователи могут задать временной диапазон документов для пересчета ключевых слов так, как если бы исходная таблица данных содержала только документы выбранного временного интервала. Для таких целей на панели инструментов вкладки Таблица ключевых слов имеется кнопка Диапазон дат.

Обратите внимание на то, что кнопка Диапазон дат появляется в отчете узла Извлечение ключевых слов только тогда, когда для документов исходного набора данных определены даты. Распределение документов по дате возможно благодаря узлу Индекс. Для этого узлу Извлечение ключевых слов на скрипте должен предшествовать узел Индекс, в настройках которого на вкладке Выбор колонок должна быть определена колонка с датами. При такой конфигурации будут сохранены даты для документов, которые могут быть в дальнейшем использованы как различными алгоритмами, так и самими пользователями посредством PDL-функции docdate.

Для того, чтобы узел Извлечение ключевых слов пересчитал ключевые слова в записях в пределах определенного временного интервала, нажмите на кнопку Диапазон дат:

window view date range.rus

Откроется дополнительное окно настроек:

window date range.rus

Используете выпадающее меню для определения диапазона, заполнив поля С и По. В качестве альтернативы вы можете выбрать на временной шкале начальную дату, зажать левую кнопку мыши, после чего переместить курсор до конечной даты.

После выбора диапазона нажмите OK для обновления таблицы ключевых слов. Теперь она будет содержать только те ключевые слова, которые были извлечены из документов выбранного диапазона, с обновленными значениями релевантности, поддержки и частоты.

Вкладка Облако ключевых слов

На вкладке Облако ключевых слов отображается облако слов. Облако слов – это визуализация некоторых ключевых слов. Чем выше частота, значимость или поддержка слова, тем больше размер шрифта ключевого слова в облаке. Эти же три параметра определяют цвет слова в облаке. Расположение терминов в облаке значения не имеет и влияет только на эстетическое восприятие.

window view keywords cloud.rus

Нажмите на термин в облаке, чтобы выполнить детализацию (как и в случае с детализацией ключевых слов на предыдущей вкладке).

См. описание узла Облако тегов, в котором представлена подробная информация об использовании облака слов.