Использование узла Производная таблица с узлом Извлечение ключевых слов

Если узел Производная таблица соединен с узлом Извлечение ключевых слов, окно настроек будет выглядеть следующим образом:

window properties ke settings.rus

Используйте выпадающее меню в левом верхнем углу для выбора типа таблицы:

  • Список ключевых слов – узел создаст таблицу со списком ключевых слов, которые были извлечены родительским узлом;

  • Строки с ключевыми словами – узел создаст таблицу, в которой каждое вхождение ключевого слова будет представлено в виде отдельной строки. Отчет также будет содержать текстовую колонку с исходными записями и подсвеченными ключевыми словами;

  • Колонки с ключевыми словами – узел создаст таблицу, в которой за исходными для узла Извлечение ключевых слов колонками может следовать любое количество колонок с ключевыми словами (по одному в колонке). Новые колонки могут содержать информацию о наличии ключевого слова в документе (да/нет) или сведения о частоте каждого ключевого слова;

  • Статистика текста – узел создаст таблицу со статистическими данными для каждого документа:

    • Average significance (Средняя значимость) – средняя значимость всех ключевых слов в записи;

    • TTR (Коэффициент лексического разнообразия);

    • Keywords number (Количество ключевых слов) – общее количество ключевых слов в конкретном документе;

    • Unique keywords number (Количество уникальных ключевых слов) – количество уникальных ключевых слов в конкретном тексте. Например, если документ содержит ключевые слова police, officer, officer и police, то количество ключевых слов равно 4, а количество уникальных ключевых слов – 2 (police и officer);

    • Sentences number (Количество предложений) – количество предложений в конкретной записи;

    • Paragraphs number (Количество абзацев) – количество абзацев в конкретном документе.

Отметьте галочкой опцию Объединять части речи для того, чтобы скрыть информацию о части речи и отображать только форму слова.

Опция Нормализовать значимость позволяет перевести все значения значимости ключевых слов в диапазон от 0 до 100.

По желанию пользователи могут добавить в отчет узла дополнительные колонки, отметив галочкой соответствующие пункты в разделе Показать колонки. Если выбран тип таблицы Строки с ключевыми словами, в список будет добавлена колонка Локальная значимость. Для того, чтобы иметь возможность включить данную опцию, необходимо настроить родительский узел Извлечение ключевых слов на вычисление данного параметра. В противном случае данный элемент списка будет неактивным. В режимах Список ключевых слов и Строки с ключевыми словами доступна колонка PDL-запрос, которая может быть использована дочерним узлом Параметры для создания таксономии.

Раздел Диапазон дат позволяет отфильтровать исходные записи, выставив начальные и конечные значения. Однако для того, чтобы иметь возможность настроить данные опции, необходимо выполнить определенные условия. Подробная информация представлена в данном разделе (см. абзац, посвященный диапазону дат).

Опции раздела Фильтровать ключевые слова позволяет задать минимальные пороговые значения значимости, поддержки и частоты, а также максимальное количество ключевых слов для отображения в результирующей таблице.

В режиме Строки с ключевыми словами вы дополнительно можете настроить фильтр Количество наиболее значимых ключевых слов в документе. Для этого отметьте галочкой флажок рядом с именем опции и укажите значение в поле справа (по умолчанию – 100). В этом случае для каждой записи будет составлен своего рода рейтинг ключевых слов по показателю значимости, а в отчет узла Производная таблица войдут только первые N из них, где N – значение, которое указал пользователь. В качестве альтернативы вы можете использовать показатель локальной значимости, отметив галочкой соответствующую вспомогательную опцию.

Отфильтровать ключевые слова также можно и с помощью SRL-выражения, которое вводится в специальном поле в нижней части окна.