Подробнее о вкладке Ключевые слова
Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.

В таблице ключевых слов могут быть представлены не все ключевые слова. Для этого есть ряд причин. Например, когда таблица ключевых слов заимствуется из выходных данных узла Извлечение ключевых слов, и этот узел настроен на фильтрацию некоторых слов, то некоторые ключевые слова не будут включены в выходные данные таксономии.

Некоторые слова также могут отсутствовать в списке ключевых слов, т.к. они присутствуют в используемых словарях стоп-слов.

Таблица ключевых слов является интерактивной. Над таблицей есть панель инструментов, с помощью которой можно выполнять различные операции, например, осуществлять сортировку таблицы по одной или нескольким колонкам. Вы также можете экспортировать таблицу в файлы различного формата.

tax view keywords tab.rus

Некоторые метрики в таблице ключевых слов представляют только выбранную категорию, другие характеризуют таблицу в целом. Например, в колонке Частота (Frequency) содержится указание на то, сколько раз слово встречается в выбранном подмножестве записей (одной категории). В колонке Общая частота (Total frequency) указывается количество повторов слова во всей исходной таблице.

В зависимости от выбранного режима классификации одна и та же запись может входить в несколько категорий. В связи с этим некоторые статистические данные, например, частоту ключевых слов, не следует рассматривать как агрегированное значение.

Колонка В запросе (In query) содержит булевые значения, которые определяют, используется ли то или иное ключевое слово в выражении категории таксономии. Если слово присутствует в выражении, в колонке отобразится значение "yes". Вы можете отсортировать таблицу по данной колонке, чтобы просмотреть статистику использования ключевых слов в выражении.

tax view keywords inquery.rus

Таблица ключевых слов часто может быть использована для улучшения таксономии и сокращения числа записей без категории (т.е. тех записей, которые попадают в категорию Прочие).

Например, выберите категорию Прочие в таксономии. Затем перейдите на вкладку Ключевые слова. Отсортируйте таблицу ключевых слов по частоте в нисходящем порядке (от самой высокой частоты до самой низкой). Изучите наиболее частотные слова. Скорее всего, среди них найдется слово, которое, на ваш взгляд, позволяет отнести запись к другой созданной вами категории, но почему-то эта запись попала в группу Прочие. Затем внимательно просмотрите PDL-выражение, которое вы использовали для выделения категории. Отредактируйте выражение так, чтобы оно учитывало, например, альтернативную морфологическую форму слова. Обновите таксономию и еще раз изучите ключевые слова для записей без категории. Если вы все сделали правильно, список должен измениться. Повторяйте данное действие до тех пор, пока не сведете количество записей в категории Прочие к минимуму.

Также может быть полезно изучить изменение частоты одного и того же ключевого слова от категории к категории. У каждой группы будет своя статистика. Это позволит вам лучше понять исходные данные, которые вы пытаетесь разделить на пользовательские категории.

Вкладка Ключевые слова – полезный инструмент, который позволяет выявить причины низкой точности таксономии и предоставляет способы их устранения.

В идеале таксономия должна содержать такие категории, которые концептуально отличаются друг от друга и не пересекаются. Один из способов максимально приблизиться к этому идеалу предполагает изучение и сравнение частоты терминов в пределах отдельной категории (см. колонку Частота (Frequency)) с общей частотой (см. колонку Общая частота (Total frequency)). Нужно стремиться к тому, чтобы в 100% случаев термин использовался только в отдельной категории, что сделает ее уникальной.

Если при сравнении частоты терминов в пределах категории и всей таблицы вы обнаружите, что какое-то ключевое слово не указывает однозначно на одну категорию, это значит, что выбирать это слово в качестве критерия классификации не следует. Например, подумайте про служебные слова (предлоги или артикли). Они в изобилии используются в любом тексте, но если включить их в PDL-выражение, результат работы узла будет неточным и бесполезным. Наверняка в анализируемых записях найдутся более значимые, но менее очевидные термины, которые, если их использовать в качестве критериев классификации, позволят значительно повысить точность и значимость таксономии. В этом и заключается специфика анализа данных на основе самих данных (data-driven analysis). При использовании данного подхода достигаются более качественные результаты, чем при настройке категорий "вручную" (с использованием PDL-выражений) без учета манеры выражения и стиля автора исследуемого текста.