Словарь статистики
Словари Статистики содержат слова и статистические данные этих слов, например, показатель средней частоты встречаемости слова в корпусе языка. Когда в узле Извлечение ключевых слов вычисляется значимость ключевого слова, PolyAnalyst сравнивает частоту встречаемости слова в анализируемых данных со средней частотой слова в соответствующем статистическом словаре. Простыми словами, узел определяет, встречается ли это слово в анализируемых данных чаще, чем в среднем по языку. Слово, которое встречается чаще, чем обычно, с большей вероятностью будет ключевым.
Словарь Статистики содержит следующую информацию о словах:
1) Его часть речи;
2) Поддержка;
3) Частота.
Поддержка – это количество документов в корпусе, в которых встречается данное слово. Для каждой части речи отображается общее значение поддержки.
Частота – это количество вхождений слова в данном конкретном документе. Для каждой части речи отображается общее значение частоты.
Для каждой формы слова также представлены собственные значения Поддержки и Частоты.
Статистический словарь по умолчанию был создан компанией Мегапьютер путем изучения частотности терминов на очень большом количестве документов, охватывающих различные темы.
Словари Статистики уникальны: они не могут быть созданы и/или отредактированы с помощью Менеджера словарей.
Именно по этой причине опция Импортировать записи на панели инструментов в редакторе неактивна. Редактирование словаря также недоступно.
Создание пользовательских статистических словарей
Тем не менее вы можете создать собственный словарь статистики на основе выбранного вами корпуса текстов, в котором вас интересует частота конкретных лексических единиц. Чтобы создать пользовательский словарь статистики, выполните следующие действия:
-
Создайте и выполните узел Индекс на основе данных, с которыми вы работаете в данный момент.
-
Откройте окна просмотра результатов узла Индекс и выберите вкладку Лексемы.
-
В меню Сгенерировать выберите Словарь статистики.
-
В новом окне введите имя и описание словаря, а также укажите, где он должен быть сохранен – на сервере или в конкретном проекте.
PolyAnalyst создаст новый статистический словарь на основе результатов узла Индекс. Теперь вы можете использовать новый словарь в узле текстового анализа. Например, вы можете соединить узел Индекс с узлом Извлечение ключевых слов, и затем выбрать новый словарь на вкладке Словари узла Извлечение ключевых слов.