Словарь статистики

Словари Статистики содержат слова и статистические данные этих слов, например, показатель средней частоты встречаемости слова в корпусе языка. Когда в узле Извлечение ключевых слов вычисляется значимость ключевого слова, PolyAnalyst сравнивает частоту встречаемости слова в анализируемых данных со средней частотой слова в соответствующем статистическом словаре. Простыми словами, узел определяет, встречается ли это слово в анализируемых данных чаще, чем в среднем по языку. Слово, которое встречается чаще, чем обычно, с большей вероятностью будет ключевым.

stat general.rus

Словарь Статистики содержит следующую информацию о словах:

1) Его часть речи;

2) Поддержка;

3) Частота.

Поддержка – это количество документов в корпусе, в которых встречается данное слово. Для каждой части речи отображается общее значение поддержки.

Частота – это количество вхождений слова в данном конкретном документе. Для каждой части речи отображается общее значение частоты.

Для каждой формы слова также представлены собственные значения Поддержки и Частоты.

stat overview.rus

Статистический словарь по умолчанию был создан компанией Мегапьютер путем изучения частотности терминов на очень большом количестве документов, охватывающих различные темы.

Словари Статистики уникальны: они не могут быть созданы и/или отредактированы с помощью Менеджера словарей.

Именно по этой причине опция Импортировать записи на панели инструментов в редакторе неактивна. Редактирование словаря также недоступно.

Создание пользовательских статистических словарей

Тем не менее вы можете создать собственный словарь статистики на основе выбранного вами корпуса текстов, в котором вас интересует частота конкретных лексических единиц. Чтобы создать пользовательский словарь статистики, выполните следующие действия:

  1. Создайте и выполните узел Индекс на основе данных, с которыми вы работаете в данный момент.

    stat example.rus
  2. Откройте окна просмотра результатов узла Индекс и выберите вкладку Лексемы.

    stat index view.rus
  3. В меню Сгенерировать выберите Словарь статистики.

    stat index.rus
  4. В новом окне введите имя и описание словаря, а также укажите, где он должен быть сохранен – на сервере или в конкретном проекте.

    stat custom.rus

PolyAnalyst создаст новый статистический словарь на основе результатов узла Индекс. Теперь вы можете использовать новый словарь в узле текстового анализа. Например, вы можете соединить узел Индекс с узлом Извлечение ключевых слов, и затем выбрать новый словарь на вкладке Словари узла Извлечение ключевых слов.