Значимость ключевых слов

Значимость рассчитывается по шкале от 0 до 100. Данное значение показывает, насколько уникально конкретное ключевое слово для всех текстов в исследуемой колонке. Некоторые ключевые слова выделяются не благодаря частоте, а благодаря тому, что слово встречается чаще других в данном тексте, чем в среднем по колонке. Чем больше значимость, тем больше вероятность того, что понятия в исследуемых данных тесно связаны с этим словом.

Например, если у вас есть 1000 книг по теме "Собаки", вы предполагаете, что слово слон по сравнению со словом собака будет встречаться гораздо реже. Если вы возьмете одну дополнительную книгу о слонах, то частота слова слон в пределах одной книги будет отличаться от частоты (на книгу) в остальных 1000 книгах.

В этом примере частота слова слон зависит именно от этой 1000 книг, а не от одной дополнительной. Так измеряется реальное использование слова. Если открыть каждую прочитанную вами книгу, частота такого слова, как слон будет не очень высокой. Однако, если бы вам нужно было открыть одну книгу о слонах, то вы бы ожидали получить частоту выше средней. Именно эта средняя частота и есть значимость.

Другими словами, значимость слова показывает "аномальность" распределения данного слова по всем текстам, которые вы анализируете. Такое "аномальное" слово встречается: а) чаще, чем другие слова; б) в меньшем количестве текстов.

Слова, которые встречаются во всех прочих текстах и с обычной частотой не будут обладать большой значимостью.

В большинстве случаев мера значимости может быть полезнее, чем частота, поскольку некоторые слова в тексте имеют большую частоту, чем другие, но эти слова не всегда важны для понимания сути текста. Например, примитивным подходом к анализу текста будет учет наиболее частых слов как наиболее важных, в результате чего будет сделано предположение, что речь в документе идет об этих словах. Это предположение не всегда верно. Некоторые слова изначально используются часто в любом тексте. Так, например, каждый текст на английском языке всегда содержит такие слова с высокой частотой употребления, как артикль the. Вместо того, чтобы определять эти важные ключевые слова на основе частоты, вы можете использовать значимость в качестве более точной меры.

Следует помнить, что расчет значимости слова производится в контексте анализируемых документов. При этом значимость ключевого слова определяется в его соотношении с со сбалансированным корпусом того или иного языка, т.е. зафиксированного объема письменных и устных текстов различного происхождения и различной тематики.

Показатель значимости слова также будет увеличиваться, если такое слово реже встречается в сбалансированном корпусе соответствующего языка. Иначе говоря, если слово в данном конкретном тексте встречается чаще, чем в среднем по языковому корпусу, то такое слово является ключевым.

В системе PolyAnalyst cбалансированный корпус языка берется из словаря Статистики.

ke stats dict.rus

Подробнее о работе со словарем Статистики в контексте узла Извлечение ключевых слов см. настройку связанных словарей, которая описана в следующем разделе.

Локальная значимость

Локальная значимость – мера, которая полезна при выполнении контекстного анализа. Общая значимость рассчитывается для всего набора данных и относится ко всем имеющимся документам, в то время как локальная значимость характеризует релевантность ключевого слова по отношению к конкретной записи. В последнем случае учитываются особенности соответствующего текста.