Значимость ключевых слов
Значимость рассчитывается по шкале от 0 до 100. Данное значение показывает, насколько уникально конкретное ключевое слово для всех текстов в исследуемой колонке. Некоторые ключевые слова выделяются не благодаря частоте, а благодаря тому, что слово встречается чаще других в данном тексте, чем в среднем по колонке. Чем больше значимость, тем больше вероятность того, что понятия в исследуемых данных тесно связаны с этим словом.
Другими словами, значимость слова показывает "аномальность" распределения данного слова по всем текстам, которые вы анализируете. Такое "аномальное" слово встречается: а) чаще, чем другие слова; б) в меньшем количестве текстов.
Слова, которые встречаются во всех прочих текстах и с обычной частотой не будут обладать большой значимостью. |
В большинстве случаев мера значимости может быть полезнее, чем частота, поскольку некоторые слова в тексте имеют большую частоту, чем другие, но эти слова не всегда важны для понимания сути текста. Например, примитивным подходом к анализу текста будет учет наиболее частых слов как наиболее важных, в результате чего будет сделано предположение, что речь в документе идет об этих словах. Это предположение не всегда верно. Некоторые слова изначально используются часто в любом тексте. Так, например, каждый текст на английском языке всегда содержит такие слова с высокой частотой употребления, как артикль the. Вместо того, чтобы определять эти важные ключевые слова на основе частоты, вы можете использовать значимость в качестве более точной меры.
Следует помнить, что расчет значимости слова производится в контексте анализируемых документов. При этом значимость ключевого слова определяется в его соотношении с со сбалансированным корпусом того или иного языка, т.е. зафиксированного объема письменных и устных текстов различного происхождения и различной тематики.
Показатель значимости слова также будет увеличиваться, если такое слово реже встречается в сбалансированном корпусе соответствующего языка. Иначе говоря, если слово в данном конкретном тексте встречается чаще, чем в среднем по языковому корпусу, то такое слово является ключевым. |
В системе PolyAnalyst cбалансированный корпус языка берется из словаря Статистики.
Подробнее о работе со словарем Статистики в контексте узла Извлечение ключевых слов см. настройку связанных словарей, которая описана в следующем разделе.
Локальная значимость
Локальная значимость – мера, которая полезна при выполнении контекстного анализа. Общая значимость рассчитывается для всего набора данных и относится ко всем имеющимся документам, в то время как локальная значимость характеризует релевантность ключевого слова по отношению к конкретной записи. В последнем случае учитываются особенности соответствующего текста.