N-граммный анализ

Некоторые узлы в PolyAnalyst выполняют N-граммный анализ. Например, алгоритм отсева "шума", который используется в узле Извлечение ключевых слов. Этот термин получил широкое применение в специальной литературе разных предметных областей. N-граммный анализ – метод обработки естественного языка (метод анализа текста). Обычно документы разбиваются на отдельные слова или буквы. Затем по отдельным словам и буквам собираются различные статистические данные, например, определяется их частота.

"Грамма" обозначает некую текстовую единицу. Это может быть одна буква, несколько букв, слово или несколько слов (целая фраза).

"N" в термине "N-грамма" обозначает количество последовательных элементов текста, которое варьируется в зависимости от алгоритма. Например, алгоритм, который ищет фразы, может искать фразы, состоящие из двух или трех слов. В этом случае N обозначает количество слов во фразе и может варьироваться. Алгоритм обычно пытается выбрать нужное значение для N (это решение обычно является самой важной задачей алгоритма). Иногда N является настраиваемой величиной, или заранее заданной константой (такое в N-граммном анализе также возможно).

Униграмма – это один элемент текста. Этот термин используется редко, поскольку в N-граммном анализе интерес преимущественно представляют последовательности из двух или трех элементов.

Биграмма – последовательность из двух элементов. Можно привести следующие примеры биграмм: ab, bc, cd, ef, af, eg и так далее. Грамма в этих случаях – одна буква. Если грамма является словом, то примерами биграмм будут "dog house", "cat house", "post office" и "corporate office".

Триграмма – последовательность из трех элементов.

Существуют N-граммы более высокого порядка, содержащие более длинные последовательности элементов, но на практике в анализе текста редко приходится иметь дело с N-граммами, содержащими больше трех элементов.