Словари стоп-слов

Словари стоп-слов (StopLists) представляют собой списки слов, которые не должны учитываться в ходе анализа. Хотя такие слова обычно являются наиболее часто используемыми словами в языке, они мало чем могут быть полезны в ходе анализа текстовых данных, поскольку обычно лишены собственного лексического значения. Такие слова не исключаются из анализа только в том случае, если в ваши задачи входит поиск точных соответствий. Не, в, да, хотя – все это примеры стоп-слов.

Не существует универсального списка стоп-слов, который мог бы быть использован всеми инструментами анализа текстов на естественном языке. Кроме того, многие подобные инструменты могут быть настроены таким образом, чтобы игнорировать в ходе анализа любые общеупотребимые слова с собственным лексическим значением для того, чтобы повысить качество результатов анализа.

PolyAnalyst предоставляет пользователям два списка стоп-слов по умолчанию (для русского языка):

1) Base (базовый словарь);

Список Base представляет собой базовый список наиболее часто используемых стоп-слов: частицы, предлоги, союзы, местоимения и т.д.

stop list base.rus

2) Keywords (словарь ключевых слов);

Список Keywords содержит расширенный список стоп-слов, где кроме обычных стоп-слов, представлены числительные, вводные слова, названия месяцев, дней недели, слова-паразиты, междометия, стоп-фразы (латинские крылатые обороты и др.).

stop list keywords.rus

Разделение словаря стоп-слов на несколько списков (классов) основано на том, как и где обычно используются данные списки.

Словари, доступные для одного языка, могут содержать разное количество классов для другого языка, например, для французского или испанского языков предусмотрено три класса слов.

Некоторые узлы настроены на использование списка Base по умолчанию. Они отсеивают незначимые служебные слова во время поиска. При использовании списка стоп-слов для классификации текстов, например, при составлении PDL-запросов для выявления категорий таксономии, пользователю достаточно использовать меньший по размеру список, чтобы, например, такая PDL-функция, как pattern(), игнорировала бы как можно больше "мусорных" слов. При этом количество выявленных текстовых шаблонов также сократится до разумных пределов.

Чтобы отредактировать списки (классы) стоп-слов, дважды нажмите на имя нужного класса в окне Менеджера словарей.

stop list base.rus

Окно справа содержит два списка: леммы и части речи. Некоторые леммы могут принадлежать к нескольким частям речи. Все возможные части речи для выбранной леммы указываются в соответствующей колонке. Пользователи могут изменить данный список, отметив необходимые чекбоксы в выпадающем меню.

stop list pos.rus

Создание словаря стоп-слов

Вы можете создать свой собственный стоп-лист, например, чтобы исключить ряд слов из текста при выполнении анализа текста определенной тематики.

Не рекомендуется использовать словарь сервера по умолчанию. Cоздайте новый словарь в окне Менеджера словарей.

Чтобы создать стоп-лист, нажмите на кнопку Добавить класс и введите название будущего класса слов.

stop list mine.rus

Затем щелкните правой кнопкой мыши на созданную запись и выберите опцию Добавить новые леммы…​. В качестве альтернативы, нажмите на кнопку Добавить лемму. Имейте в виду, что необходимо вводить именно лемму, т.е. словарную форму слова.

В появившемся окне начните вводить новые леммы (одна лемма на строку).

stop list new lemmas.rus

Выберите часть речи из выпадающего меню справа и сохраните изменения.

stop list pos choice.rus