Словари стоп-слов
Словари стоп-слов (StopLists) представляют собой списки слов, которые не должны учитываться в ходе анализа. Хотя такие слова обычно являются наиболее часто используемыми словами в языке, они мало чем могут быть полезны в ходе анализа текстовых данных, поскольку обычно лишены собственного лексического значения. Такие слова не исключаются из анализа только в том случае, если в ваши задачи входит поиск точных соответствий. Не, в, да, хотя – все это примеры стоп-слов.
Не существует универсального списка стоп-слов, который мог бы быть использован всеми инструментами анализа текстов на естественном языке. Кроме того, многие подобные инструменты могут быть настроены таким образом, чтобы игнорировать в ходе анализа любые общеупотребимые слова с собственным лексическим значением для того, чтобы повысить качество результатов анализа.
PolyAnalyst предоставляет пользователям два списка стоп-слов по умолчанию (для русского языка):
1) Base (базовый словарь);
Список Base представляет собой базовый список наиболее часто используемых стоп-слов: частицы, предлоги, союзы, местоимения и т.д.
2) Keywords (словарь ключевых слов);
Список Keywords содержит расширенный список стоп-слов, где кроме обычных стоп-слов, представлены числительные, вводные слова, названия месяцев, дней недели, слова-паразиты, междометия, стоп-фразы (латинские крылатые обороты и др.).
Разделение словаря стоп-слов на несколько списков (классов) основано на том, как и где обычно используются данные списки.
Словари, доступные для одного языка, могут содержать разное количество классов для другого языка, например, для французского или испанского языков предусмотрено три класса слов. |
Некоторые узлы настроены на использование списка Base по умолчанию. Они отсеивают незначимые служебные слова во время поиска. При использовании списка стоп-слов для классификации текстов, например, при составлении PDL-запросов для выявления категорий таксономии, пользователю достаточно использовать меньший по размеру список, чтобы, например, такая PDL-функция, как pattern(), игнорировала бы как можно больше "мусорных" слов. При этом количество выявленных текстовых шаблонов также сократится до разумных пределов.
Чтобы отредактировать списки (классы) стоп-слов, дважды нажмите на имя нужного класса в окне Менеджера словарей.
Окно справа содержит два списка: леммы и части речи. Некоторые леммы могут принадлежать к нескольким частям речи. Все возможные части речи для выбранной леммы указываются в соответствующей колонке. Пользователи могут изменить данный список, отметив необходимые чекбоксы в выпадающем меню.
Создание словаря стоп-слов
Вы можете создать свой собственный стоп-лист, например, чтобы исключить ряд слов из текста при выполнении анализа текста определенной тематики.
Не рекомендуется использовать словарь сервера по умолчанию. Cоздайте новый словарь в окне Менеджера словарей. |
Чтобы создать стоп-лист, нажмите на кнопку Добавить класс и введите название будущего класса слов.
Затем щелкните правой кнопкой мыши на созданную запись и выберите опцию Добавить новые леммы…. В качестве альтернативы, нажмите на кнопку Добавить лемму. Имейте в виду, что необходимо вводить именно лемму, т.е. словарную форму слова.
В появившемся окне начните вводить новые леммы (одна лемма на строку).
Выберите часть речи из выпадающего меню справа и сохраните изменения.