Использование словарей

Результаты работы инструментов автоматического анализа текста на естественном языке не всегда соответствуют ожиданиям пользователей. Использование словарей позволяет отладить работу инструментов текстового анализа и оптимизировать их результат. Например, вы можете указать синонимические отношения между словами, чтобы два слова интерпретировались как одно и то же слово. Или вы можете создать список стоп-слов, т.е. слов, которые будут игнорироваться инструментами текстового анализа.

Помните, что большие временные затраты на настройку словаря не всегда являются гарантией качества результата.

Что такое словарь?

Словарь в PolyAnalyst – это список слов, содержащий характеристики этих слов. Словарь может содержать информацию об отношениях между словами, например, слова могут быть связаны синонимическими отношениями (словарь Синонимов) или быть объединенными по какому-либо общему признаку (словарь WordClasses).

Какие узлы в PolyAnalyst используют словари?

Для узлов анализа текста в PolyAnalyst использование словарей является обязательным условием эффективной работы. К таким узлам относится, например, узел Проверка орфографии. Для других узлов использование словарей опционально. Пользователи могут сравнить результаты работы таких узлов с использованием словаря и без него.

Языки используемых словарей

Для каждого языка существует свой набор словарей. Каждый новый словарь, который создает пользователь, соответствует конкретному языку. По умолчанию это английский язык. В ходе анализа в одном проекте вы можете использовать разноязычные словари.

Дополнительные сведения о словарях

Большинство словарей подлежит редактированию. В PolyAnalyst для этого имеется специальный редактор словарей. Пользователи могут изменить словарь или даже удалить его.

Вы можете свободно изменять, удалять и копировать словари PolyAnalyst 6.5 по умолчанию. Мы настоятельно рекомендуем пользователям редактировать только копии словарей, вместо того чтобы изменять сами предустановленные словари. Это гарантирует то, что вы сможете легко вернуться к исходному состоянию словарей PolyAnalyst 6.5.

Словари обычно являются коллективно используемым ресурсом. Вы можете предоставить другим пользователям доступ к словарю, который вы создали. Вы можете использовать один и тот же словарь в различных аналитических проектах.

Словари по умолчанию

В установочный пакет PolyAnalyst 6.5 входит несколько словарей. Кроме предустановленных словарей, вы можете создать и использовать пользовательские словари. Вы можете получить и другие словари по умолчанию, включая словари на других языках, обратившись в техническую поддержку компании Мегапьютер. Из-за размеров файлов этих словарей и того факта, что не все словари актуальны для тех или иных пользователей, эти словари не входят в базовую установку PolyAnalyst 6.5.

Обычно узлы в системе PolyAnalyst 6.5 предварительно настроены на использование соответствующих предустановленных словарей. Вы можете выбрать словари, которые узел будет использовать, в настройках узла на вкладке Словари. На ней вы можете просмотреть, какие словари используются данным узлом, а также добавить нужные словари или отключить ненужные.

Так, например, выглядят настройки узла Индекс:

dict tab example.rus

Как вы можете видеть на скриншоте выше, узел Индекс использует только один словарь, а именно Морфологический словарь. Другие узлы используют другое количество словарей. Конфигурация и типы словарей описаны далее.

Путь к словарям по умолчанию

Путь к словарям PolyAnalyst по умолчанию указан в настройках Административного клиента.

dict paths default.rus

Если вы работаете со словарями, которые находятся в другой папке, необходимо изменить значение поля Папка со словарями.

Вы можете указать специальную директорию для словарных изменений. Таким образом, все изменения словаря будут записываться в отдельную папку.

Для этого заполните поле Папка для расширений словаря.

dict paths changed.rus

Следует иметь в виду, что для вступления изменений в силу, требуется перезапуск сервера PolyAnalyst.

Папка для расширений словаря должна быть создана заранее.