Использование словарей
Результаты работы инструментов автоматического анализа текста на естественном языке не всегда соответствуют ожиданиям пользователей. Использование словарей позволяет отладить работу инструментов текстового анализа и оптимизировать их результат. Например, вы можете указать синонимические отношения между словами, чтобы два слова интерпретировались как одно и то же слово. Или вы можете создать список стоп-слов, т.е. слов, которые будут игнорироваться инструментами текстового анализа.
Помните, что большие временные затраты на настройку словаря не всегда являются гарантией качества результата.
Что такое словарь?
Словарь в PolyAnalyst – это список слов, содержащий характеристики этих слов. Словарь может содержать информацию об отношениях между словами, например, слова могут быть связаны синонимическими отношениями (словарь Синонимов) или быть объединенными по какому-либо общему признаку (словарь WordClasses).
Какие узлы в PolyAnalyst используют словари?
Для узлов анализа текста в PolyAnalyst использование словарей является обязательным условием эффективной работы. К таким узлам относится, например, узел Проверка орфографии. Для других узлов использование словарей опционально. Пользователи могут сравнить результаты работы таких узлов с использованием словаря и без него.
Языки используемых словарей
Для каждого языка существует свой набор словарей. Каждый новый словарь, который создает пользователь, соответствует конкретному языку. По умолчанию это английский язык. В ходе анализа в одном проекте вы можете использовать разноязычные словари.
Дополнительные сведения о словарях
Большинство словарей подлежит редактированию. В PolyAnalyst для этого имеется специальный редактор словарей. Пользователи могут изменить словарь или даже удалить его.
Вы можете свободно изменять, удалять и копировать словари PolyAnalyst 6.5 по умолчанию. Мы настоятельно рекомендуем пользователям редактировать только копии словарей, вместо того чтобы изменять сами предустановленные словари. Это гарантирует то, что вы сможете легко вернуться к исходному состоянию словарей PolyAnalyst 6.5. |
Словари обычно являются коллективно используемым ресурсом. Вы можете предоставить другим пользователям доступ к словарю, который вы создали. Вы можете использовать один и тот же словарь в различных аналитических проектах.
Словари по умолчанию
В установочный пакет PolyAnalyst 6.5 входит несколько словарей. Кроме предустановленных словарей, вы можете создать и использовать пользовательские словари. Вы можете получить и другие словари по умолчанию, включая словари на других языках, обратившись в техническую поддержку компании Мегапьютер. Из-за размеров файлов этих словарей и того факта, что не все словари актуальны для тех или иных пользователей, эти словари не входят в базовую установку PolyAnalyst 6.5.
Обычно узлы в системе PolyAnalyst 6.5 предварительно настроены на использование соответствующих предустановленных словарей. Вы можете выбрать словари, которые узел будет использовать, в настройках узла на вкладке Словари. На ней вы можете просмотреть, какие словари используются данным узлом, а также добавить нужные словари или отключить ненужные.
Так, например, выглядят настройки узла Индекс:
Как вы можете видеть на скриншоте выше, узел Индекс использует только один словарь, а именно Морфологический словарь. Другие узлы используют другое количество словарей. Конфигурация и типы словарей описаны далее.
Путь к словарям по умолчанию
Путь к словарям PolyAnalyst по умолчанию указан в настройках Административного клиента.
Если вы работаете со словарями, которые находятся в другой папке, необходимо изменить значение поля Папка со словарями
.
Вы можете указать специальную директорию для словарных изменений. Таким образом, все изменения словаря будут записываться в отдельную папку.
Для этого заполните поле Папка для расширений словаря
.
Следует иметь в виду, что для вступления изменений в силу, требуется перезапуск сервера PolyAnalyst.
Папка для расширений словаря должна быть создана заранее. |