Словари морфологии

Словари Морфологии представляют собой такой тип словаря, где для каждого слова указаны:

1) его начальная форма (лемма),

2) его часть речи,

3) его словоформы.

Начальная форма слова – это его словарная форма, например, именительный падеж единственного числа для существительного или инфинитив для глагола.

Словари этого типа используются узлом Индекс для индексации текстов, а также другими узлами, использующими результаты узла Индекс.

Работа с редактором словаря

Для того, чтобы открыть морфологический словарь, используемый по умолчанию, выберите категорию морфологических словарей в окне Менеджера словарей, затем дважды нажмите на словарь по умолчанию.

morp dict morh.rus

Поле слева содержит список лемм. В поле справа показаны формы и грамматические значения (атрибуты) выбранной леммы. Для того, чтобы перейти к другой форме выбранного слова, нажмите по ней левой кнопкой мыши.

Главное слово в списке лемм считается главным в группе. Вы можете отметить в качестве главного другое слово, щелкнув правой кнопкой мыши по слову и выбрав соответствующую опцию.

morp set header.rus

Обратите внимание, что заголовок группы совпадает с формой главного слова. Чтобы изменить заглавное слово (и, следовательно, название группы), нажмите на иконку с изображением карандаша.

morph change header.rus

Набор морфологических атрибутов, или модификаторов (нижнее поле справа), варьируется в зависимости от выбранной леммы и формы.

Если для выбранной леммы представлено несколько частей речи, каждая часть речи для выбранной леммы будет отображаться на отдельной вкладке.

morp dict morh verb.rus

Грамматические категории (атрибуты) в первую очередь используются различными алгоритмами текстовой обработки данных (разметка частей речи, парсинг на основе грамматики зависимостей, разделитель фрагментов текста, и др.).

Они также используются в таких узлах, как Поисковый запрос и Таксономия для составления PDL-запросов с функциями stem(), form() или lemma(), которые принимают грамматические категории в качестве первого аргумента. Например, выражение form(noun_animateyes) позволяет найти в анализируемом тексте все одушевленные существительные, например, названия профессий: лингвист, аналитик, и др.

Важные примечания

Не все языки содержат примеры всех атрибутов или все их значения.

Для того, чтобы использовать морфологический атрибут слова в качестве аргумента PDL-функции, необходимо указать его в виде строки без кавычек. Можно также использовать цепочку атрибутов, разделенных нижним подчеркиванием, в том случае, если слово имеет несколько морфологических атрибутов (см. таблицу ниже).

Морфологическое значение

Строковое представление

Существительное во множественном числе

noun_plural или noun_pl

Глагол в прошедшем времени

verb_past

Прилагательное женского рода

adjective_feminine или adjc_feminine или adjective_femn или adjc_femn

Существительное в именительном падеже

noun_nominative или noun_nomn

Регистр символов в строковом представлении не имеет значения, например noun_plural означает то же самое, что и Noun_pLural or PLURAL_noun.

Атрибуты в строке могут соединяться в цепочку в произвольном порядке: noun_plural то же самое, что и plural_noun.

Некоторые наиболее часто используемые значения, такие как noun_plural или noun_singular_nominative также поддерживают краткие наименования из Брауновского корпуса (см. примеры далее).

Добавление, редактирование и удаление леммы

Добавление леммы

Чтобы добавить новое слово, введите его в текстовое поле над списком лемм в окне редактора словарей. PolyAnalyst автоматически предложит вам выбрать часть речи для новой леммы.

morp new promt.rus

Вы также можете нажать на изображение плюса на верхней панели инструментов.

morp add plus.rus

После этого в поле справа появится добавленная лемма (в верхнем поле) и ее грамматические категории (в нижнем поле).

morp new added.rus

Чтобы добавить новое слово, переместите курсор в конец существующей леммы и нажмите клавишу Enter. Затем введите новое слово.

Если вы включите Автоматическое заполнение форм перед вводом нового слова, список словоформ будет сгенерирован автоматически (имейте в виду, что он может содержать ошибки).

morp auto.rus

Морфологические категории будут выбраны автоматически. В случае наличия пустой категории, её необходимо указать вручную.

Редактирование леммы

Чтобы отредактировать некоторые из автоматически определяемых категорий выбранной леммы или добавить новые, щелкните по лемме, а затем выберите необходимый атрибут из выпадающего списка:

morp new edit.rus

Щелкните в любом пустом месте, чтобы закрыть список.

Нажмите кнопку Клонировать категорию, чтобы клонировать категорию.

morph clone button.rus

Вы также можете щелкнуть правой кнопкой мыши на список лемм слева и добавить другую часть речи к существующей лемме.

morp edit right.rus

Не забудьте нажать кнопку Сохранить на панели инструментов, чтобы сохранить внесенные изменения.

Удаление леммы

Чтобы удалить лемму, щелкните правой кнопкой мыши на выбранной лемме в списке слева, а затем выберите опцию Удалить выбранные леммы…​ из контекстного меню. Альтернативный способ удаления леммы: выберите нужную лемму и щелкните на значок корзины на верхней панели инструментов.

morp delete.rus

Нажмите кнопку Сохранить, чтобы сохранить внесенные изменения.

Мы понимаем, насколько для наших клиентов бывает важно иметь возможность кастомизировать морфологические словари. Пользователи могут добавлять новые леммы и удалять существующие. Однако мы рекомендуем избегать внесения больших изменений в грамматические категории словаря, используемого по умолчанию, поскольку это может отрицательно сказаться на результатах текстовой обработки данных.

Справка по грамматическим категориям

Нажмите на кнопку с вопросительным знаком, чтобы открыть справку по грамматическим категориям.

morph help button.rus

В окне вы можете найти описание грамматических категорий, относящихся к выбранной лемме.

morph help.rus

Все грамматические категории описаны ниже.

Категория числа

Категория числа обозначает, является ли объект единичным референтом (например, кошка) или групповым референтом из двух или более членов (например, кошки). Данная категория основана на функциональном противопоставлении двух форм, т.е. формы единственного числа и формы множественного числа, которые выражаются как семантически, так и грамматически.

Категория падежа

Категория падежа обозначает семантическую роль существительного или местоимения в предложении (подлежащее, прямой или косвенный объект, определение, часть составного сказуемого). Падеж – это морфологическая категория, которая показывает отношения объекта к другим объектам и явлениям.

Например, именительный падеж (nominative case) – это падеж, в котором стоит существительное (или местоимение), которое играет роль подлежащего в предложении, например, "Ваня (CaseNominative) бегает по утрам".

Категория времени

Категория времени обозначает связь между действием и временем его выполнения:

  • Если действие было совершено в прошлом, используется форма прошедшего времени, например, "Мой отец работал врачом." (Past).

  • Если действие выполняется в настоящем, используется форма настоящего времени, например, "Мой отец работает врачом." (Present).

  • Если действие выполняется в будущем, используется форма будущего времени, например, "Мой сын тоже будет врачом." (Future).

Категория одушевленности

Категория одушевленности помогает нам отнести объект к живым или неживым существам. Данная категория позволяет отфильтровывать нерелевантные результаты в ходе анализа. Например, если вы ищете названия городов, одушевленные существительные должны быть исключены из результатов (город Владимир как понятие неодушевленное и имя Владимир как одушевленное).

Данный функционал также может быть использован в PDL-функции anaphora().

Категория рода

Категория рода используется для разделения объектов на классы, соответствующие естественному полу (т.е. мужской и женский). Например, в английском языке род – это скорее семантическая, чем грамматическая категория.

Категория Имя собственное

Категория имен собственных включает существительные, которые используются для обозначения конкретных объектов или явлений таким образом, что эти объекты или явления выделяются из класса аналогичных объектов (например, Сергей Ананян, Мадрид, РФ). Имена собственные противопоставляются нарицательным.

Категория лица

Категория лица обозначает, выполняется ли действие говорящим (PersonFirst), слушателем (PersonSecond) или кем-то, кто не является ни говорящим, ни слушателем (PersonThird). Данные модификаторы помогают в определении соответствия подлежащего и глагола.

Категория Форма глагола

Глагольные формы могут быть помечены как Infinitive (инфинитив) (скрывать, запускать, анализировать и т.д.) или Participle (скрывающий, запускающий, анализирующий и т.д.).

Знание грамматических категорий и их атрибутов может быть полезно для составления более компактных, точных и конкретных PDL-запросов. Например, вы хотите найти все инфинитивы в тексте и используете запрос lemma(verb_infinitive) вместо громоздкого lemma(verb) and not lemma(verb_present) or lemma(verb_singular) or lemma(verb_past)). При работе с большими текстами это помогает значительно повысить производительность алгоритмов анализа текста.

Полный список морфологических атрибутов и функций, в которых они могут быть использованы, приведен в разделе Справка по PDL.

Пример категории и соответствующего PDL-запроса

Таблица ниже приведена для иллюстрации использования морфологических категорий в PDL-запросах.

Категория

Примеры PDL-запросов

число

lemma(noun_plural), lemma(noun_singular)

падеж

lemma(noun_casenominative), lemma(noun_casegenitive)

время

lemma(verb_present), lemma(verb_past)

одушевленность

lemma(noun_animateyes), lemma(noun_animateno)

род

lemma(noun_masculine), lemma(noun_neutral)

имена собственные

lemma(noun_proper)

лицо

lemma(verb_personfirst), lemma(verb_personthird)

форма глагола

lemma(verb_present)