Словари классов слов (WordClasses)

Словарь классов слов (WordClasses) содержит список слов и соответствующую тому или иному слову часть речи, а именно:

  • Существительное

  • Глагол

  • Наречие

  • Прилагательное

  • Частица

  • и т.д.

Такие словари используются в ряде узлов, например, Извлечение сущностей, Производные колонки, Фильтрация строк, Поисковый запрос, Таксономия и т.д. Словарь классов слов по умолчанию создан компанией Мегапьютер и содержит списки положительных (positive) и отрицательных (negative) слов и фраз.

Работа со словарями WordClasses

Пользователи могут изменять списки слов, добавлять новые слова или удалять старые.

Редактирование словаря

Чтобы отредактировать словари классов слов:

  1. Выберите словарь WordClasses в окне Менеджера словарей, а затем дважды щелкните на словарь по умолчанию. Вы увидите следующее окно:

    wordclasses default.rus
  2. Выберите класс слов, с которым вы хотите работать, затем дважды щелкните на любой элемент класса в поле справа.

    wordclasses first lemma.rus
Создание нового класса слов

Вы также можете создавать свои собственные классы слов. Для этого:

  1. Щелкните правой кнопкой мыши на существующий класс и выберите опцию Добавить. В качестве альтернативы, нажмите на кнопку Добавить класс.

    wordclasses add new class.rus
  2. В появившемся окне и введите имя вашего класса как это показано ниже.

    wordclasses new class.rus
  3. Затем нажмите клавишу Enter и выберите часть речи в выпадающем меню, чтобы зарегистрировать класс.

Вы также можете добавить новый класс другим способом: введите имя класса в поле поиска, выберите часть речи и нажмите Enter.

При работе со словарями рекомендуется создать новый словарь или копию словаря, чтобы словарь по умолчанию оставался неизменным для последующего использования.
Создание собственного словаря WordClasses

Вы можете создать свой словарь WordClasses. Для этого:

  1. Щелкните правой кнопкой мыши в поле доступных словарей WordClasses и выберите опцию Создать новый словарь…​.

    wordclasses new.rus
  2. В появившемся окне введите имя для вашего словаря и описание, если это необходимо.

    wordclasses mine.rus
  3. Вы можете создать новый словарь, используя старые словари, т.е. использовать существующие словари в качестве исходных словарей. Для этого отметьте словари, которые вы хотите использовать, в поле Исходные словари.

    wordclasses mine ticked.rus

Вы можете импортировать и экспортировать словари, а также леммы (записи) внутри класса.

Пример использования словаря WordClasses

Говоря простым языком, словарь классов слов представляет собой обычный список слов, которые объединены на основе того или иного признака. Например, вы можете создать список слов, куда будут входить только прилагательные на определенную тему.

wordclasses myclass.rus

Например, перед началом работы с узлом Таксономия вы можете создать свой собственный специальный список слов по теме как это показано выше.

Затем щелкните правой кнопкой мыши на узел Таксономия и выберите пункт Свойства. Перейдите на вкладку Словари и выберите созданный словарь классов слов.

wordclasses tax settings.rus

Добавим категорию таксономии под названием "Мое дерево таксономии" с помощью функции PDL-функции term() и названия класса (подробнее о функции см. здесь) в поле Выражение, как это описано в данном разделе и выполним узел.

wordclasses tax tree new.rus

Как только узел будет выполнен, вы увидите записи, найденные с использованием слов из класса, который мы создали ранее.

wordclasses taxonomy tree.rus

Пользовательский словарь WordClasses

Проиллюстрируем, как можно использовать словарь WordClasses ещё на одном примере. Представьте, что мы работаем с набором данных "CrimeData.csv", и наша цель состоит в том, чтобы проанализировать отчеты о преступлениях, т.е. выполнить текстовый анализ данных. Для этого мы будем использовать наш собственный словарь. Сначала создадим его, как описано выше, а затем добавим новый класс (см. пример на скриншоте ниже).

wordclasses example.rus

Помимо обычных слов вы также можете использовать PDL-функции в качестве элементов словаря, а именно конструкции вида query: PDL-функция. Например, мы хотим найти все глаголы в прошедшем времени. Для этого мы можем использовать функцию lemma(verb_past), т.е. мы внесем в наш список запись query: lemma(verb_past). Вы можете назначать для записей подобного рода любую часть речи. В нашем примере мы отметим подобную запись как Другой тип.

wordclasses example another.rus

Взглянем на работу словаря, который мы создали. Добавьте узел Файлы CSV на скрипт, выберите набор данных "CrimeData.csv" и соедините его с узлом Индекс. Выполните индексацию и подключите узел Таксономия. Перейдите в настройки узла и выберите словари WordClasses. Выполните узел и введите функцию term(), а именно term("Анализ текста").

wordclasses tax results.rus

Более подробную информацию о том, как использовать эту функцию, можно найти здесь.