Словари классов слов (WordClasses)
Словарь классов слов (WordClasses) содержит список слов и соответствующую тому или иному слову часть речи, а именно:
-
Существительное
-
Глагол
-
Наречие
-
Прилагательное
-
Частица
-
и т.д.
Такие словари используются в ряде узлов, например, Извлечение сущностей, Производные колонки, Фильтрация строк, Поисковый запрос, Таксономия и т.д. Словарь классов слов по умолчанию создан компанией Мегапьютер и содержит списки положительных (positive) и отрицательных (negative) слов и фраз.
Работа со словарями WordClasses
Пользователи могут изменять списки слов, добавлять новые слова или удалять старые.
Редактирование словаря
Чтобы отредактировать словари классов слов:
-
Выберите словарь WordClasses в окне Менеджера словарей, а затем дважды щелкните на словарь по умолчанию. Вы увидите следующее окно:
-
Выберите класс слов, с которым вы хотите работать, затем дважды щелкните на любой элемент класса в поле справа.
Создание нового класса слов
Вы также можете создавать свои собственные классы слов. Для этого:
-
Щелкните правой кнопкой мыши на существующий класс и выберите опцию Добавить. В качестве альтернативы, нажмите на кнопку Добавить класс.
-
В появившемся окне и введите имя вашего класса как это показано ниже.
-
Затем нажмите клавишу Enter и выберите часть речи в выпадающем меню, чтобы зарегистрировать класс.
Вы также можете добавить новый класс другим способом: введите имя класса в поле поиска, выберите часть речи и нажмите Enter.
При работе со словарями рекомендуется создать новый словарь или копию словаря, чтобы словарь по умолчанию оставался неизменным для последующего использования. |
Создание собственного словаря WordClasses
Вы можете создать свой словарь WordClasses. Для этого:
-
Щелкните правой кнопкой мыши в поле доступных словарей WordClasses и выберите опцию Создать новый словарь….
-
В появившемся окне введите имя для вашего словаря и описание, если это необходимо.
-
Вы можете создать новый словарь, используя старые словари, т.е. использовать существующие словари в качестве исходных словарей. Для этого отметьте словари, которые вы хотите использовать, в поле Исходные словари.
Вы можете импортировать и экспортировать словари, а также леммы (записи) внутри класса.
Пример использования словаря WordClasses
Говоря простым языком, словарь классов слов представляет собой обычный список слов, которые объединены на основе того или иного признака. Например, вы можете создать список слов, куда будут входить только прилагательные на определенную тему.
Например, перед началом работы с узлом Таксономия вы можете создать свой собственный специальный список слов по теме как это показано выше.
Затем щелкните правой кнопкой мыши на узел Таксономия и выберите пункт Свойства. Перейдите на вкладку Словари и выберите созданный словарь классов слов.
Добавим категорию таксономии под названием "Мое дерево таксономии" с помощью функции PDL-функции term()
и названия класса (подробнее о функции см. здесь) в поле Выражение, как это описано в данном разделе и выполним узел.
Как только узел будет выполнен, вы увидите записи, найденные с использованием слов из класса, который мы создали ранее.
Пользовательский словарь WordClasses
Проиллюстрируем, как можно использовать словарь WordClasses ещё на одном примере. Представьте, что мы работаем с набором данных "CrimeData.csv", и наша цель состоит в том, чтобы проанализировать отчеты о преступлениях, т.е. выполнить текстовый анализ данных. Для этого мы будем использовать наш собственный словарь. Сначала создадим его, как описано выше, а затем добавим новый класс (см. пример на скриншоте ниже).
Помимо обычных слов вы также можете использовать PDL-функции в качестве элементов словаря, а именно конструкции вида query: PDL-функция
. Например, мы хотим найти все глаголы в прошедшем времени. Для этого мы можем использовать функцию lemma(verb_past)
, т.е. мы внесем в наш список запись query: lemma(verb_past)
. Вы можете назначать для записей подобного рода любую часть речи. В нашем примере мы отметим подобную запись как Другой тип.
Взглянем на работу словаря, который мы создали. Добавьте узел Файлы CSV на скрипт, выберите набор данных "CrimeData.csv" и соедините его с узлом Индекс. Выполните индексацию и подключите узел Таксономия. Перейдите в настройки узла и выберите словари WordClasses. Выполните узел и введите функцию term(), а именно term("Анализ текста")
.
Более подробную информацию о том, как использовать эту функцию, можно найти здесь.