Узел Извлечение сущностей
Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.

Узел Извлечение сущностей извлекает сущности из входной таблицы. Узел создает отчет, отображающий извлеченные сущности и некоторые статистические данные.

В палитре узлов данный узел расположен в разделе Текстовый анализ.

Что такое "сущность"?

Термин сущность описывает ряд понятий.

Во-первых, он характеризует так называемые именованные сущности, которые являются объектами реального мира: люди, локации, организации, товары и др., и обозначаются именами собственными. Эти объекты могут быть абстрактными или иметь физический референт. Примерами сущностей являются Александр Пушкин, Москва, Volkswagen Golf и любые другие объекты, которые могут иметь имя собственное.

Во-вторых, этим термином также обозначают выражения с числами (даты, время, суммы в разных валютах, номера телефонов и др.), URL-адреса, электронные адреса и временные фразы (продолжительность, частота и др.). Таким образом, 9 мая, www.megaputer.ru и 500 руб – это тоже примеры сущностей.

В анализе данных термин "сущность" также обозначает любую последовательность символов или слов, составляющих имя таких объектов. Например, слово Megaputer можно также считать сущностью.

Сущности также могут означать группы или более общие категории других сущностей. Например, сущностью может быть номер телефона. Он, в свою очередь, включает в себя несколько других сущностей – код страны, региона и сам номер. Например, полное имя человека может включать его статус или профессию (мисс, господин, доктор, профессор и др.), имя, второе имя/отчество, фамилию, и каждый из этих элементов будет считаться отдельной сущностью.

Извлечение сущностей позволяет аналитику быстро представить неизвестные данные в структурированном виде и, как минимум, понять, о ком и о чем идет речь в анализируемом тексте. Полученное структурное представление данных с именами людей, названиями компаний, брендов, стран, адресов, номеров телефонов и др. может стать отправной точкой для дальнейшего исследования текста.

Как PolyAnalyst находит сущности в тексте?

Для поиска сущностей в тексте узел Извлечение сущностей использует два метода, которые работают совместно.

Первый метод подразумевает поиск последовательностей слов и символов. Последовательность символов, например, заглавная буква, после которой идет строчная буква, представляет собой некий устойчивый шаблон. Несколько факторов определяют, является ли некая последовательность символов/слов устойчивым шаблоном.

Например, если имеются морфологические данные (например, известна часть речи слова), то таким фактором может быть грамматический класс слова. Например, последовательность букв может представлять собой имя человека только тогда, когда она классифицируется как существительное.

Эти шаблоны и правила разработаны компанией Мегапьютер и встроены в систему PolyAnalyst. В некоторых случаях вы можете добавлять собственные шаблоны, расширяя существующую базу. Однако помните, что составление правил для нахождения сущностей – не самая простая задача, поскольку текст может быть написан разными способами – в разной стилистике, форматах, с ошибками или без, с сокращениями и многозначными словами. При попытке проанализировать такой текст необходимо учитывать сложности технического характера, например:

  • Любые эвристические правила, учитывающие регистр символов, не гарантируют качественный результат при работе с текстом, который целиком составлен в верхнем или нижнем регистре;

  • В зависимости от контекста некоторые слова могут использоваться как существительные или глаголы. Правила, учитывающие структуру предложений, работают плохо в том случае, если предложения в тексте не отделяются друг от друга;

  • Количество цифр в номере телефона может варьироваться в зависимости от страны;

  • В разных странах используются разные форматы записи дат и валют.

Задача поиска сущностей в тексте осложняется тем, что его, как правило, необходимо выполнить в максимально сжатые сроки.

Правила также могут строиться на основе словарей – это второй метод нахождения сущностей.

В частности, правила могут определить, используется ли слово в конкретной форме или в одной из морфологических форм, зафиксированных в специальном словаре. Компания Мегапьютер предоставляет большое количество словарей по умолчанию для поиска слов.

Например, имеется большой список названий известных компаний. Условие поиска может содержать разные переменные. Таким образом можно искать слова в верхнем регистре, за которыми следует любое слово, которое присутствует в словаре Companies.

Точность работы данного правила в большей степени зависит от того, присутствует ли слово в словаре. Также предусмотрена пользовательская настройка словарей: для повышения точности результатов вы можете создавать собственные словари для их последующего использования в узле Извлечение сущностей.

Соединения на скрипте

Для данного узла необходимо одно входящее соединение с любым узлом, который на выходе производит таблицу данных.

ee flowchart.rus

Отчет узла можно непосредственно увидеть после завершения работы узла. Отчет узла является интерактивным. Узел Извлечение сущностей создает модель, которая может использоваться вместе с другими узлами, например, с узлом Производная таблица для генерирования таблицы сущностей.