Узел Извлечение сущностей
Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server. |
Узел Извлечение сущностей извлекает сущности из входной таблицы. Узел создает отчет, отображающий извлеченные сущности и некоторые статистические данные.
В палитре узлов данный узел расположен в разделе Текстовый анализ.
Что такое "сущность"?
Термин сущность описывает ряд понятий.
Во-первых, он характеризует так называемые именованные сущности, которые являются объектами реального мира: люди, локации, организации, товары и др., и обозначаются именами собственными. Эти объекты могут быть абстрактными или иметь физический референт. Примерами сущностей являются Александр Пушкин, Москва, Volkswagen Golf и любые другие объекты, которые могут иметь имя собственное.
Во-вторых, этим термином также обозначают выражения с числами (даты, время, суммы в разных валютах, номера телефонов и др.), URL-адреса, электронные адреса и временные фразы (продолжительность, частота и др.). Таким образом, 9 мая, www.megaputer.ru и 500 руб – это тоже примеры сущностей.
Сущности также могут означать группы или более общие категории других сущностей. Например, сущностью может быть номер телефона. Он, в свою очередь, включает в себя несколько других сущностей – код страны, региона и сам номер. Например, полное имя человека может включать его статус или профессию (мисс, господин, доктор, профессор и др.), имя, второе имя/отчество, фамилию, и каждый из этих элементов будет считаться отдельной сущностью.
Извлечение сущностей позволяет аналитику быстро представить неизвестные данные в структурированном виде и, как минимум, понять, о ком и о чем идет речь в анализируемом тексте. Полученное структурное представление данных с именами людей, названиями компаний, брендов, стран, адресов, номеров телефонов и др. может стать отправной точкой для дальнейшего исследования текста.
Как PolyAnalyst находит сущности в тексте?
Для поиска сущностей в тексте узел Извлечение сущностей использует два метода, которые работают совместно.
Первый метод подразумевает поиск последовательностей слов и символов. Последовательность символов, например, заглавная буква, после которой идет строчная буква, представляет собой некий устойчивый шаблон. Несколько факторов определяют, является ли некая последовательность символов/слов устойчивым шаблоном.
Эти шаблоны и правила разработаны компанией Мегапьютер и встроены в систему PolyAnalyst. В некоторых случаях вы можете добавлять собственные шаблоны, расширяя существующую базу. Однако помните, что составление правил для нахождения сущностей – не самая простая задача, поскольку текст может быть написан разными способами – в разной стилистике, форматах, с ошибками или без, с сокращениями и многозначными словами. При попытке проанализировать такой текст необходимо учитывать сложности технического характера, например:
-
Любые эвристические правила, учитывающие регистр символов, не гарантируют качественный результат при работе с текстом, который целиком составлен в верхнем или нижнем регистре;
-
В зависимости от контекста некоторые слова могут использоваться как существительные или глаголы. Правила, учитывающие структуру предложений, работают плохо в том случае, если предложения в тексте не отделяются друг от друга;
-
Количество цифр в номере телефона может варьироваться в зависимости от страны;
-
В разных странах используются разные форматы записи дат и валют.
Задача поиска сущностей в тексте осложняется тем, что его, как правило, необходимо выполнить в максимально сжатые сроки.
Правила также могут строиться на основе словарей – это второй метод нахождения сущностей.
В частности, правила могут определить, используется ли слово в конкретной форме или в одной из морфологических форм, зафиксированных в специальном словаре. Компания Мегапьютер предоставляет большое количество словарей по умолчанию для поиска слов.
Точность работы данного правила в большей степени зависит от того, присутствует ли слово в словаре. Также предусмотрена пользовательская настройка словарей: для повышения точности результатов вы можете создавать собственные словари для их последующего использования в узле Извлечение сущностей.
Соединения на скрипте
Для данного узла необходимо одно входящее соединение с любым узлом, который на выходе производит таблицу данных.
Отчет узла можно непосредственно увидеть после завершения работы узла. Отчет узла является интерактивным. Узел Извлечение сущностей создает модель, которая может использоваться вместе с другими узлами, например, с узлом Производная таблица для генерирования таблицы сущностей.