Исследование сущностей

Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.

Для изучения данного руководства вы должны знать, как создавать проекты, добавлять, соединять, настраивать и выполнять узлы и загружать данные в формате CSV.

В академической литературе и профессиональном сленге извлечение сущностей иногда называется тегированием сущностей, извлечением событий, распознаванием именованных сущностей, извлечением свойств или извлечением фактов. Имя человека, название организации, адрес электронной почты, номер телефона в любом тексте на естественном языке – все это примеры сущностей.

Цель узла Извлечение сущностей – автоматическая и точная идентификация этих сущностей в тексте на естественном языке и их представление в удобном формате, который может быть использован в ходе анализа далее.

Извлечение сущностей возможно благодаря использованию предварительно настроенной системы лингвистических правил и статистических методов, позволяющих определить, какие части текста являются сущностями. Технология извлечения сущностей, используемая узлом, является собственной разработкой компании Мегапьютер. Другие программы могут использовать похожие алгоритмы, но у них есть свои особенности.

Помните, что извлечение сущностей – это эвристический метод анализа данных, он не может гарантировать абсолютно корректный результат, и не должен использоваться для автоматического принятия решений (как в случае с экспертной оценкой).

Другие инструменты системы PolyAnalyst, например, узел Анализ связей, могут работать с выходными данными узла Извлечение сущностей для дальнейшего выявления связей между сущностями. Пользователи могут объединять сущности, используя узел Агрегирование, либо создавать объединенные и пересекающиеся мета-колонки (выстраивая иерархию сущностей) с помощью узла Производные колонки.

Извлеченные сущности могут использоваться для фильтрации частей таблицы, например, для получения подмассива записей, в которых упоминаются определенные сущности, для облегчения поиска или некоторой визуализации с помощью одного из графических узлов.

С помощью извлеченных сущностей, служащих для представления текста в виде структуры, пользователи могут выполнять более детальное исследование текста, используя узлы OLAP-таблица или Многомерная матрица для получения подробной информации о пересечении сущностей друг с другом и с другими структурированными атрибутами.

Узел Извлечение сущностей может быть использован как инструмент структуризации текстовых данных. Существует огромное количество возможностей для работы со структурированными данными и свойствами, извлеченными из таких данных.

В среднестатистическом проекте по глубокому анализу текстовых данных узел Извлечение сущностей используется вместе с другими узлами, такими как Извлечение ключевых слов или Извлечение фактов для получения структурированной, обобщенной или сводной информации о трендах, скрытых в текстах на естественном языке. Обычно это происходит после того, как данные были очищены, отфильтрованы и подготовлены для анализа. Результаты узла Извлечение сущностей можно использовать для того, чтобы понять, в каком направлении нужно выполнять дальнейший анализ. Аналитики могут выявить новые тренды в данных, что может быть причиной для постановки новых аналитических задач, которые нужно выполнить, или вопросов, на которые нужно найти ответы.

Узел Извлечение сущностей позволяет получить новые данные для дальнейшего анализа.

Дело в том, что для выполнения машинного анализа данных, классификации информации и составления логических выводов необходимо наличие дискретных фактов. Данные на естественном языке недостаточно структурированы для этого.

Попробуйте представить себе, что слушаете одновременно 10000 людей, которые говорят с вами и требуют, чтобы за короткий промежуток времени вы приняли решение. Поток исходных данных огромен, не имеет четкой структуры, и ваш мозг не может с ним справиться.

Когда вы читаете книгу, вы не запоминаете каждую строчку книги. Вместо этого, вы инстинктивно фокусируетесь на некоторых словах в каждом предложении, запоминаете отдельные слова из предложения, абзаца или главы и сохраняете в памяти только их. Компьютеры, как и человеческий мозг, не могут в таких случаях полностью постичь смысл текста. Это явление описывают термином "информационная перегрузка".

Извлечение сущностей – это такой метод извлечения фактов и их структуризации, который облегчает процесс принятия решений на основе текста, который в первоначальном виде такому процессу не способствует. Данный метод позволяет сократить исходный текст и отдельные предложения до базовых структур. Если автор текста при его составлении комбинирует такие базовые структуры с другими словами, словосочетаниями и связующими элементами, то извлечение сущностей представляет собой обратный процесс.

Рассмотрим некоторые примеры применения данной технологии (данный список не является исчерпывающим):

Охрана правопорядка – исследуйте криминальные сводки, чтобы автоматически определить, кто совершил преступление, когда и где оно было совершено, а затем используйте эту информацию для нахождения корреляций или связи с другими преступлениями.
Национальная безопасность и национальная оборона – исследуйте электронные письма на предмет подозрительных сущностей и тенденций.
Коммуникации – создайте телефонную книгу и список электронных адресов на основе текстов писем нескольких адресатов.
Анализ трендов – разработайте график трендов, показывающий рост и сокращение частоты конкретного события или корреляцию между двумя или более событиями.
Конкурентная разведка – следите за действиями конкурентов, собирайте данные на естественном языке о конкурентах, извлекая сущности и используя перекрестные ссылки.
Искусственный интеллект – используйте извлеченные сущности для представления фактических сведений о мире в виде утверждений с целью создания базы данных, которая может использовать соответствующие факты для поиска ответов на вопросы или аргументации суждений.
Исследование рынка – распределите развернутые ответы анкеты по сущностям и используйте эти сущности для классификации тем, о которых говорят респонденты, либо используйте перекрестные ссылки со структурированными данными, например, с категориальными и булевыми атрибутами или демографическими данными.