Исследование сущностей
Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server. |
Для изучения данного руководства вы должны знать, как создавать проекты, добавлять, соединять, настраивать и выполнять узлы и загружать данные в формате CSV.
В академической литературе и профессиональном сленге извлечение сущностей иногда называется тегированием сущностей, извлечением событий, распознаванием именованных сущностей, извлечением свойств или извлечением фактов. Имя человека, название организации, адрес электронной почты, номер телефона в любом тексте на естественном языке – все это примеры сущностей.
Цель узла Извлечение сущностей – автоматическая и точная идентификация этих сущностей в тексте на естественном языке и их представление в удобном формате, который может быть использован в ходе анализа далее.
Извлечение сущностей возможно благодаря использованию предварительно настроенной системы лингвистических правил и статистических методов, позволяющих определить, какие части текста являются сущностями. Технология извлечения сущностей, используемая узлом, является собственной разработкой компании Мегапьютер. Другие программы могут использовать похожие алгоритмы, но у них есть свои особенности.
Помните, что извлечение сущностей – это эвристический метод анализа данных, он не может гарантировать абсолютно корректный результат, и не должен использоваться для автоматического принятия решений (как в случае с экспертной оценкой). |
Другие инструменты системы PolyAnalyst, например, узел Анализ связей, могут работать с выходными данными узла Извлечение сущностей для дальнейшего выявления связей между сущностями. Пользователи могут объединять сущности, используя узел Агрегирование, либо создавать объединенные и пересекающиеся мета-колонки (выстраивая иерархию сущностей) с помощью узла Производные колонки.
Извлеченные сущности могут использоваться для фильтрации частей таблицы, например, для получения подмассива записей, в которых упоминаются определенные сущности, для облегчения поиска или некоторой визуализации с помощью одного из графических узлов.
С помощью извлеченных сущностей, служащих для представления текста в виде структуры, пользователи могут выполнять более детальное исследование текста, используя узлы OLAP-таблица или Многомерная матрица для получения подробной информации о пересечении сущностей друг с другом и с другими структурированными атрибутами.
Узел Извлечение сущностей может быть использован как инструмент структуризации текстовых данных. Существует огромное количество возможностей для работы со структурированными данными и свойствами, извлеченными из таких данных. |
В среднестатистическом проекте по глубокому анализу текстовых данных узел Извлечение сущностей используется вместе с другими узлами, такими как Извлечение ключевых слов или Извлечение фактов для получения структурированной, обобщенной или сводной информации о трендах, скрытых в текстах на естественном языке. Обычно это происходит после того, как данные были очищены, отфильтрованы и подготовлены для анализа. Результаты узла Извлечение сущностей можно использовать для того, чтобы понять, в каком направлении нужно выполнять дальнейший анализ. Аналитики могут выявить новые тренды в данных, что может быть причиной для постановки новых аналитических задач, которые нужно выполнить, или вопросов, на которые нужно найти ответы.
Узел Извлечение сущностей позволяет получить новые данные для дальнейшего анализа.
Дело в том, что для выполнения машинного анализа данных, классификации информации и составления логических выводов необходимо наличие дискретных фактов. Данные на естественном языке недостаточно структурированы для этого.
Когда вы читаете книгу, вы не запоминаете каждую строчку книги. Вместо этого, вы инстинктивно фокусируетесь на некоторых словах в каждом предложении, запоминаете отдельные слова из предложения, абзаца или главы и сохраняете в памяти только их. Компьютеры, как и человеческий мозг, не могут в таких случаях полностью постичь смысл текста. Это явление описывают термином "информационная перегрузка".
Извлечение сущностей – это такой метод извлечения фактов и их структуризации, который облегчает процесс принятия решений на основе текста, который в первоначальном виде такому процессу не способствует. Данный метод позволяет сократить исходный текст и отдельные предложения до базовых структур. Если автор текста при его составлении комбинирует такие базовые структуры с другими словами, словосочетаниями и связующими элементами, то извлечение сущностей представляет собой обратный процесс.
Рассмотрим некоторые примеры применения данной технологии (данный список не является исчерпывающим):
-
Охрана правопорядка – исследуйте криминальные сводки, чтобы автоматически определить, кто совершил преступление, когда и где оно было совершено, а затем используйте эту информацию для нахождения корреляций или связи с другими преступлениями.
-
Национальная безопасность и национальная оборона – исследуйте электронные письма на предмет подозрительных сущностей и тенденций.
-
Коммуникации – создайте телефонную книгу и список электронных адресов на основе текстов писем нескольких адресатов.
-
Анализ трендов – разработайте график трендов, показывающий рост и сокращение частоты конкретного события или корреляцию между двумя или более событиями.
-
Конкурентная разведка – следите за действиями конкурентов, собирайте данные на естественном языке о конкурентах, извлекая сущности и используя перекрестные ссылки.
-
Искусственный интеллект – используйте извлеченные сущности для представления фактических сведений о мире в виде утверждений с целью создания базы данных, которая может использовать соответствующие факты для поиска ответов на вопросы или аргументации суждений.
-
Исследование рынка – распределите развернутые ответы анкеты по сущностям и используйте эти сущности для классификации тем, о которых говорят респонденты, либо используйте перекрестные ссылки со структурированными данными, например, с категориальными и булевыми атрибутами или демографическими данными.