Настройка узла Извлечение сущностей
Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server. |
Окно настроек узла Извлечение сущностей имеет следующие вкладки:
Выбор исходной колонки
Как правило, настройка выполняется по порядку слева направо, начиная со вкладки Колонки.
Для выполнения узла Извлечение сущностей необходима как минимум одна текстовая колонка.
Выберите колонку из списка доступных колонок. Переместите колонку в поле Выбранная текстовая колонка.
Помните, что в качестве исходных принимаются только текстовые колонки, поэтому список Доступные колонки отображает только текстовые колонки.
Список доступных колонок может быть пустым по ряду причин:
-
Узел Извлечение сущностей еще не соединен с источником данных.
-
Узел уже соединен с источником данных, но родительский узел еще не выполнен: узел Извлечение сущностей не может получить список колонок. В этом случае нужно настроить и выполнить предшествующий узел.
-
Предшествующий узел соединен с узлом Извлечение сущностей и создал таблицу данных, но в созданной таблице отсутствуют текстовые колонки.
Для получения подробной информации см. раздел Выбор колонок при настройке узлов.
Опция Повторное использование вычислений позволяет настроить использование результатов предыдущего выполнения узла. Данная опция также используется в узлах Индекс, Анализ тональности и Извлечение фактов.
Если опция включена, при каждом перевыполнении будут индексироваться только новые документы: те записи, которые были проиндексированы ранее, индексироваться не будут, а результат их индексирования будет копироваться из предыдущего результата. Таким образом, скорость индексации увеличится, так как одни и те же документы не будут индексироваться дважды. Подробнее данная опция описана в разделе, посвященном узлу Индекс.
Обратите внимание на то, что результаты узла Извлечение сущностей при повторном использовании вычислений зависят от результатов родительских узлов, использующих текстовые индексы (Индекс, Анализ тональности, и Извлечение фактов). Если один из родительских узлов был пересчитан и выдал новый результат на том же документе, то этот документ будет пересчитан в текущем узле Извлечение сущностей. Если после пересчета родительских узлов результат в них не изменился, то текущий узел Извлечение сущностей не будет пересчитывать результат для этого документа, а использует готовые данные, полученные в ходе предыдущего выполнения узла.
Такое поведение характерно для всех узлов, следующих за родительскими узлами, использующими текстовые индексы.
На первой вкладке окна настроек узла также отображаются результаты предыдущей индексации исходного текста.
Настройка вкладки Сущности
Вкладка Сущности отображает список различных типов сущностей, которые могут быть обнаружены узлом Извлечение сущностей.
Типы сущностей, отображаемых в списке на вкладке Сущности:
-
Legal entities/Правовые сущности
-
People/Люди – имена людей, например, "Иванов Иван Иванович";
-
Companies/Компании – названия компаний, например, "Мегапьютер";
-
Organizations/Организации – названия организаций, например, "Организация Объединенных Наций";
-
-
Locations/Географические локации и объекты
-
GeoAdministrative/Геоадминистративные объекты – названия географических объектов, например, "Санкт-Петербург";
-
Landforms/Формы рельефа – названия естественных форм рельефа, например, "Кавказские горы";
-
Facilities/Объекты – названия городских объектов и мест, например, "Международный аэропорт Шереметьево имени А. С. Пушкина";
-
-
Contacts/Контакты
-
Post addresses/Почтовые адреса – конкретные адреса, например, "101000, Российская Федерация, Москва, ул. Ленина, д. 1";
-
Internet-addresses/Интернет-адреса – доменные имена и адреса веб-страниц, например, "http://www.megaputer.com";
-
Email addresses/Адреса электронной почты – адреса электронной почты, например, "user@megaputer.ru";
-
Phone numbers/Телефонные номера – номера телефонов, например, "495-123-45-67";
-
-
Dates/Даты
-
Dates/Даты – комбинации календарных дат и/или времени, например, "Понедельник, 2 мая, 2000" или "11/11/1990";
-
-
Amounts/Количественные величины
-
Currencies/Валюта – значения валют, например, "100 рублей" или "$9001,00";
-
Units/Единицы – единицы измерения, например, "10 сантиметров" или "256 градусов Цельсия";
-
-
Identifiers/Идентификаторы
-
Account Numbers/Номера счетов – уникальные идентификаторы персональных счетов, например, "40811234567891234567";
-
Claim Numbers/Номера обращений – уникальные идентификаторы обращений, например, "АB111C2";
-
Credit Card Numbers/Номера банковских карт – уникальные идентификаторы банковских карт и платежных систем, например, "4000-1234-5678-9012";
-
Digital Object Identifiers/Идентификаторы цифровых объектов – постоянные идентификаторы цифровых объектов, например, "AA00000B1";
-
Dates of Birth/Даты рождения – даты рождения людей, например, "1 июля, 2000";
-
Driver License Numbers/Номера водительских удостоверений – уникальные идентификаторы водительских удостоверений, например, "12-34-567890";
-
Health Insurance Numbers/Номера документов медицинского страхования – уникальные идентификаторы документов медицинского страхования, например, "123-456-789-01";
-
International Standard Numbers/Международные стандартные номера – уникальные идентификаторы книжных (ISBN) и периодических изданий (ISSN), например, "9782123456789";
-
License Plate Numbers/Регистрационные номерные знаки – номера регистрационных знаков, например"A001BB";
-
Passport Numbers/Номера паспортов – уникальные идентификаторы паспортов, например, "123456789";
-
Personal Identification Numbers/Персональные идентификационные номера – уникальные персональные идентификаторы, например, "1234567890";
-
Policy Numbers/Номера полисов – уникальные идентификаторы полисов, например, "AB12C34D56";
-
Taxpayer Identification Numbers/Идентификационные номера налогоплательщика – идентификаторы налогоплательщика, номера социального страхования, а также идентификаторы работодателя, например, "123456789012";
-
Vehicle Identification Numbers/Идентификационные номера транспортных средств – уникальные идентификаторы транспортных средств, например, "1ABCD23EFGH456789";
-
-
Industry/Промышленность
-
Drugs/Лекарственные средства – названия лекарственных и химических веществ, например, "ибупрофен";
-
Technologies/Технологии – технологии, патенты и технологические продукты, например, "3D-принтер";
-
Automotive/Автомобилестроение – названия автомобилей, автопроизводителей, а также спецификаций, например, "АО "АвтоВАЗ"";
-
Pathologies/Патологии – названия симптомов, болезней и патологических состояний, например, "головокружение";
-
Anatomy/Анатомия – упоминания частей тела и органов, например "роговица глаза".
-
Данный список включает только стандартные сущности.
PolyAnalyst – постоянно развивающийся продукт. В доступном вам списке могут отсутствовать некоторые сущности или наоборот – присутствовать дополнительные типы. Этот список зависит от того, включает ли ваша версия PolyAnalyst словари сущностей. Набор словарей может варьироваться от пользователя к пользователю. Если нужный тип сущностей в списке отсутствует, свяжитесь со службой технической поддержки компании Мегапьютер.
Выбор сущностей для включения в выходную таблицу
Список типов сущностей является настраиваемым. Если вы не изменяли настройки по умолчанию, то узел извлечет все типы стандартных (Standard) сущностей. Включение сущности в выходную таблицу зависит от того, выставлен ли флажок в соответствующем чекбоксе на вкладке Сущности.
Используйте чекбоксы для включения сущности или группы сущностей в выходную таблицу или исключения из нее. Отключение сущности не сбрасывает ее настройки.
Порядок отображения сущностей в списке не имеет значения. Однако возможность сортировать список сущностей отсутствует.
Рекомендуется включать только те сущности, которые нужны для анализа. Чем меньше количество включенных сущностей, тем быстрее выполняется узел Извлечение сущностей, и тем меньше места на диске требуется для сохранения результатов узла. Исключение сущностей из анализа приводит к тому, что они не отображаются в выходном отчете.
Изменение подсветки сущностей
Вы также можете настроить подсветку сущностей, открыв цветовую палитру с помощью двойного нажатия на соответствующую ячейку в колонке Цвет.
Цвета выбираются согласно эстетическим предпочтениям и не влияют ни на логику, ни на производительность узла Извлечение сущностей. Возможно, при просмотре документа вам будет удобнее связывать сущности с конкретными цветами (чтобы выделить их в больших текстах), особенно если в этих текстах встречается несколько типов сущностей. В этом случае вы могли бы сказать, что, например, телефонные номера выделяются красным цветом, а имена людей – синим.
Просмотр описаний сущностей
Если вы выберете один из приведенных в списке типов сущностей, в нижней части окна отобразится его описание.
Для пользовательских сущностей здесь будет отображено то описание, которое пользователь ввел самостоятельно на вкладке Общие в настройках сущности.
Чтобы скрыть описание, нажмите на кнопку Показать/скрыть описание на панели инструментов.
Опции панели инструментов
Панель инструментов расположена в верхней части окна.
Панель инструментов содержит следующие опции (сверху вниз):
-
Настройки – открывает новое диалоговое окно для настройки выбранной сущности (XPDL-правила (только для пользовательских сущностей), фильтрация, постобработка, разрешение конфликтов, и др.). Кнопка активируется только после того, как вы выберете тип сущностей в списке.
-
Новая сущность – позволяет пользователям добавлять новые пользовательские сущности в список стандартных сущностей.
-
Клонировать – позволяет пользователям копировать существующие пользовательские сущности. Опция активируется только после того, как вы выберете пользовательскую сущность в списке.
-
Удалить – позволяет удалять пользовательские сущности. Опция активируется только после того, как вы выберете пользовательскую сущность в списке.
-
Вверх/Вниз – позволяет пользователям перемещаться по списку сущностей, а также изменять их порядок в рамках (под)папки. Кнопки активируются только после того, как вы выберете тип сущностей в списке.
-
Развернуть все/Свернуть все – разворачивает и сворачивает список сущностей (имеющий древовидную структуру).
-
Выделить все/Отменить все – выделяет и отменяет все сущности.
-
Экспортировать/Импортировать настройки пользовательских сущностей – кнопки позволяют импортировать и экспортировать пользовательские сущности в формате *.csv.
-
Показать/скрыть описание – скрывает описание сущности внизу окна. Чтобы показать описание, нажмите кнопку еще раз.
Поле Найти позволяет выполнить поиск отдельных типов сущностей.
Для того, чтобы отредактировать одну из сущностей, дважды нажмите на нее в списке, или выберите ее и нажмите кнопку Настройки на панели инструментов.
Откроется окно с несколькими вкладками для создания фильтра и настройки опций постобработки, которые будут описаны ниже.
Нажмите на кнопку Новая сущность для того, чтобы добавить в список новую пользовательскую сущность.
Она появится в нижней части списка сущностей. По умолчанию ей присваивается имя Entity (Сущность). Вы можете отредактировать название сущности в любой момент: для этого выберите ее и нажмите на имя.
Для того, чтобы задать условия для извлечения данной сущности, выберите ее в списке (если она еще не выбрана) и нажмите на кнопку Настройки.
Подробнее о редактировании сущностей см. далее.
Настройка вкладки Словари
Вкладка Словари позволяет выбрать словари, которые будет использовать узел в процессе выполнения.
По умолчанию включена опция Использовать словари по умолчанию.
Вы можете вручную включать/отключать отдельные словари.
Поле слева представляет собой список групп словарей. Группы в списке отмечены зеленой галочкой или квадратом. Галочка означает, что используются все словари этой группы. Зеленый квадрат означает, что используются лишь некоторые словари этой группы.
Если выбрать какую-либо группу, то в окне справа отобразится весь список словарей данной группы.
Любые изменения, внесенные в список групп словарей, отключают опцию Использовать словари по умолчанию. Если вы повторно отметите флажком данную опцию, будут восстановлены настройки словарей по умолчанию.