Настройка узла Извлечение сущностей
Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.

Окно настроек узла Извлечение сущностей имеет следующие вкладки:

  • Колонки – позволяет выбрать исходную колонку узла;

  • Сущности – позволяет настроить параметры извлечения сущностей;

  • Словари – позволяет выбрать словари для работы узла;

  • Общие – позволяет задать имя и описание узла.

Выбор исходной колонки

Как правило, настройка выполняется по порядку слева направо, начиная со вкладки Колонки.

ee columns left.rus

Для выполнения узла Извлечение сущностей необходима как минимум одна текстовая колонка.

Выберите колонку из списка доступных колонок. Переместите колонку в поле Выбранная текстовая колонка.

ee columns right.rus

Помните, что в качестве исходных принимаются только текстовые колонки, поэтому список Доступные колонки отображает только текстовые колонки.

Список доступных колонок может быть пустым по ряду причин:

  • Узел Извлечение сущностей еще не соединен с источником данных.

  • Узел уже соединен с источником данных, но родительский узел еще не выполнен: узел Извлечение сущностей не может получить список колонок. В этом случае нужно настроить и выполнить предшествующий узел.

  • Предшествующий узел соединен с узлом Извлечение сущностей и создал таблицу данных, но в созданной таблице отсутствуют текстовые колонки.

Для получения подробной информации см. раздел Выбор колонок при настройке узлов.

Опция Повторное использование вычислений позволяет настроить использование результатов предыдущего выполнения узла. Данная опция также используется в узлах Индекс, Анализ тональности и Извлечение фактов.

ee computation reuse.rus

Если опция включена, при каждом перевыполнении будут индексироваться только новые документы: те записи, которые были проиндексированы ранее, индексироваться не будут, а результат их индексирования будет копироваться из предыдущего результата. Таким образом, скорость индексации увеличится, так как одни и те же документы не будут индексироваться дважды. Подробнее данная опция описана в разделе, посвященном узлу Индекс.

Обратите внимание на то, что результаты узла Извлечение сущностей при повторном использовании вычислений зависят от результатов родительских узлов, использующих текстовые индексы (Индекс, Анализ тональности, и Извлечение фактов). Если один из родительских узлов был пересчитан и выдал новый результат на том же документе, то этот документ будет пересчитан в текущем узле Извлечение сущностей. Если после пересчета родительских узлов результат в них не изменился, то текущий узел Извлечение сущностей не будет пересчитывать результат для этого документа, а использует готовые данные, полученные в ходе предыдущего выполнения узла.

Например, мы имеем посчитанную цепочку узлов Индекс → Извлечение сущностей. Затем пересчитываем только узел Индекс с новыми настройками и получаем новый результат (не выполняем при этом узел Извлечение сущностей). Затем восстанавливаем предыдущие настройки узла Индекс, снова выполняем его, получаем прежний (первый) результат, и только теперь запускаем узел Извлечение сущностей. В таком случае узел Извлечение сущностей не будет пересчитывать результаты, так как результат узла Индекс, на котором он был посчитан в последний раз, не изменился. Если бы мы на каждом этапе перевыполняли и узел Извлечение сущностей, то он бы пересчитывался на каждом этапе (для тех документов, для которых результат работы узла Индекс действительно изменился).

Такое поведение характерно для всех узлов, следующих за родительскими узлами, использующими текстовые индексы.

На первой вкладке окна настроек узла также отображаются результаты предыдущей индексации исходного текста.

Настройка вкладки Сущности

Вкладка Сущности отображает список различных типов сущностей, которые могут быть обнаружены узлом Извлечение сущностей.

ee entities.rus

Типы сущностей, отображаемых в списке на вкладке Сущности:

  • Legal entities/Правовые сущности

    • People/Люди – имена людей, например, "Иванов Иван Иванович";

    • Companies/Компании – названия компаний, например, "Мегапьютер";

    • Organizations/Организации – названия организаций, например, "Организация Объединенных Наций";

  • Locations/Географические локации и объекты

    • GeoAdministrative/Геоадминистративные объекты – названия географических объектов, например, "Санкт-Петербург";

    • Landforms/Формы рельефа – названия естественных форм рельефа, например, "Кавказские горы";

    • Facilities/Объекты – названия городских объектов и мест, например, "Международный аэропорт Шереметьево имени А. С. Пушкина";

  • Contacts/Контакты

    • Post addresses/Почтовые адреса – конкретные адреса, например, "101000, Российская Федерация, Москва, ул. Ленина, д. 1";

    • Internet-addresses/Интернет-адреса – доменные имена и адреса веб-страниц, например, "http://www.megaputer.com";

    • Email addresses/Адреса электронной почты – адреса электронной почты, например, "user@megaputer.ru";

    • Phone numbers/Телефонные номера – номера телефонов, например, "495-123-45-67";

  • Dates/Даты

    • Dates/Даты – комбинации календарных дат и/или времени, например, "Понедельник, 2 мая, 2000" или "11/11/1990";

  • Amounts/Количественные величины

    • Currencies/Валюта – значения валют, например, "100 рублей" или "$9001,00";

    • Units/Единицы – единицы измерения, например, "10 сантиметров" или "256 градусов Цельсия";

  • Identifiers/Идентификаторы

    • Account Numbers/Номера счетов – уникальные идентификаторы персональных счетов, например, "40811234567891234567";

    • Claim Numbers/Номера обращений – уникальные идентификаторы обращений, например, "АB111C2";

    • Credit Card Numbers/Номера банковских карт – уникальные идентификаторы банковских карт и платежных систем, например, "4000-1234-5678-9012";

    • Digital Object Identifiers/Идентификаторы цифровых объектов – постоянные идентификаторы цифровых объектов, например, "AA00000B1";

    • Dates of Birth/Даты рождения – даты рождения людей, например, "1 июля, 2000";

    • Driver License Numbers/Номера водительских удостоверений – уникальные идентификаторы водительских удостоверений, например, "12-34-567890";

    • Health Insurance Numbers/Номера документов медицинского страхования – уникальные идентификаторы документов медицинского страхования, например, "123-456-789-01";

    • International Standard Numbers/Международные стандартные номера – уникальные идентификаторы книжных (ISBN) и периодических изданий (ISSN), например, "9782123456789";

    • License Plate Numbers/Регистрационные номерные знаки – номера регистрационных знаков, например"A001BB";

    • Passport Numbers/Номера паспортов – уникальные идентификаторы паспортов, например, "123456789";

    • Personal Identification Numbers/Персональные идентификационные номера – уникальные персональные идентификаторы, например, "1234567890";

    • Policy Numbers/Номера полисов – уникальные идентификаторы полисов, например, "AB12C34D56";

    • Taxpayer Identification Numbers/Идентификационные номера налогоплательщика – идентификаторы налогоплательщика, номера социального страхования, а также идентификаторы работодателя, например, "123456789012";

    • Vehicle Identification Numbers/Идентификационные номера транспортных средств – уникальные идентификаторы транспортных средств, например, "1ABCD23EFGH456789";

  • Industry/Промышленность

    • Drugs/Лекарственные средства – названия лекарственных и химических веществ, например, "ибупрофен";

    • Technologies/Технологии – технологии, патенты и технологические продукты, например, "3D-принтер";

    • Automotive/Автомобилестроение – названия автомобилей, автопроизводителей, а также спецификаций, например, "АО "АвтоВАЗ"";

    • Pathologies/Патологии – названия симптомов, болезней и патологических состояний, например, "головокружение";

    • Anatomy/Анатомия – упоминания частей тела и органов, например "роговица глаза".

Данный список включает только стандартные сущности.

PolyAnalyst – постоянно развивающийся продукт. В доступном вам списке могут отсутствовать некоторые сущности или наоборот – присутствовать дополнительные типы. Этот список зависит от того, включает ли ваша версия PolyAnalyst словари сущностей. Набор словарей может варьироваться от пользователя к пользователю. Если нужный тип сущностей в списке отсутствует, свяжитесь со службой технической поддержки компании Мегапьютер.

Выбор сущностей для включения в выходную таблицу

Список типов сущностей является настраиваемым. Если вы не изменяли настройки по умолчанию, то узел извлечет все типы стандартных (Standard) сущностей. Включение сущности в выходную таблицу зависит от того, выставлен ли флажок в соответствующем чекбоксе на вкладке Сущности.

Используйте чекбоксы для включения сущности или группы сущностей в выходную таблицу или исключения из нее. Отключение сущности не сбрасывает ее настройки.

ee entities check.rus

Порядок отображения сущностей в списке не имеет значения. Однако возможность сортировать список сущностей отсутствует.

Рекомендуется включать только те сущности, которые нужны для анализа. Чем меньше количество включенных сущностей, тем быстрее выполняется узел Извлечение сущностей, и тем меньше места на диске требуется для сохранения результатов узла. Исключение сущностей из анализа приводит к тому, что они не отображаются в выходном отчете.

Изменение подсветки сущностей

Вы также можете настроить подсветку сущностей, открыв цветовую палитру с помощью двойного нажатия на соответствующую ячейку в колонке Цвет.

ee entities highlighting.rus

Цвета выбираются согласно эстетическим предпочтениям и не влияют ни на логику, ни на производительность узла Извлечение сущностей. Возможно, при просмотре документа вам будет удобнее связывать сущности с конкретными цветами (чтобы выделить их в больших текстах), особенно если в этих текстах встречается несколько типов сущностей. В этом случае вы могли бы сказать, что, например, телефонные номера выделяются красным цветом, а имена людей – синим.

Просмотр описаний сущностей

Если вы выберете один из приведенных в списке типов сущностей, в нижней части окна отобразится его описание.

ee description.rus

Для пользовательских сущностей здесь будет отображено то описание, которое пользователь ввел самостоятельно на вкладке Общие в настройках сущности.

Чтобы скрыть описание, нажмите на кнопку Показать/скрыть описание на панели инструментов.

Опции панели инструментов

Панель инструментов расположена в верхней части окна.

ee toolbar.rus

Панель инструментов содержит следующие опции (сверху вниз):

  • Настройки – открывает новое диалоговое окно для настройки выбранной сущности (XPDL-правила (только для пользовательских сущностей), фильтрация, постобработка, разрешение конфликтов, и др.). Кнопка активируется только после того, как вы выберете тип сущностей в списке.

  • Новая сущность – позволяет пользователям добавлять новые пользовательские сущности в список стандартных сущностей.

  • Клонировать – позволяет пользователям копировать существующие пользовательские сущности. Опция активируется только после того, как вы выберете пользовательскую сущность в списке.

  • Удалить – позволяет удалять пользовательские сущности. Опция активируется только после того, как вы выберете пользовательскую сущность в списке.

  • Вверх/Вниз – позволяет пользователям перемещаться по списку сущностей, а также изменять их порядок в рамках (под)папки. Кнопки активируются только после того, как вы выберете тип сущностей в списке.

  • Развернуть все/Свернуть все – разворачивает и сворачивает список сущностей (имеющий древовидную структуру).

  • Выделить все/Отменить все – выделяет и отменяет все сущности.

  • Экспортировать/Импортировать настройки пользовательских сущностей – кнопки позволяют импортировать и экспортировать пользовательские сущности в формате *.csv.

  • Показать/скрыть описание – скрывает описание сущности внизу окна. Чтобы показать описание, нажмите кнопку еще раз.

Поле Найти позволяет выполнить поиск отдельных типов сущностей.

Для того, чтобы отредактировать одну из сущностей, дважды нажмите на нее в списке, или выберите ее и нажмите кнопку Настройки на панели инструментов.

ee toolbar options.rus

Откроется окно с несколькими вкладками для создания фильтра и настройки опций постобработки, которые будут описаны ниже.

Нажмите на кнопку Новая сущность для того, чтобы добавить в список новую пользовательскую сущность.

ee entities new.rus

Она появится в нижней части списка сущностей. По умолчанию ей присваивается имя Entity (Сущность). Вы можете отредактировать название сущности в любой момент: для этого выберите ее и нажмите на имя.

ee entities new name.rus

Для того, чтобы задать условия для извлечения данной сущности, выберите ее в списке (если она еще не выбрана) и нажмите на кнопку Настройки.

Подробнее о редактировании сущностей см. далее.

Настройка вкладки Словари

Вкладка Словари позволяет выбрать словари, которые будет использовать узел в процессе выполнения.

ee dictionaries.rus

По умолчанию включена опция Использовать словари по умолчанию.

Вы можете вручную включать/отключать отдельные словари.

Поле слева представляет собой список групп словарей. Группы в списке отмечены зеленой галочкой или квадратом. Галочка означает, что используются все словари этой группы. Зеленый квадрат означает, что используются лишь некоторые словари этой группы.

Если выбрать какую-либо группу, то в окне справа отобразится весь список словарей данной группы.

Любые изменения, внесенные в список групп словарей, отключают опцию Использовать словари по умолчанию. Если вы повторно отметите флажком данную опцию, будут восстановлены настройки словарей по умолчанию.