Результаты узла Извлечение сущностей
Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.

После того, как узел будет выполнен, выберите опцию Показать в контекстном меню узла на скрипте. Окно просмотра результатов узла содержит 4 вкладки: Тексты, Сущности, Статистика и Настройки. По умолчанию при открытии окна просмотра автоматически открывается вкладка Сущности: именно здесь представлен основной отчет узла.

ee results view.rus

В колонке слева отображены все извлеченные сущности с указанием количества сущностей данного типа в анализируемой таблице данных.

Над списком сущностей находится панель инструментов со следующими кнопками:

1) Обновить – обновляет результаты узла после того, как его свойства были изменены в окне просмотра результатов (см. раздел ниже).

ee results refresh.rus

2) Вкладка Настройки – позволяет пользователям быстро переключаться со вкладки Результаты на вкладку Настройки и обратно. Первая отображает результаты узла, вторая используется для изменения настроек узла (см. раздел ниже).

ee results properties.rus

3) Список сущностей – позволяет переключаться между отображением извлеченных сущностей в виде списка и в виде дерева.

ee results list.rus

4) Развернуть все/Свернуть все – позволяет развернуть/свернуть все категории сущностей одновременно.

ee results expand.rus

В центре вкладки отобразится таблица со всеми извлеченными сущностями выбранного типа. Также в этой таблице в отдельных колонках отображаются Support (поддержка) и Frequency (частота) каждой извлеченной сущности.

ee results support.rus

В крайнем поле справа – область детализации, где можно просмотреть полный текст записей, содержащих извлеченные сущности.

Поле Словари, расположенное в нижней части вкладки, позволяет редактировать используемые узлом словари. Предположим, что вас не интересует некая сущность. В таком случае необходимо добавить ее в список стоп-слов (используемый по умолчанию или пользовательский словарь StopLists).

Для того, чтобы добавить слово в словарь StopLists по умолчанию, выберите соответствующую сущность и нажмите на нее правой кнопкой мыши. Затем в открывшемся меню выберите опцию Добавить в словари.

ee results add.rus

Откроется новое диалоговое окно редактора словаря:

ee results stop.rus

Нажмите ОК, чтобы добавить выбранную сущность в словарь StopLists. Словарь стоп-слов по умолчанию используется для всех проектов. Помните, что редактировать словари по умолчанию не рекомендуется.

Если при последующем выполнении узла вы используете свой стоп-лист вместо словаря по умолчанию, узел не извлечет сущностей, зарегистрированных в словаре стоп-слов.

После редактирования словарей вы также можете нажать на кнопку Обновить на панели инструментов, расположенной над списком сущностей. Через некоторое время результаты узла обновятся в соответствии с внесенными в словарь изменениями. Обратите внимание на то, что в результате подобного обновления последующие узлы потребуют перевыполнения.

Узлу Извлечение сущностей может предшествовать узел Индекс, в котором документы могут быть привязаны к датам и времени (см. скриншот ниже).

ee results index.rus

В этом случае в окне просмотра результатов узла Извлечение сущностей рядом со вкладкой Словари будет отображена дополнительная вкладка Шкала времени:

ee results timeline.rus

Вкладка отображает изменение встречаемости выбранной сущности с течением времени. Соответственно, по оси X отображается время, а по оси Y – количество записей, в которых встретилась данная сущность.

Вы можете использовать данную шкалу времени для фильтрации записей в области детализации для того, чтобы просмотреть записи с интересующими вас сущностями в пределах выбранного интервала времени. Для того, чтобы настроить диапазон дат, наведите курсор на начальную дату, нажмите на нее левой кнопкой мыши, и удерживая кнопку, переместите курсор до конечной даты. В области детализации отобразятся только те записи, которые попадают в выбранный временной интервал.

Используйте соответствующую кнопку для того, чтобы отобразить/скрыть панель инструментов. Здесь вы можете задать диапазон дат с помощью соответствующей опции. Откройте выпадающее меню и либо введите необходимый временной диапазон вручную, либо воспользуйтесь для настройки встроенным календарем. Применяемый формат времени: мм/дд/гггг (месяц/день/год).

Кроме того, вы можете просто выбрать отдельную дату на шкале времени. Для этого нажмите на колонку интересующей вас даты на шкале времени. Колонка окрасится в красный цвет. В области детализации отобразятся все записи с выбранной сущностью для заданной даты.

Опция Шаг определяется двумя параметрами: размер шага (число) и интервал шага. Наведите курсор на поле размера шага для просмотра доступных значений для конкретного интервала:

ee results timeline step.rus

Вы также можете использовать соответствующие кнопки для постепенного увеличения/сокращения шага.

Вкладка Шкала времени с тем же набором функциональных возможностей отображается в отчетах таких текстовых узлов, как Извлечение ключевых слов, Извлечение фактов, Извлечение медицинских сущностей и Анализ тональности.

На вкладке Тексты также можно выполнить детализацию записей, содержащих искомые сущности:

ee results texts.rus

Все сущности в пределах одной записи отображаются в виде дерева справа. При нажатии на выделенную в области детализации сущность появится аннотация:

ee results text drilldown.rus

На вкладке Статистика отображаются общие статистические данные о работе узла – количество извлеченных сущностей, количество записей, содержащих их, и др.

Вкладка Настройки содержит информацию о текущих настройках узла и времени его выполнения.

Валидация результатов узла

Остановимся несколько подробнее на возможности валидации результатов узла.

Меню Валидация доступно над таблицей результатов на вкладке Сущности. При активации опции Режим валидации в таблицу с извлеченными сущностями добавляются две соответствующие колонки:

ee results validation.rus

Пользователь может оценить правильность извлеченных сущностей и пометить их как валидные или невалидные, используя соответствующие флажки.

ee results validation check.rus

У пользователя есть возможность сохранять результаты валидации. Благодаря этому вам не придется заново осуществлять валидацию извлеченных сущностей после незначительных изменений в правилах или после перевыполнения узла. Для того, чтобы сохранить данные о валидности сущностей, снова откройте меню Валидация и выберите опцию Сохранить изменения. Если вы этого не сделаете и попытаетесь обновить результаты узла или закрыть окно просмотра результатов, на экране появится предупреждение о том, что данные о валидности извлеченных сущностей были изменены. В случае необходимости подтвердите сохранение результатов валидации, либо сбросьте их.

При создании нового узла Производная таблица на основе результатов узла Извлечение сущностей, вы можете настроить узел на создание колонки Validity, где для каждой сущности будет указан ее статус (валидная/невалидная).

Пользователи могут импортировать и экспортировать результаты валидации в файл *.csv, выбрав соответствующую опцию в меню Валидация.

Генерирование дочерних узлов

После настройки результатов узла Извлечение сущностей вы можете воспользоваться опцией Сгенерировать для добавления последующего узла на скрипт:

ee results generate.rus

Среди доступных узлов: Производная таблица, Связь терминов и Объект GIS. Каждый из них настраивается по-своему на этапе генерирования. Дополнительные опции доступны при вызове окна Настройки для конкретного узла на скрипте.

Редактирование свойств узла при просмотре результатов

Пользователи могут редактировать свойства узла во время просмотра его результатов. Это особенно удобно, например, в тех случаях, когда вы извлекаете пользовательские сущности, и во время просмотра результатов замечаете какую-то ошибку в правиле или возможность его усовершенствования. Для этого вам не нужно возвращаться на скрипт, открывать окно настроек, редактировать их, выполнять узел и снова открывать окно просмотра результатов.

Для использования данного функционала нажмите соответствующую кнопку на панели инструментов или переключитесь на вкладку Настройки:

ee results props view.rus

Подробное описание каждой вкладки представлено в разделе Настройка узла Извлечение сущностей.

По завершении процесса настройки нажмите на кнопку Обновить на панели инструментов для обновления результатов узла в соответствии с внесенными изменениями.

Во время обновления никакие другие операции в окне просмотра будут недоступны. На обновление может понадобиться несколько секунд. Обратите внимание на то, что (как и в случае редактирования словарей с последующим обновлением результатов узла) статус всех последующих узлов в цепочке узлов на скрипте изменится, и их необходимо будет перевыполнить, поскольку их результаты будут уже неактуальны.

Просмотр результатов профилирования

В отчете узла на вкладке Статистика вы можете просмотреть результаты профилирования XPDL-правил и постобработчиков для пользовательских сущностей. Это может быть удобно в том случае, если пользователь хочет отследить и повысить эффективность работы созданных им правил и постобработчиков.

Для того, чтобы открыть страницу с результатами профилирования, нажмите на соответствующую кнопку на панели инструментов или переключитесь на вкладку Профилировщик. Результаты профилирования будут отображены в таблице справа:

ee results profiler.rus

В отдельных колонках будут отображены следующие статистические данные:

  • Entity type (Сущность) – тип сущности в дереве;

  • Rule name (Имя правила) – назначенное имя для правила;

  • Hit count (Количество выполнений) – сколько раз выполнилось правило;

  • Execution time with subrules (Время выполнения с дополнительными правилами) – время выполнения основного правила и его производных;

  • Compilation time (Время компиляции) – время компиляции XPDL-правила;

  • Execution time (Время выполнения) – время выполнения только основного правила (без дополнительных);

  • Total time (Общее время выполнения) – суммарное время выполнения правила/постобработчика (т.е. Время компиляции + Время выполнения);

  • Average time per call (Среднее время выполнения) – среднее время выполнения правила на одной записи;

  • Maximum time per call (Максимальное время на документ) – максимальное время выполнения правила на одной записи;

  • Maximum time per call document (Документ, на котором получено максимальное время) – номер записи (в исходной таблице данных), на которой правило выполнялось дольше всего.

Некоторые из этих параметров отображаются по умолчанию, другие при необходимости можно добавить через меню Выбор колонок на панели инструментов.

ee results select columns.rus

Например, если вы обнаружите, что общее время выполнения узла – 5 минут, а какое-то правило выполнялось в течение одной минуты: это может означать, что правило требует доработки.

Если вы хотите сохранить результаты профилирования в виде таблицы, нажмите на опцию Сгенерировать для создания дочернего узла Производная таблица, либо вручную добавьте данный узел на скрипт.

Откройте окно Настройки получившегося узла и выберите опцию Показать результаты профилирования в выпадающем меню Тип таблицы. После этого настройте колонки будущей таблицы:

ee results generic dataset profiler.rus

Аналогичный функционал доступен для узлов Извлечение медицинских сущностей, Извлечение фактов и Анализ тональности.

Редактирование отображения текста в ячейке

При просмотре списка сущностей вы можете отредактировать отображение текста, например, изменить количество отображаемых слов, способ отображения извлеченной сущности и т.д.

Данная опция доступна только для колонки текстового типа.

Для этого выберите опцию Свойства колонки на вкладке Сущности.

ee results column props.rus

Затем выберите нужную колонку и отметьте чекбокс Выделенный текст.

ee results highlighted text.rus

Как показано выше, вы также можете сконфигурировать данную опцию, а именно: указать количество отображаемых перед сущностью слов или разрешить перенос слова на другую строку при необходимости.

Следует иметь в виду, что сущность может состоять из нескольких элементов, в данном случае, как вы можете видеть на предыдущем скриншоте, такой элемент будет называться "точкой привязки".