Редактирование настроек узла
Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.

Окно настроек узла Таксономия включает шесть вкладок:

tax settings.rus
Вкладка Колонки-ключи

Настройка вкладки Колонки-ключи не является обязательной.

При необходимости выберите одну или несколько колонок-ключей, которые позволят создать хеш-код для каждой записи родительской таблицы данных.

Хэш-код необходим для ручного изменения результатов таксономии. После выполнения узла Таксономия в окне просмотра результатов в таблицу на вкладке Детализация (вкладка Результаты в веб-версии Аналитического клиента) будут добавлены следующие дополнительные колонки: Просмотренно (Reviewed), Флаги (Flags) и Идентификатор события (Case Id):

tax settings caseid.rus

Колонка Просмотренно (Reviewed) позволяет пользователям вручную проверять результаты категоризации записей на основе их хэш-кода, указанного в колонке Case Id.

Изменение значений колонок Просмотренно (Reviewed) и Флаги (Flags) доступно в нативной версии Аналитического клиента.

Если вас удовлетворяет результат категоризации записи, отметьте соответствующую запись в колонке Просмотренно (Reviewed).

tax view reviewed.rus

Как видно на скриншоте выше, все записи, помеченные как просмотренные, относятся к одной и той же дате и имеют одинаковый хеш-код.

Для сохранения результатов валидации обновите таксономию.

При редактировании большой количества записей таксономии несколькими пользователями необходимо помнить, что при разрешении конфликтов результаты валидации не сравниваются. В связи с этим данные о валидации могут не соответствовать вашим ожиданиям.

Так, например, в окне просмотра результатов узла могут быть отражены данные о валидации, выполненной другим пользователем. Кроме того, ваша отметка в колонке_Просмотренно_ (Reviewed) может быть снята другим пользователем, и это действие будет иметь больший приоритет.

Колонка Флаги (Flags) может быть использована для добавления дополнительных пользовательских меток для групп записей в категориях таксономии.

Так, например, изучив записи в категории Robbery, мы заметили, что некоторые записи (455 и 482) попали в нее случайно. Они удовлетворяют условию выражения, но не описывают сам факт ограбления. Это подтверждает и результат ручной категоризации записей по типу преступлений: колонка Category не содержит подобных значений. Для того, чтобы сделать соответствующие пометки в таблице, необходимо в левом нижнем углу окна переключиться на вкладку Флаги и добавить новый флаг на боковой панели инструментов.

Переключитесь на вкладку Флаги и добавьте флаг. Откроется новое окно:

tax view mistake.rus

В текстовом поле необходимо указать любое значение (например, Ошибка), после чего нажать ОК для сохранения изменений.

tax view mistake value.rus

Новый флаг будет добавлен в список на соответствующей вкладке.

tax view mistake column.rus

Если в таблице присутствуют записи с таким же хеш-кодом для данной категории, им также будет присвоен этот флаг.

Флаги могут быть использованы для усовершенствования выражений категорий и качества таксономии. В случае возникновения конфликтов флаги, подобно результатам валидации, не сравниваются.

Чтобы сохранить флаги, обновите таксономию.

Дополнительная информация представлена в разделе Категоризация записей вручную.

Вкладка Независимые переменные модели

Независимые переменные модели модели используются встроенным в таксономию классификатором. Для того, чтобы использовать данную вкладку, необходимо предварительно выбрать колонку-ключ на предыдущей вкладке.

tax settings model not chosen.rus

Классификатор обучается на выбранных пользователем записях и распределяет оставшиеся записи таблицы данных по категориям.

Таким образом, пользователь может вручную выполнить классификацию нескольких текстов: остальные записи узел Таксономия объединит в категории самостоятельно по степени их схожести.

Если вы хотите создать и обучить модель для вашей таксономии, выберите текстовую колонку из родительской таблицы данных на вкладке Независимые переменные модели. Также вы можете выбрать несколько релевантных предикторов, которые могут повысить качество модели.

tax settings model.rus

Чем больше записей вы обработаете вручную, тем лучше будет результат обучения модели. Категории могут и не иметь PDL-выражений.

После обновления таксономии или перевыполнения узла модель линейной классификации будет создана и обучена на тех записях, которые вы распределили по категориям вручную, а затем применена для автоматической категоризации оставшихся записей.

При просмотре результатов узла на вкладке Детализация (вкладка Результаты в веб-версии Аналитического клиента) в таблицу будет добавлена дополнительная колонка Model (Модель):

tax model results.rus

Данная колонка содержит булевые значения. Значение yes означает, что запись была добавлена моделью. Значение no означает, что запись была вручную перенесена пользователем в категорию или на ней сработало PDL-выражение.

Записи, которые были вручную перемещены из одной категории в другую, будут выделены желтым цветом.

Вкладка Матрица ошибок
Результаты на вкладке Матрица ошибок можно увидеть в нативной версии Аналитического клиента.

Матрица ошибок позволяет определить правильность классификации текстов.

tax settings matrix.rus

Если в таблице данных имеется колонка с правильной категоризацией текстов, и если их классифицировали вручную, то для формирования матрицы ошибок достаточно при построении дерева таксономии называть узлы так же, как называются категории в данной колонке.

При этом в отчете узла появится дополнительная колонка с количеством верно классифицированных текстов, а также ложноположительных и ложноотрицательных результатов.

Матрица ошибок обычно используется с одноуровневыми таксономиями, поэтому для опции Применить целевую переменную к элементам по умолчанию выбрано значение Первый уровень. Однако можно настроить ее и на использование "листьев", выбрав соответствующий режим.

Просмотреть матрицу ошибок можно на одноименной вкладке в окне просмотра результатов после выполнения узла.

tax view matrix.rus
Вкладка Параметры

На вкладке Параметры различные свойства таксономии объединены в группы.

tax settings parameters.rus

Раздел Вычисления включает следующие опции:

  • Определять релевантность – включает/отключает расчет релевантности текстов (по умолчанию – включен). При отключении данной опции в отчете будет отсутствовать колонка Релевантность (Relevance), а выполнение PDL-запросов будет оптимизировано (т.е. они будут выполняться быстрее). Пользователям доступны два режима расчета релевантности:

    • При приближенном методе используются предварительно рассчитанные значения релевантности терма (слова) применительно ко всему набору данных. Любые изменения в количестве исходных записей (добавление или удаление документов) повлияют на значение релевантности.

    • Точный метод является более сложным. В этом случае релевантность терма рассчитывается для каждого конкретного документа с учетом дополнительных факторов (например, положение терма в предложении или документе). При использовании данного метода свойства других документов в наборе данных не влияют на полученные результаты.

  • Определять количество соответствий – при включении добавляет в отчет узла дополнительную колонку Количество соответствий (Match count), в которой указывается, сколько раз в данном тексте встречаются шаблоны из поискового запроса;

  • Определять ключевые слова – включает/отключает создание списка ключевых слов из подмножества записей, которые образуют выбранный узел Таксономия. При этом в отчет добавляется соответствующая вкладка с найденными ключевыми словами. Используя данный список, вы можете достраивать дерево таксономии через контекстное меню. Для этого щелкните правой кнопкой мыши по слову и выберите опцию Создать категорию. См. раздел Подробнее о вкладке Ключевые слова;

  • Определять тональность (требуется входящее соединение с узлом Анализ тональности) – позволяет определить, насколько каждый узел дерева таксономии является положительным или отрицательным. Результаты отображаются в дополнительных колонках, а сами категории получают зеленую, желтую или красную подсветку.

Опция Тип модели связана со вкладкой Независимые переменные модели и позволяет выбрать тип используемого классификатора: Наивный байесовский классификатор или SVM-классификатор.

tax settings model type.rus

Опция Режим близости позволяет настроить режим близости в отношении родительских и дочерних категорий таксономии. При выставлении параметров в дочерний узел будут попадать не все тексты из родительского узла, которые удовлетворяют условию PDL-выражения, а только те, которые находятся в определенной близости от шаблонов родительского запроса. Если вы не хотите использовать данный режим, выберите значение Нет в выпадающем меню (по умолчанию). При выборе остальных вариантов (Близко, Предложение, Близко в предложении) укажите значение в соседнем поле. Подробная информация представлена в разделе Изменение настроек близости для категории.

tax settings parameters proximity.rus

При необходимости импортировать уже готовую таксономию отметьте галочкой опцию Загрузить таксономию из XML/CSV-файла перед выполнением. Чтобы указать путь до файла, нажмите Выбор…​. Данная опция используется с различными внешними системами создания таксономий.

tax settings browse.rus

Опция Защитить дерево таксономии используется для защиты интеллектуальной собственности при передаче таксономий и проектов с таксономиями третьим лицам. Активация данной опции отключает возможность копирования PDL-выражений (в том числе и для самого пользователя). Сама структура дерева будет храниться в проекте в зашифрованном виде.

tax settings protect.rus
Вкладка Словари

Вкладка Словари позволяет выбрать словари, которые будут использоваться при обработке текстов.

tax settings dictionaries.rus

При включении опции Использовать словари по умолчанию словари будут синхронизированы с текущими настройками по умолчанию при каждом выполнении узла.

Вкладка Общие

Вкладка Общие является стандартной для многих узлов. Например, здесь можно переименовать узел Таксономия или изменить его описание.