Настройка узла Связь терминов
Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.

Свойства узла Связь терминов разделены на четыре вкладки. Вкладки обычно настраиваются слева направо. Если вы используете настройки по умолчанию, вам не нужно настраивать каждую вкладку. По завершении настроек нажмите на кнопку Выполнить, чтобы сохранить изменения, сохранить настройки и выполнить анализ, либо нажмите на кнопку ОК, чтобы сохранить настройки и закрыть окно. Нажмите на кнопку Отмена, чтобы закрыть окно настроек, не сохраняя изменения.

Вкладка Колонки отображает список доступных текстовых атрибутов слева. Это колонки из предшествующего узла, соединенного с узлом Связь терминов. В списке отображаются только колонки текстового типа, поскольку алгоритм Связь терминов предназначен только для работы с колонками текстового типа (с целью их индексации).

lt columns.rus

Чтобы настроить узел, выберите колонку в списке доступных колонок слева и переместите ее в список справа, используя кнопку ">". Как и в других узлах, позже вы можете изменить выбор колонки. Вы также можете отсортировать список доступных/выбранных атрибутов по типу данных в колонке или по имени колонки, либо отфильтровать список доступных атрибутов, чтобы быстро найти атрибут.

В списке выбранных атрибутов должна быть как минимум одна колонка, чтобы узел Связь терминов мог быть настроен и выполнен.

Алгоритм узла Связь терминов предназначен для работы только с одной исходной колонкой. Вам придется создать несколько узлов для каждой отдельной текстовой колонки, которую вы хотите проанализировать.

На вкладке Настройки определяется, какие слова будут использоваться в качестве исходных для узла Связь терминов.

lt options.rus

Выпадающее меню Площадь позволяет задать фрагмент текста, в пределах которого узел будет выявлять связи между терминами. Здесь доступны следующие варианты:

lt area.rus
  • Документ – позволяет выявить связи в целом текстовом значении каждой записи в выбранной текстовой колонке, другими словами, определяется, встречаются ли два слова в одном и том же документе. Данная опция выбрана по умолчанию.

  • Абзац – контекст ограничивается до абзаца. Текстовые абзацы определяются алгоритмом индексирования PolyAnalyst во время загрузки данных. Абзацы определяются с помощью встроенных правил лингвистической обработки. Основное правило – наличие двух символов разрыва строк, что означает пустое пространство в тексте, которое обычно разделяет абзацы. При выборе этой опции слова, которые встречаются вместе на уровне документа, но не на уровне абзаца, не будут считаться связанными. Если слова встречаются вместе в нескольких абзацах в одном документе, они будут иметь более высокую общую частоту по сравнению с частотой на уровне документов.

  • Предложение – контекст ограничивается до предложений. Предложения текста определяются алгоритмом индексирования PolyAnalyst во время загрузки данных. Предложения выявляются с помощью встроенных правил лингвистической обработки. Основное правило – наличие точки, вопросительного или восклицательного знака. Алгоритм разбиения текста на предложения также учитывает исключения из этого правила, например, при наличии сокращений (таких как Dr. или Mr.). Алгоритм также учитывает регистр буквы, следующей за символом, означающим конец предложения. При выборе этой опции слова, которые встречаются вместе на уровне документа, но не на уровне предложения, не будут считаться связанными. Если слова встречаются вместе в нескольких предложениях в одном документе, они будут иметь более высокую общую частоту по сравнению с частотой на уровне документов.

  • Термин – контекст ограничивается до термина.

В поле, расположенном ниже, отображаются Группы терминов, доступные для выбора (для этого нужно проставить или снять галочки около необходимых групп):

lt area.rus

Вы также можете выбрать больше групп, нажав на иконку с плюсом над списом групп терминов.

При развертывании группы и при выборе элемента справа отображаются дополнительные опции. На вкладке Настройки можно задать пользовательское имя элемента группы терминов, указать минимальное количество терминов, их минимальную поддержку и частоту:

lt options expanded.rus

Вы можете создать узел Связь терминов с готовой настройкой прямо из узла Извлечение ключевых слов. Это может быть полезным в том случае, если для вас критичен размер и число узлов на скрипте.

Следующий шаг после добавления слова – составление его выражения. По умолчанию выражение состоит из самого слова. Вы можете изменить выражение в правом текстовом поле на вкладке Настройки. Также вы можете выбрать любое заранее созданное слово в списке слов слева и изменить выражение этого слова (вы можете изменить оба новых созданных пользовательских слова, которые добавили сами, и слова, добавленные автоматически, так же, как и при работе со словами из отчета узла Извлечение ключевых слов). Интерфейс очень похож на интерфейс узлов Поисковый запрос, Таксономия и Многомерная матрица. При работе с этим окном поможет знание этих узлов. Вкладка Настройки фактически позволяет настроить 1-уровневую таксономию, где имя каждого слова означает имя категории, а каждое выражение определяет состав каждой категории таксономии. Таким образом, вы можете использовать узел Связь терминов, чтобы получить результат, показывающий ассоциации между разными категориями таксономии (которые находятся на одном и том же уровне и не генерализованы).

Если вы создаете узел Связь терминов из окна просмотра результатов узла Извлечение ключевых слов, новый узел Связь терминов создается с уже настроенным списком пользовательских терминов. Это можно увидеть на вкладке Термины. Здесь сгенерированные термины можно изменить вручную. К ключевым словам также можно применить SRL-фильтр.

Если вы работаете со списком слов из узла Извлечение ключевых слов, отметьте флажок данной опции под полем списка. Кнопка Настройки справа станет активной. При нажатии на кнопку откроется окно Настройки списка терминов, которое позволяет вам фильтровать слова из списка.

link terms options terms.rus

Алгоритм узла Связь терминов не может обнаружить эти слова самостоятельно. Вам необходимо создать список слов. Сделать это можно несколькими способами. Самый простой способ создания списка исходных терминов для узла Связь терминов – это нажать на кнопку Сгенерировать на панели инструментов окна просмотра результатов узла Извлечение ключевых слов и выбрать Связь терминов. Подробнее об этом – в описании узла Извлечение ключевых слов. Вы также можете добавить слова самостоятельно, используя соответствующие кнопки на вкладке Настройки.

Чтобы добавить новое слово, которое будет учитываться алгоритмом узла Связь терминов, нажмите кнопку Добавить в верхней части вкладки Настройки. PolyAnalyst добавить новое слово в список слов, расположенный слева. Новое слово изначально пустое и подлежит редактированию. Наберите новое слово в поле слева, затем нажмите Enter или кликните в любое место в диалоговом окне. Обратите внимание, что слово слева – это не то слово, которое алгоритм будет искать и анализировать. Это только "идентификатор" слова, или имя, которое используется для представления слова в результатах. Слово фактически определяется поисковым выражением справа. Когда вы вводите новый термин в первый раз и нажимаете Enter, PolyAnalyst автоматически вставляет выбранное имя слова как выражение слова. Если вы не отредактируете выражение, узел будет интерпретировать его как команду.

Как настроить расстояние между словами

При выборе абзаца или предложения в качестве контекста для связи терминов, пользователю необходимо указать значение еще одного параметра, называемого Расстоянием. Это должно быть целое число больше 0 (1 или больше). Данный параметр неактивен при выборе целого документа в качестве контекста для связи терминов, т.к. он не имеет значения.

Если расстояние равно 1, это число означает одну единицу контекста. Например, 1 предложение или 1 абзац. Увеличение этого значения до 2 увеличивает размер контекста до 2 предложений или 2 абзацев, в зависимости от того, какой контекст выбран.

Если в качестве контекста выбрано предложение, а расстояние равно 2, то алгоритм узла Связь терминов считает любые два слова связанными, если эти два слова появляются в пределах 2 следующих друг за другом предложений.

Опция Расстояние позволяет выполнить тонкую настройку алгоритма в зависимости от того, насколько общий или насколько специфический контекст вам нужен. Уменьшение расстояния до 1 означает 1 единицу, т.е. наиболее узкий контекст. Вместо того, чтобы менять контекст с предложения на абзац или документ, вы можете просто увеличить расстояние на 1 или 2 единицы и исследовать выявленные связи между словами в более широком контексте.

Пользователь может еще больше конкретизировать расстояние между связанными терминами, указав количество слов, которое их разделяет.

Настройка поддержки

Поддержка – это термин, означающий счетчик записей. В узле Связь терминов поддержка означает число записей, в которых два слова встретились вместе. Поддержка – это целое число больше 0.

Значение поддержки, равное 0, означает, что между словами нет никакой связи, поскольку 0 означает, что слова не встречались вместе в пределах выбранного контекста.

Для каждой связи между словами, обнаруженной алгоритмом узла Связь терминов, сохраняется значение поддержки в выходных данных. Это значение поддержки – один из параметров алгоритма, который определяет, насколько прочны обнаруженные отношения между словами.

Опция Минимальная поддержка связи – это порог, который проверяется узлом Связь терминов при создании отчета. Пары слов (отношения между словам) ниже порогового минимума не попадут в отчет.

Минимальная поддержка связи должна быть положительным целым числом.

По умолчанию Минимальная поддержка связи равна 2. Это значит, что все отношения между словами со значением поддержки 1 будут проигнорированы и не будут включены в отчет узла. Вы можете изменить это значение, изменяя настройки узла по умолчанию для новых узлов.

Увеличение минимальной поддержки сокращает количество связей, обнаруженных алгоритмом. Это не всегда плохо, поскольку обнаруженные при такой настройке отношения между словами – наиболее прочные.

Минимальная поддержка – не идеальный параметр для улучшения результатов узла Связь терминов, поскольку поддержка пары слов – это лишь эвристический, статистический фактор при определении того, существует ли связь между двумя словами. Иногда чисто математический подход, который рассматривает ассоциации слов, не отображает реальные, значимые отношения между словами, а лишь выявляет некоторые очевидные отношения на основе того, что слова часто встречаются вместе. При выявлении связи между словами необходимо учитывать еще несколько факторов, например, важно знать, как часто отдельные слова используются вне отношений с другими словами, или как часто эти слова вступают в отношения с другими словами (хорошо бы знать, например, какое слово из всех возможных образует наиболее сильную связь с конкретным, интересующим нас словом). Таким образом, увеличение поддержки не всегда дает лучшие результаты, но помогает отфильтровать некоторые менее прочные и менее интересные отношения.

Для получения оптимальных результатов рекомендуется начать с меньшего значения минимального порога поддержки с целью обнаружить большее число отношений между словами, а затем постепенно увеличивать его при последующих запусках алгоритма, чтобы отфильтровать слабые связи. Это сокращает вероятность пропуска значимых отношений.

Вы можете изменить минимальный и максимальный пороги поддержки для отношений между словами во время просмотра выходных данных узла Связь терминов, используя кнопки на панели инструментов над диаграммой. Если увеличить минимальный порог поддержки связей на этапе настройки узла, это приведет к значительному увеличению производительности узла. Узел Связь терминов выполняет тысячи вычислительных операций в ходе выполнения, и его производительность напрямую зависит от числа потенциальных отношений между словами, обнаруженных на ранних стадиях обработки данных. Увеличение минимального порога поддержки во время настройки узла сокращает размер внутренней таблицы, в которой сохраняются эти потенциальные отношения между словами. Любое уменьшение размера этой внутренней таблицы приводит к значительному увеличению скорости ее обработки. Если вы работаете с записями в количестве до 5000, проще использовать инструменты управления поддержкой в окне просмотра результатов, чтобы отфильтровать слабые отношения, поскольку при таком количестве записей параметр Минимальная поддержка связи не влияет на производительность узла.