Результаты узла Связь терминов
Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.

Результаты узла Связь терминов размещены на пяти вкладках. Первая вкладка, Связи, отображает диаграмму корреляций между терминами (она представлена на рисунке ниже). Вторая вкладка, Связь терминов, представляет ту же информацию в табличной форме, с указанием силы связи и поддержки каждой связи. Третья вкладка – область детализации связей между двумя или более словами. Четвертая вкладка, Облако терминов, представляет еще один инструмент визуализации обнаруженных связей. Вкладка Настройки содержит информацию о времени выполнения узла и его текущих настройках.

link terms view.rus

Панель инструментов на первой вкладке содержит те же опции, которые доступны в окне просмотра узла Анализ связей.

Узел Связь терминов не использует функцию прямой корреляции. PolyAnalyst использует модифицированный алгоритм корреляционного анализа, который выдает отличные от стандартного коэффициента Пирсона результаты.

Пользователям, безусловно, полезно понимать, что такое "сила связи", однако это не является обязательным условием для работы с результатами узла Связь терминов. Графическая репрезентация результатов узла – это упрощенное представление интересующих нас связей между словами, а значения «силы связей» являются всего лишь дополнительными деталями. Более целостное представление о работе узла Связь терминов можно получить, не только определив, какие связи были выявлены, а какие нет, но и какова сила одной связи по сравнению с силой другой связи.

Сила связи рассчитывается как логарифм значения вероятности отношения между двумя терминами. Чем больше сила связи, тем более значимым является отношение.

Диаграмму узла Связь терминов можно настроить и так, чтобы она отображала отношения в зависимости от поддержки, или общего числа записей, в которых присутствуют оба термина (обе стороны отношений). Поддержка – это показатель, который используется в системе PolyAnalyst несколькими другими узлами, и почти всегда обозначает количество записей.

В техническом плане пользователям следует помнить, что поддержка является абстрактной мерой. Если вы настраиваете узел Связь терминов для исследования текста на менее масштабном уровне, на уровне абзаца или предложения, то поддержка относится к количеству предложений или абзацев, в которых термины встречаются вместе, что зачастую не то же самое, что и количество записей, где оба термина встречаются вместе.

По сравнению с силой связи, поддержка является более интуитивной и имеет много недостатков. Сила связи – это показатель, который в целом не зависит от числа документов. При поиске ассоциаций (связей) не так важно, представлена ли связь в 5 записях или в 10, поскольку значимость связи лучше всего определяется пропорционально к общему количеству записей в документе. Если в один день вы работаете с 500 документами, на другой день – с 5000, то значимость связей между словами должна остаться той же самой, независимо от количества анализируемых документов. Тот факт, что при использовании показателя силы связи можно достигнуть этого эффекта (значимость связей остается той же самой), говорит о том, что это лучший показатель, так как информация, которую он представляет, легко применима к новым данным. Как и модель, показатель силы связи в большей степени предназначен для обобщения информации, и отражает более верную информацию о трендах в данных.

Сила связи также учитывает частоту отдельных терминов. Во время вычислений функция силы связи учитывает частоту левого термина, частоту правого термина и частоту появления сочетания обоих терминов. Поддержка учитывает только частоту появления терминов в сочетании и не так полезна, как корреляция или сила связи. Показатель поддержки может иметь статистическую погрешность из-за чрезмерного представления слов в выборке данных. То, что вы работаете с документами, в которых два слова упоминаются часто, не позволяет сделать вывод, что эти два слова "связаны" статистически. В этом смысле сила связи дает более точные результаты.

Поддержка легче поддается пониманию, поскольку она фактически означает количество записей. Однако сила связи – более ценный показатель достоверности обнаруженной связи между терминами.

Для того, чтобы наглядно представить это, пользователям рекомендуется использовать попеременно поддержку и силу связи, чтобы увидеть, какие связи появляются и исчезают при использовании того или иного показателя. Вы можете переключаться между метриками, используя выпадающее меню в левом верхнем углу вкладки Связи.

Вкладка Связь терминов отображает связи, найденные узлом, в формате таблицы. Опции фильтрации, примененные к диаграмме на предыдущей вкладке, не влияют на таблицу. Пользователи также могут рассмотреть все подробно в детализации, нажав два раза на любую запись.

link terms tab.rus

Для того, чтобы воспользоваться данной функцией, нажмите дважды на связь между словами на первой вкладке. Выберите ячейку с изучаемым текстом для просмотра полного содержания на текстовой панели, где выделены слова, встречающиеся в сочетании.

link terms drilldown.rus

Для получения информации по использованию вкладки Детализация см. раздел по просмотру данных.

Вид вкладки Облако терминов аналогичен окну просмотра результатов узла Облако тегов.

Для того, чтобы использовать результаты узла в ходе дальнейшего анализа, вы можете представить их в табличной форме. Для этого вам потребуется узел Производная таблица.

Рекомендации по исследованию ассоциаций ключевых слов

В зависимости от настроек, связь между терминами может быть обнаружена в пределах широкого контекста (на уровне документа) и самого узкого контекста (на уровне предложения). Вероятность совместного появления слов в большом контексте выше, что обычно увеличивает силу их связи, отображаемую в выходных данных узла Связь терминов. Вероятность того, что слова встретятся вместе в узком контексте, например, на уровне предложения, ниже.

Важно понимать, что использование самого широкого контекста для получения большей силы связи – не всегда лучшая тактика. Выбор узкого контекста увеличивает вероятность того, что когда два слова встречаются вместе, они связаны семантически. Предложения обычно выражают одну идею. Если вы откроете книгу, выберете по одному слову с первой и последней страницы, то эти слова вряд ли будут семантически связаны (хотя есть небольшая вероятность этого, т.к. оба слова используются в одной книге). Если вы хотите получить более значимые отношения между словами, лучше использовать более узкий контекст, например, на уровне предложения.

При этом необходимо учитывать размер документа или среднее количество слов в текстовом значении для текстовой колонки, анализируемой узлом Связь терминов. Если вы работаете с крупными документами, состоящими из 3 или более абзацев, то лучше использовать более узкий контекст. Если вы работаете с небольшими текстами, от 2 слов до 2-3 предложений, логично использовать уровень документа. Если выбрать узкий контекст предложения для документа небольшого размера, то сокращается вероятность того, что узел Связь терминов найдет интересные связи между терминами.

Если вы не уверены, контекст какого уровня нужно использовать, не бойтесь экспериментировать. Вы можете создать любое количество узлов Связь терминов в проекте и выполнять их заново в любое время. Вы также можете скопировать настроенный узел, чтобы не настраивать его заново, и просто изменить контекст в скопированном узле.