Результаты узла Анализ покупательской корзины
Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.

Окно просмотра результатов узла Анализ покупательских корзин состоит из трех вкладок. На первой вкладке Описание корзин перечислены группы продуктов (корзины), на второй вкладке Ассоциативные правила приводится таблица обнаруженных узлом правил. Вкладка Настройки содержит информацию о времени выполнения и текущей настройке узла.

Вкладка Описание корзин отображает список найденных узлом групп товаров. Не следует путать их с ассоциативными правилами. Это группы товаров, которые соответствуют критериям, указанным в настройках алгоритма. Вкладка содержит две таблицы. Таблица сверху — список корзин. Нижняя таблица — область детализации, которая отображает исходные записи (транзакции) для выбранной корзины (или просто все исходные записи, если корзина не выбрана в таблице сверху).

basketanalysis report2.rus

Для каждой корзины доступна следующая информация (колонки верхней таблицы):

  • Корзина # — простой уникальный идентификационный номер для каждой корзины. Он генерируется автоматически и не имеет никакого логического или математического значения, кроме того, что однозначно идентифицирует каждую корзину товаров (каждую колонку в данной таблице)

  • Количество товаров — количество товаров (уникальных колонок), содержащихся в корзине.

  • Поддержка — количество исходных записей, содержащих продукты в корзине. Указывается именно количество записей, а не проценты.

  • log (p-значение) — мера значимости корзины. Значение вероятности — общепринятый статистический термин, который отражает вероятность того, что данная корзина была найдена путем случайного выбора. Меньшее значение вероятности свидетельствует о том, что, скорее всего, корзина выбрана не случайно, а значит, результат поиска имеет статистическое значение. Логарифмическая функция отражает конкретное число при чрезвычайно малом количестве установленных значений вероятности для корзин. Следовательно, чем больше число в данной колонке, тем больше вероятность того, что корзина была выбрана случайно. Это служит не столько мерой значимости полученных данных, сколько поводом для сравнения корзин. Некоторые корзины имеют большее значение вероятности, чем другие.

  • Продукты — список товаров в корзине. Не обязательно в алфавитном порядке. Союз AND (и) выступает в роли разделителя для наименований товаров.

Выбрав любую строчку в верхней таблице, можно обновить таблицу в нижней части окна под списком корзин. При выборе корзины детализация обновляется и показывает все исходные записи, обозначающие товары, входящие в выбранную корзину (записи, в которых все колонки истинны). Эти две таблицы представлены в виде стандартной для PolyAnalyst сетки данных. Вернитесь к разделу Работа с сеткой данных, если вам понадобится дополнительная информация о том, как экспортировать данные о корзине, создавать подмножества данных, сортировать данные и др.

Р-значение (значение вероятности) отражает возможность того, что обнаруженное совместное появление товаров в одной транзакции (корзине) случайно. Чем ближе это значение к нулю, тем правдоподобнее ассоциация товаров в одной корзине. Когда изучаются тысячи транзакций, значение вероятности часто близко к нулю. Если оно меньше 10-7, считается, что оно равно нулю. Чтобы показать точное значение, логарифм с основанием 10 от р-значения отражается в скобках. Поскольку вероятность случайной ассоциации товаров всегда меньше 1, соответствующие логарифмы отрицательные. Чем выше абсолютное значение логарифма, тем более значима ассоциация.

Верхняя таблица на вкладке Ассоциативные правила содержит найденные ассоциативные отношения. Для каждого отношения указан номер, антецедент (товар, который должен присутствовать в транзакции, чтобы отношение было выявлено), консеквент (прогнозируемый сопутствующий товар, если имеется условие), поддержка, достоверность и улучшение. Нажав на правило, вы можете выполнить детализацию тренировочных данных. В таблице снизу отображаются найденные записи, подобно тому, как детализируются корзины на предыдущей вкладке.

Обратите внимание, что верхняя таблица на данной вкладке может оказаться пустой, если узел не найдет ассоциативных правил в таблице. Вполне возможно, что будут выявлены корзины, но не будут найдены отношения. Также узел может не найти ни корзин, ни ассоциативных правил из-за того, что заданные при настройке пороговые значения поддержки, достоверности и улучшения слишком высоки. В таком случае вы можете изменить пороговые значения и выполнить узел снова. Еще одна причина, по которой вы можете получить нулевой результат, — слишком малое количество наблюдений в исходных данных. В таком случае данных просто недостаточно, чтобы делать сколько-нибудь значимые выводы об ассоциативных правилах.

basketanalysis report3.rus

Каждое правило имеет следующие характеристики:

  • Правило # — уникальный идентификационный номер каждого отношения. Он не имеет никакого логического значения, кроме того, что однозначно идентифицирует каждую строку таблицы.

  • Если…​ — антецедент или условие отношения. Оно очень похоже на условие WHERE на языке SQL или условие, указанное для узла Фильтрация строк или ячейки многомерной матрицы. Это булево выражение, которое выявляет наличие или отсутствие товаров, например: IF("01K") проверяет, присутствует товар 01K в данных или нет. Иначе говоря, истинна ли колонка "01K" для данной колонки. Если да, то товар …​ то, возможно, тоже присутствует.

  • …​ то — консеквент или прогнозируемый сопутствующий товар.

  • Поддержка, (%) — количество случаев (в процентах), когда данная ассоциация товаров встречается во входных данных (количество раз, когда она истинна по отношению к общему числу записей). В таблице отражаются только те отношения, поддержка которых превышает минимальную поддержку, заданную на этапе настройки узла.

  • Достоверность — результат уравнения достоверности. Как говорилось ранее, достоверность ассоциации есть отношение поддержки комбинации к поддержке условия. Иначе говоря, это отношение колонки Поддержка к поддержке колонки Если…​. В таблице отражаются только те отношения, достоверность которых превышает минимальную достоверность, заданную на этапе настройки узла

  • Улучшение — результат уравнения улучшения для каждого отношения. Как говорилось ранее, это есть Поддержка (Условие + Результат) / Поддержка(Условие)*Поддержка(Результат). Это средство определения вероятности отношения по сравнению со случайным выбором. Значения больше 1 более вероятны, значения меньше 1 менее вероятны.