Использование узла Производная таблица с узлами кластеризации

Узел Производная таблица может быть использован для представления отчета узлов кластеризации в виде таблицы данных. Результирующий набор данных будет включать две обязательные колонки – Report section (Раздел отчета) и Target column (Целевая колонка), а также несколько дополнительных колонок в зависимости от выбранного источника.

После того как узел Производная таблица будет добавлен на скрипт и соединен с соответствующим родительским узлом, откройте окно настроек для управления доступными опциями.

На вкладке Настройки используйте выпадающее меню для выбора раздела отчета родительского узла, на основании которого будет составлена результирующая таблица данных.

Общими для узлов кластеризации являются следующие разделы отчета:

  • Все разделы отчета – в качестве источника будут использованы оба раздела (Значимость независимых переменных и Настройки). Соответствующее количество дополнительных колонок будет добавлено в таблицу данных.

  • Настройки – в качестве источника будет использован только раздел Настройки. При этом в таблицу данных будет добавлено три дополнительных колонки:

    • Name – содержит имя параметра;

    • Value (num) – содержит значения числового типа;

    • Value (str) – содержит значения строкового типа.

Для узла Кластеризация на основе расстояний помимо вышеуказанных доступен еще один раздел:

Для узла Максимизация ожидания доступен дополнительный раздел:

  • Кластеризация – в качестве источника будет использован только раздел Кластеризация. При этом в таблицу данных будет добавлено две дополнительных колонки:

    • Cluster – содержит наименование кластера;

    • Cluster size – содержит размер кластера.

Для узла Кластеризация по методу k-средних доступны несколько дополнительных разделов:

  • Центры кластеров - в качестве источника будет использован только раздел Центры кластеров. При этом в таблицу данных будет добавлено минимум шесть дополнительных колонок:

    • Columns – содержит наименование колонок;

    • Columns values – содержит значения колонок;

    • Mean 1 – отражает среднее значение переменной, которая относится к первому кластеру;

    • Standard deviation 1 – показывает стандартное отклонение, относящееся к первому кластеру.

    • Mean 2 – отражает среднее значение переменной, которая относится ко второму кластеру;

    • Standard deviation 2 – показывает стандартное отклонение, относящееся ко второму кластеру.

  • Близость кластеров – в качестве источника будет использован только раздел Близость кластеров. При этом в таблицу данных будет добавлено минимум четыре дополнительных колонки:

    • Proximities – содержит номер кластера;

    • Clusters size – содержит размер кластера;

    • Cluster 1, Cluster 2 и т. д. – показывает значение расстояния между двумя кластерами.

  • Качество кластеризации по методу k-средних – в качестве источника будет использован только раздел Качество кластеризации по методу k-средних. При этом в таблицу данных будет добавлено шесть дополнительных колонок, содержащих информацию о критериях качества кластеризации:

    • Average intracluster distance – Внутрикластерное расстояние;

    • Average cluster-center distance – Среднее расстояние от кластера до центра выборки;

    • Average object-center distance – Среднее расстояние от объекта до центра;

    • General distance ratio – Общее отношение расстояний;

    • Minimum intercluster distance ratio – Минимальное межкластерное отношение расстояний;

    • Number of clusters – Количество кластеров.

  • Переменные веса – в качестве источника будет использован только раздел Переменные веса. При этом в таблицу данных будет добавлено минимум семь дополнительных колонок:

    • Columns – содержит наименование колонок;

    • Columns values – содержит значения колонок;

    • Magnitude 1, Magnitude 2 – содержит значение, определяющее вес переменной в формировании внутрикластерной дисперсии кластера.

    • Distinction 1, Distinction 2 – содержит значение, которое определяет расстояние от центральной точки кластера до точки, представляющей центр тяжести всех рассматриваемых значений.

    • Columns weights – содержит значение веса колонок.

Для узла Сеть Кохонена доступны такие дополнительные разделы как:

  • Карта – в качестве источника будет использован только раздел Карта. Дополнительные колонки в таблицу данных не добавляются.

  • Значимость независимых переменных – в качестве источника будет использован только раздел Значимость независимых переменных. При этом в таблицу данных будет добавлено две дополнительных колонки:

    • Feature – содержит значение независимой переменной;

    • Significance – показывает значимость независимой переменной.

  • Ошибка обучения – в качестве источника будет использован только раздел Ошибка обучения. При этом в таблицу данных будет добавлено две дополнительных колонки:

    • Epoch number – содержит номера эпохи обучения;

    • Error value – содержит значения ошибки карты.

Если узел Производная таблица был добавлен на скрипт в более ранних версиях PolyAnalyst, в выпадающем меню Раздел отчета также будет доступен вариант Режим совместимости. При выборе данного режима узел Производная таблица представит результаты в старом формате. Однако если пользователь выберет другую опцию и выполнит узел, элемент Режим совместимости будет безвозвратно исключен из списка.