Производительность узла Ближайшие соседи
Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.

Максимально допустимое количество независимых переменных – 1000.

В процессе выполнения узел Ближайшие соседи обрабатывает исходную таблицу данных. PolyAnalyst оценивает количество записей, к которым нужно многократно обращаться. Этот процесс будет отображен в списке задач. Иногда это количество может быть определено неверно. Алгоритм завершает работу после создания удовлетворительной (с точки зрения точности и наличия ошибок) модели классификации или прогноза и ее сохранения, или же останавливается из-за неспособности создать валидную модель (причиной тому может быть недостаток данных, спорные данные, некорректная настройка, перегруженная память/диск).

Узел создает модель из тренировочных данных (полученных на входе от другого узла). Иногда эту модель также называют правилом. Для выведения этого правила алгоритм выискивает ближайших соседей записи, используя функцию расстояния. Он выделяет несколько подгрупп записей, которые "близки" друг к другу. Затем высчитывается среднее значение зависимого атрибута в пределах подгруппы записей, которое используется как прогнозируемая величина зависимого атрибута для всех записей данной подгруппы. Это может быть среднее арифметическое или взвешенное среднее.

Расстояние определяется как корень квадратный из суммы квадрата разностей нормализованных независимых переменных. Алгоритм также определяет независимые переменные, которые не участвуют в функции расстояния или даже отрицательно влияют на ее точность. Задача алгоритма – выявить идеальный набор независимых атрибутов для определения расстояния, идеальное количество близких записей одной группы, а также способ вычисления среднего значения для целевого атрибута (взвешенное среднее или среднее арифметическое).

Алгоритм не предназначен для исследования больших таблиц данных (более 100000 записей). Это один из самых медленно действующих алгоритмов в системе PolyAnalyst. Узел БС будет иметь нормальную производительность при работе с ограниченным количеством независимых атрибутов (макс. – около 1000). Максимальное количество атрибутов – 300. Минимальное количество записей – около 100, максимальное – 100000, оптимальное – от 2000 до 50000.

Время применения модели узла Ближайшие соседи определяется как произведение N*M, где N – количество записей в обучающей таблице, а M – количество записей в таблице, к которой применяется модель.