Настройка узла Ближайшие соседи
Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.

Диалоговое окно свойств узла Ближайшие соседи состоит из трех вкладок. На первой вкладке Выбор колонок нужно выбрать зависимую и независимые переменные. Зависимой переменной может быть колонка с любым типом данных, кроме текстовых.

casebasedtab1.rus

Узел БС использует генетический алгоритм – эвристический алгоритм поиска, используемый для решения задач оптимизации и моделирования путем случайного подбора, комбинирования и вариации искомых параметров с использованием механизмов, аналогичных естественному отбору в природе. Он является разновидностью эволюционных вычислений, с помощью которых решаются оптимизационные задачи с использованием методов естественной эволюции, таких как наследование, мутации, отбор и кроссинговер. Отличительной особенностью генетического алгоритма является акцент на использование оператора «скрещивания», который производит операцию рекомбинации решений-кандидатов, роль которой аналогична роли скрещивания в живой природе.

Параметры работы генетического алгоритма узла БС можно задать на вкладке Настройки:

casebasedtab2.rus

Размер популяции – целое число, которое указывает максимальное количество параметров, которые должны войти в начальную популяцию.

Алгоритм в случайном порядке отбирает некоторое количество этих факторов и итеративно проводит оптимизацию и селекцию исходных параметров для того, чтобы определить, какие из них наиболее близки к целевой переменной. На каждом этапе эволюции (или в каждом новом поколении параметров) генетический алгоритм отбирает наиболее приспособленных особей, которые способны обеспечить более высокую точность прогноза.

Например, при попытке спрогнозировать покупательское поведение и определить, купит ли некий покупатель определенный товар, с помощью такого генетического алгоритма можно рассмотреть множество известных параметров этого человека (рост, вес, возраст, образование, место жительства, образование, уровень дохода и др.), и путем селекции определить, что наиболее влиятельными факторами окажутся его возраст, доход и образование).

Опция Максимальное количество нерезультативных поколений позволяет указать число поколений индивидов без какого-либо прогресса в селекции, по достижении которого генетический алгоритм завершит свою работу, подобрав оптимальные факторы для прогноза целевой переменной, т.е. те факторы, которые составляют близость.

В поле Элитизм можно указать то количество лучших факторов (в процентном отношении), которые будут попадать в новое поколение индивидов без дополнительных селекционных изменений.

Генетический алгоритм учитывает возможность мутации генов. В поле Вероятность индивидуальной мутации пользователи могут указать вероятность мутации генов индивида. Значение, используемое по умолчанию (1/2) говорит о том, в среднем, половина индивидов каждого нового поколения будет иметь мутации.

Опция Создавать колонку с комментарием позволяет при необходимости генерировать дополнительную модель, в которой будет отображено текстовое объяснение причин, по которым алгоритм принял решение.

Возвращаясь к примеру с попыткой определить, приобретет ли покупатель некий товар, при включении опции Создавать колонку с комментарием узел БС фактически создаст две модели. Первая ответит на вопрос – купит/не купит? Или, возможно, в каком количестве? Тип ответа зависит от типа целевой переменной. Вторая модель перечислит факторы, которые привели к такому решению. Обе модели будут представлены в виде отдельных колонок в выходных данных узла Применение моделей, следующего за узлом БС.

Вкладка Общие была описана ранее.