Узел Дискретизация

Узел Дискретизация предназначен для выполнения дискретизации числовой или целочисленной колонки, подобно гистограмме.

Узел Дискретизация можно рассматривать как особый вариант узла Производные колонки, который создает новую колонку, значения которой создаются с помощью алгоритма дискретизации.

Как правило, узел Дискретизация используется на той стадии исследовательского проекта, когда выполняется предварительная обработка данных, после импорта данных и до выполнения анализа.

Понятие дискретизации

Сегмент данных - другое название для категории, класса, номинального значения или дискретной переменной. Фактически узел Дискретизация выполняет достаточно рутинную операцию преобразования непрерывной переменной (например, числа) в категориальное значение. Работа узла дискретизации подразумевает выбор нижней и верхней границы каждого класса, или диапазона каждого сегмента, на которые должны подразделяться некоторые числовые значения. Пользователи могут регулировать этот процесс, указав количество создаваемых дискретных значений из одного числового. В ходе выполнения узла PolyAnalyst определит диапазон каждого дискретного значения для создания нужного количества дискретных значений, а также создаст новую колонку, в которой будет отображено дискретное значение, соответствующее числовому значению каждой записи.

Узел Дискретизация может быть полезен в ситуации, когда пользователю нужно преобразовать числовое значение в категориальное, а нужное количество дискретных значений известно заранее. Если бы не было узла дискретизации, пользователю пришлось бы использовать узел Производные колонки со сложным SRL-выражением, например: if([Input Column]>6,">6",if([Input Column]>4,"6",if([Input Column]>2,"4","2"))). При этом будет создана новая колонка, содержащая значение 2, 4, 6 или >6, в зависимости от того, в какой сегмент попало исходное значение. При работе с большим количеством сегментов это правило становится очень громоздким, в нем легко допустить ошибку и сложно правильно выбрать конечные точки для каждого класса. Узел Дискретизация самостоятельно распределяет значения по классам и выбирает их конечные точки; пользователю нужно только указать нужное количество сегментов (классов).

Традиционно узел Дискретизация используется для преобразования зависимой непрерывной переменной в дискретную категориальную переменную, которая может быть использована в качестве входных данных для алгоритмов классификации. Если в качестве зависимой переменной выбрать числовую переменную, необходимо использовать регрессионную модель; и многие алгоритмы классификации системы PolyAnalyst (или других статистических программ) не могут быть использованы для решения такой задачи. Преобразование непрерывных переменных в дискретные сопряжено с определенной потерей данных, в результате мы получаем некие обобщенные значения. Если игнорировать "небольшие" различия между непрерывными переменными, вероятность получить более значимые выводы повышается.

Например, вместо того, чтобы определять разницу температур в градусах, удобнее говорить о жаркой, теплой, холодной погоде или заморозках. У нас могут сложиться стереотипные модели поведения: "Если на улице холодно, нужно надевать куртку, а если на улице мороз, то лучше вообще не выходить из дома". Это - более абстрактное правило, чем, скажем, следующее: "Если на улице 21, 22, 23, 24 или 25 градусов, нужно надевать куртку" (но разве кто-то думает о конкретной температуре?).

Математические вычислительные алгоритмы действуют по тому же принципу. Иногда это позволяет алгоритмам выявить структуры данных и правила, при условии, что большое количество правил входит в крупный дискретный класс.

Другое преимущество узла Дискретизация - в том, что конечные точки (верхние границы класса) не всегда известны заранее. Работая с колонкой цифр от 1 до 35 436, нелегко определить верхнюю границу каждого класса, если мы, скажем, хотим разбить эти цифры на 56 категорий. Для этого потребуются некоторые вычисления вручную, что очень утомительно. Узел Дискретизация сделает это за нас, он выберет конечные точки для разделения записей на нужное количество категорий.

Соединения на скрипте

Узел Дискретизация требует наличия одного входного соединения с другим узлом, который производит таблицу данных, например, узел-источник данных.

Выходными данными узла Дискретизация является таблица данных. Поэтому узел Дискретизация можно соединить с неограниченным количеством других узлов, которые принимают таблицу данных на входе.