Узел Разбиение
Общие сведения
Узел Разбиение делит исходную таблицу данных на указанное количество подмножеств и добавляет новую колонку к исходной таблице с указанием подмножества, к которому принадлежит каждая исходная запись. В палитре узлов узел Разбиение находится в разделе Операции с колонками.
Применение узла Разбиение
Цель узла Разбиение — разделить таблицу данных на подмножества. Он может быть использован вместо узлов Выборка и Фильтрация строк. Узел Разбиение определяет, к какому подмножеству относится каждая запись, на основе категориальной колонки. Пользователи могут разбить массив данных на любое количество классов, но чаще всего исходную таблицу разбивают на 2-3 подмножества записей. Записи распределяются по указанным классам в случайном порядке. Это позволяет пользователям создать случайную выборку и сохранить остальные записи исходной таблицы в виде дополнения. Такую операцию невозможно выполнить с помощью узла Выборка.
Обратите внимание на то, что при каждом последующем запуске узел Разбиение может определить одни и те же записи в разные классы. Это происходит в связи с тем, что распределение записей всегда происходит в случайном порядке. Пользователь может регулировать только количество подмножеств записей, которые создаст узел, и размер каждого подмножества относительно других.
Узел Разбиение генерирует новую колонку, которая содержит идентификаторы подмножеств, в которые попала та или иная запись. Эти подмножества записей также называются классами. Каждому классу присваивается уникальный идентификатор.
Пользователи могут использовать узел Разбиение для разделения таблицы данных на обучающий и проверочный классы данных путем создания случайной выборки. Далее пользователи могут использовать узел Фильтрация строк, с помощью SRL-выражения выделить те записи, которые попадают в отдельное подмножество, и назвать его "тренировочная таблица данных". Разбиение обычно происходит перед моделированием и после того, как данные загружены, агрегированы и подготовлены, особенно в целях создания обучающего и тренировочного подмножеств данных на основе одной исходной таблицы. Другими словами, некоторые записи целенаправленно "исключаются" из обучающего подмножества данных, которое используется для создания модели, чтобы проверить точность модели с помощью проверочного подмножества.
Соединения на скрипте
Чтобы выполнить узел Разбиение, необходимо соединение с одним предшествующим узлом, который генерирует таблицу данных, например, узел-источник данных, операции с колонками, строками или таблицами. Выходными данными узла Разбиение является таблица данных, которая может использоваться любым количеством узлов, принимающих в качестве исходных данных таблицу.