Узел Выборка
dataset sampled big

Узел Выборка создает подмассив данных согласно заданному методу. Существует три основных метода создания выборки: случайная выборка, первая из каждых N записей и выборочное подмножество.

Выборка очень полезна при работе с крупными данными. С помощью выборки можно создать меньший массив данных и использовать его в качестве исходного массива для одного из исследовательских узлов PolyAnalyst. Анализ в таком случае будет выполнен быстрее.

Одним из небольших недостатков узла Выборка является то, что в связи со случайностью метода выборки невозможно создать дополнительный массив данных, который бы включал все записи из исходной таблицы, которые не попали в выборку. Это происходит потому, что узел Выборка не задает условие, которому соответствуют записи, попавшие в выборку, следовательно, невозможно задать условие для того, чтобы определить, какие записи в нее не вошли. Этот недостаток может быть критичным, если вы хотите провести исследование (используя, например, такой алгоритм, как регрессионная модель) на выборке, а затем проверить эту модель на записях, которые не вошли в выборку. В таком случае рекомендуется использовать узел Разбиение.

Узел Выборка позволяет получить подмассив данных, который исследовательский алгоритм использует на входе. Чем меньше входных записей, тем меньше времени понадобится на выполнение алгоритма. Кроме того, во время эксперимента удобнее запускать модель на выборке, а не на полной таблице данных. Узел Выборка также полезен тогда, когда для статистического анализа необходима случайная выборка данных.

Соединения на скрипте

Узел Выборка требует наличия соединения на входе с одним узлом, который представляет массив данных, например, узел-источник данных, операция с колонками или строками. Выходными данными узла Выборка является таблица данных, которая может использоваться любым количеством последующих узлов. Данный узел обычно располагается после узла-источника данных и предшествует какому-либо аналитическому узлу.