Узел Смещенная выборка
dataset biased big

Узел Смещенная выборка позволяет создавать выборку данных на основе исходной таблицы. В отличие от случайной выборки, когда записи исходной таблицы данных выбираются в случайном порядке и сохраняются в выходной таблице, смещенная выборка создается на основе одного или нескольких условий, которые позволяют получить нужное распределение значений разных колонок.

Например, вы анализируете результаты опроса общественного мнения, и вам необходимо, чтобы в выборке данных 50% респондентов были мужчинами. Это можно сделать, указав условие для колонки Пол с помощью узла Смещенная выборка.

Смещенная и случайная выборки

Как правило, случайная выборка предпочтительнее смещенной. В частности, случайная выборка выдает более обобщенную модель, поскольку она создается на основе неискаженных (более объективных) данных. Управляемый данными анализ, выполненный при минимальном участии человека, дает более ценные и полезные результаты. Это связано с тем, что довольно часто интуиция нас подводит.

Несмотря на это, нужно помнить, что данные, которые вы собрали и подготовили для анализа, могут не вполне точно отражать реальное положение вещей. Например, если вы наблюдаете за какими-либо событиями на протяжении какого-то промежутка времени, совершенно случайно вы можете собрать данные о каком-либо временном положении дел, когда наблюдаемые события происходили с чрезвычайной частотой (например, вы наблюдаете за тем, как часто люди запрашивают стоимость акций через день после крупного обвала рынка ценных бумаг). Сбой может произойти и в измерениях (например, программа регистрации посетителей вашего сайта из-за ошибки дважды засчитала каждого посетителя) или в частоте наблюдений (например, вы хотели собрать данные о движении частиц, и в результате собрали слишком много данных). Либо, в случае опроса общественного мнения, возможно, вы просто опросили не тех, кого нужно, или какую-то ограниченную группу людей. В такой ситуации случайная выборка лишь усугубит искажение данных, возникшее изначально в ходе неправильной организации опроса. Это заставляет сомневаться в репрезентативности вашей модели. Однако, вы можете откорректировать неравномерное распределение данных, используя смещенную выборку, создав выборку, которая, на ваш взгляд, больше соответствует реальности.

Другими словами, выборка данных создается не только по причинам, связанным с масштабами (например, слишком большое количество данных), но и потому, что вы сможете задать дополнительные условия, поскольку считаете, что полученная в результате модель будет полезнее, чем та, которую вы получили бы на основе оригинальных данных или случайно выбранных данных без дополнительных условий. По сути вы предполагаете, что ваши данные неточны. Тщательно продуманная смещенная выборка повышает шанс создания максимально точной модели, которая не будет искажена из-за ошибок, допущенных в ходе сбора данных.

Помните, что при создании смещенной выборки вы умышленно искажаете данные в ходе аналитического проекта. Смещение может иметь как хорошие, так и плохие последствия. Неравномерное распределение точек данных иногда отражает реальное положение дел. Создавая смещенную выборку, вы рискуете получить далекую от реальности модель.

Изменение неудовлетворительных условий

Если вы сочтете результаты узла неудовлетворительными, вы можете использовать любое количество узлов для создания смещенной выборки последовательно друг за другом.

Соединения на скрипте

Узел Смещенная выборка имеет одно входное соединение с любым узлом, который производит таблицу данных, например, источник данных, операции со строками, колонками или таблицами. Выходными данными узла Смещенная выборка является новая таблица данных. Данный узел может иметь любое количество выходных соединений с другими узлами, которые принимают на входе таблицу данных.