Узел Уникальные записи
dataset distinct big

Узел Уникальные записи генерирует таблицу данных с уникальными записями на основе входной таблицы. Запись признается уникальной на основе ее сравнения с другими записями по ключу. Ключ состоит из одной или нескольких выбранных вами колонок из входной таблицы. Вместо того, чтобы сравнивать значение каждой колонки записи со значениями каждой колонки другой записи, сравнению подвергается только выбранное подмножество значений отдельных колонок. Если использовать несколько колонок для ключа, его называют составным ключом.

Например, если вы анализируете таблицу с результатами переписи населения, можно в качестве ключа для сравнения указать колонку с номерами страховых полисов. Если два человека имеют один и тот же номер страхового полиса, несмотря на прочие отличающиеся характеристики, это значит, что в исходной таблице присутствует повторяющаяся запись. Узел Уникальные записи в таком случае позволяет создать такую таблицу данных, в которой будут присутствовать данные одного человека вместо двух.

Узел Уникальные записи используется на этапе предварительной обработки потенциально «засоренных» данных,т.е. когда качество исходных данных вызывает у вас сомнения. Данный узел позволяет получить таблицу с уникальными записями на выходе, которая будет соответствовать заданному ключу.

Обычно узел Уникальные записи используется для предварительной обработки справочной таблицы с целью ее последующего объединения с транзакционной таблицей. Во время выполнения узла Объединение PolyAnalyst выдаст сообщение об ошибке, если две или более записей в справочной таблице будут содержать один и тот же ключ объединения. Используйте узел Уникальные записи для того, чтобы гарантировать уникальность записей во входной таблице и избежать подобную ошибку во время объединения данных.

В палитре узлов узел Уникальные записи находится в категории Операции со строками.

Соединения на скрипте

Узел Уникальные записи принимает на входе таблицу данных. В связи с этим он может быть соединен с любым предшествующим узлом, который производит таблицу данных, например, источник данных или операция со строками или колонками.

На выходе узел также производит таблицу данных. Поэтому он может иметь любое количество последующих узлов, принимающих на входе таблицу данных.

Использование вкладки Уникальные записи или узла Уникальные записи

Вкладка Уникальные записи в сетке данных не связана с функционалом узла Уникальные записи. Сетка данных – стандартный компонент многих окон PolyAnalyst, используемый для просмотра таблиц. Вкладка Уникальные записи в ней отображает уникальные значения колонок. Если вам нужно только быстро просмотреть уникальные значения, используйте вкладку Уникальные записи.

Если вы работаете с большим количеством данных, вкладка Уникальные записи может работать слишком медленно. У пользователей может возникнуть ощущение, что PolyAnalyst завис; на самом деле в это время выполняется фоновая загрузка данных в окно просмотра. В таком случае рекомендуется использовать узел Уникальные записи, поскольку он предназначен для работы с миллионами записей.

Использование вкладки Уникальные записи или узла Агрегирование

Если вам нужно определить среднее всех значений, содержащих один и тот же ключ, используйте узел Агрегирование.

Как сравниваются значения

Узел Уникальные записи имеет некоторые ограничения. Указывая колонки, которые должны использоваться в качестве ключа, вы указываете колонки для сравнения записей. Для каждой колонки в ключе выполняется точное сравнение всех значений. Если колонка содержит числовые или целочисленные данные, значения должны быть идентичными. Если это колонка со строковыми данными, оба значения также должны быть одинаковыми, включая регистр, пробелы и так далее.

Текстовые колонки не могут использоваться для сравнения. На практике используется несколько специальных инструментов для сравнения записей, которые допускают некоторую «нечеткость», вероятность ошибки при сравнении двух или более записей. Если в вашем анализе эта «нечеткость» допустима, узел Уникальные записи можно использовать для удаления повторяющихся данных.