Производительность и масштабирование

Во время выполнения узла PolyAnalyst создает новую таблицу данных на основе исходной. Затем он последовательно проверяет каждую запись в выходной таблице на соответствие ключу. Если запись соответствует ключу, она сохраняется в выходной таблице как первый случай использования уникального ключа. Если ключ найден в одной или нескольких последующих записях, они считаются дубликатами ранее сохраненной записи. К концу выполнения задачи процесс обработки записей может замедлиться, поскольку количество записей, подлежащих сравнению, постепенно увеличивается. PolyAnalyst принимает решение о том, нужно ли ему перезаписать уже существующую выходную запись, или найденный дубликат, согласно текущим настройкам узла. Когда запись соответствует ключу, PolyAnalyst обновляет показания счетчика повторяющихся записей в случае, если включена опция Добавить колонку с количеством строк.

Это – детерминированный процесс, так как количество исходных строк известно, и индикатор выполнения задачи появится в списке задач во время выполнения узла.

После того, как будут обработаны все записи, процесс будет завершен.

Производительность узла зависит, прежде всего, от количества времени, которое необходимо для сравнения ключа одной записи с ключом другой записи. Чем больше ключ (то есть, чем больше колонок в ключе), тем больше требуется времени для сравнения. На сравнение некоторых типов данных уходит больше времени. Непрерывные значения сравниваются достаточно быстро, значения типа Дата занимают больше времени, на сравнение строковых значений требуется больше всего времени.

В связи с тем, что количество записей, подлежащих сравнению, постепенно увеличивается, количество времени, необходимое для проверки наличия ключа в выходной таблице также увеличивается, поскольку вероятность присутствия большего количества уникальных ключей повышается. Производительность узла Уникальные записи находится в линейной зависимости от количества записей. Количество колонок, не являющихся частью ключа, незначительно влияет на скорость работы узла.

Окно просмотра результатов узла Уникальные записи содержит три стандартные вкладки: Данные, Статистика и Уникальные записи.

Для получения дополнительной информации о возможностях просмотра данных см. раздел Просмотр данных.