Просмотр уникальных значений колонки

Существует несколько способов просмотра уникальных записей в колонке в PolyAnalyst. Одним из простейших способов является использование вкладки Уникальные записи, которая имеется в окне просмотра выходных данных в большинстве узлов в PolyAnalyst. Вкладка Уникальные записи отображает список всех колонок в таблице данных слева. Вкладка выглядит следующим образом:

distinct2.rus

Для просмотра уникальных значений колонки выберите колонку из списка колонок слева. Правая сторона вкладки Уникальные записи обновляется и отображает уникальные значения. Определяется количество повторов каждого уникального значения в таблице данных.

Текстовые колонки не отображаются в списке колонок на вкладке Уникальные записи

Для того, чтобы создать список уникальных записей колонки, PolyAnalyst выполняет много операций по сравнению записей. Текстовые колонки не отображаются на вкладке Уникальные записи, поскольку сравнение большого объема неструктурированного текста на предмет наличия уникальных записей – очень непростая операция, в основном, по двум причинам:

  • Сравнение двух фрагментов текста происходит гораздо медленнее, чем сравнение двух чисел или дат. Это немасштабируемая операция.

  • Логику сравнения двух крупных фрагментов текста очень сложно четко сформулировать. Например, при сравнении двух чисел сразу становится очевидно, что их значения идентичны. То же самое происходит с датами. В случае с двумя текстами сказать с уверенностью, что они идентичны, нельзя. Например, необходимо ли при сравнении учитывать то, что один из документов полностью состоит из букв верхнего регистра? Что если в одном из документов есть одна лишняя строка, или один лишний пробел? По-прежнему ли эти два текста будут идентичны?

Если вам нужно сравнить текстовые значения, попробуйте использовать узел Производные колонки для того, чтобы отделить некоторое количество знаков (например, первые 200 символов) текстового значения в новую строковую колонку. PolyAnalyst сможет сравнить строковые значения друг с другом. Также можно использовать узел Уникальные тексты.

Сортировка списка колонок

Вы можете отсортировать список колонок по типу данных или по названию. Чтобы отсортировать список, нажмите на заголовок колонки Имя правой кнопкой мыши и в контекстном меню выберите желаемую опцию сортировки (например, Сортировать по возрастанию/по убыванию).

По умолчанию список сортируется в естественном порядке, в котором колонки хранятся в таблице данных. Вы можете вернуться к этому исходному порядку (после выбора другой опции сортировки), выбрав соответствующую опцию в контекстном меню заголовка колонки Имя.

Просмотр количества уникальных значений

Общее число уникальных значений колонки отображается на панели навигации списка справа (обычно снизу, если он виден). Если панель навигации не видна, нажмите кнопку Показать панель навигации на панели инструментов в верхней части окна.

Вы также можете просмотреть количество уникальных значений колонки в выходных данных на вкладке Статистика (свойство NDistinct – Число уникальных записей), что иногда проще и быстрее, чем использовать вкладку Уникальные записи. И наоборот, вкладку Уникальные записи использовать проще тогда, когда нужно посмотреть точное количество уникальных значений.

Поиск уникальных значений

Выполнить поиск по списку уникальных значений можно так же, как вы ищете значения колонки в окне просмотра данных. Для получения подробной информации см. раздел по поиску значений в окне просмотра данных.

Экспорт уникальных значений в файл

Вы можете экспортировать список уникальных значений колонки в файл так же, как вы экспортируете таблицу данных. Для получения подробной информации см. раздел по экспорту данных.

Информация о производительности

Когда вы хотите просмотреть уникальные значения, PolyAnalyst рассчитывает число уникальных значений для каждой колонки в массиве данных. Эта операция выполняется в каждой колонке друг за другом (в естественном порядке колонок) и иногда может занимать несколько секунд, минут и даже часов, если обрабатывается большое количество колонок. В ходе выполнения вычислений на экране отображается индикатор выполнения задачи.

Когда вы нажимаете на колонку, чтобы посмотреть уникальные значения, выполняется похожая операция, в ходе которой PolyAnalyst выявляет уникальные значения в колонке и количество повторов каждого из них. При этом на экране отображается индикатор выполнения задачи. Данная операция может занять много времени, особенно при обработке очень большой таблицы данных (например, из нескольких миллионов записей).

При работе с крупными таблицами попробуйте использовать узел Уникальные записи в качестве альтернативы вкладке Уникальные записи. Узел более эффективен и способен лучше выполнять масштабирование при работе с очень крупными таблицами данных – он предназначен именно для этой цели.

Создание таблицы уникальных значений с помощью узла Агрегирование

Вы можете воссоздать массив данных, схожий с выходными значениями вкладки Уникальные записи, используя узел Агрегирование (не путать с агрегированными значениями). На палитре узлов узел Агрегирование расположен в разделе Операции с таблицами.

  1. Добавьте новый узел Агрегирование на скрипт.

  2. Соедините его с узлом, который произвел данные, которые вы просматриваете.

  3. Настройте узел Агрегирование так, чтобы он использовал желаемую колонку как ключ агрегирования.

  4. Отметьте опцию Добавить колонку с количеством строк в окне настроек узла Агрегирование.

  5. Нажмите Выполнить.

  6. Откройте окно просмотра узла Агрегирование.