Результаты узла Фильтрация данных
Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.

Узел Фильтрация данных производит два отчета. Первый — выходная таблица данных, содержащая все колонки исходной таблицы за исключением колонок, удаленных узлом Фильтрация данных. Эту таблицу используют последующие узлы в цепи в качестве исходных данных. Второй выход узла — собственно отчет, показывающий результаты работы узла, например, список колонок, которые были удалены.

Первая вкладка отчета, Проверка однородности отображает основную информацию о каждой выбранной исходной колонке (количество пустых, константных и уникальных строк в процентах).

unary check.rus

Вторая вкладка, Проверка совпадений категориальных колонок, отображает таблицу совпадения колонок, хранящих категориальные (то есть строковые и булевые) признаки.

categorical coincidence check.rus

В каждой ячейке в процентах указывается степень совпадения колонок. Совпадение колонок проверяется с точностью до переименования. К примеру, колонки (a, a, b) и (c, c, d) будут признаны на 100% совпадающими. Номер группы отображается только в том случае, когда колонки формируют группу – ряд атрибутов, в котором каждый элемент совпадает с первым в этом ряду с точностью большей или равной указанной пользователем в настройках. В отдельной колонке таблицы указывается решение, принятое алгоритмом по каждому атрибуту: сохранена ли колонка в выходной таблице.

Третья вкладка, Проверка совпадения числовых колонок, отображает таблицу совпадения колонок, хранящих числовые (то есть целые и с плавающей точкой, а также «время и дата») признаки.

numerical coincidence check.rus

По содержанию данная вкладка аналогична предыдущей. Совпадение числовых признаков проверяется по их среднеквадратичному отклонению после центрирования и нормировки.

Четвертая вкладка, Все отфильтрованные колонки, отображает список всех колонок, которые алгоритм исключил из выходной таблицы, с указанием причины и превышенного порога.

all filtered cols.rus

Пятая вкладка, Настройки, отображает основную информацию о времени выполнения узла, а также о текущей настройке узла.

Во всех таблицах отчета, кроме таблицы на вкладке Все отфильтрованные колонки, используется подсветка чисел красным цветом. Она означает, что заданный порог неинформативности для данной колонки превышен. Такая колонка будет отфильтрована.

Некоторые ячейки таблиц отчета могут быть подсвечены серым цветом. Это означает, что информация в ячейке не имеет смысла в данном контексте. К примеру, не имеет смысла значение уникальности для числовых колонок на вкладке Проверка однородности, или номер группы для колонки, для которой не найдена ни одна парная колонка. Серым подсвечиваются и те ячейки, в которых значение неинформативности колонки не было посчитано.

Алгоритмы проверки на неинформативность выполняются друг за другом в следующем порядке: проверка на пустоту, проверка на постоянность, проверка на большое количество уникальных значений (уникальность), затем поиск совпадающих колонок. Если колонка отфильтрована каким-либо алгоритмом, она уже не проверяется следующими алгоритмами в цепочке.

Показатель неинформативности для конкретной колонки и алгоритма не вычисляется, если:

  • колонка или алгоритм не были выбраны в настройках пользователем,

  • колонка была отфильтрована предыдущим алгоритмом в цепочке, или

  • тип проверки данного алгоритма не имеет смысла для типа данных колонки.

Проверяются только те колонки, которые были выбраны пользователем на вкладке Выбор колонок. Из них на пустоту и постоянность проверяются колонки всех типов, кроме Text и String ID, на уникальность только колонки типов String и Integer ID, на категориальное совпадение только колонки типов String, Integer ID и Boolean, на числовое совпадение только колонки типов Numerical, Integer и Date/Time.

Для достаточно больших размеров колонок проверка будет выполняться не по всей колонке, а по некоторой случайной выборке ее значений. Максимальный размер выборки для проекта можно указать в настройках узла Фильтрация данных, используемых по умолчанию (Настройки > Настройки программы > Настройки проекта > Настройки узлов по умолчанию > Фильтрация данных). Если размер колонки меньше максимального размера выборки, проверка осуществляется по всей колонке. Также в разделе Настройки узлов по умолчанию можно указать лимит доступной узлу памяти.