Анонимайзер
anonymiser big

Узел анонимизации, или Анонимайзер (AN), позволяет изменять значения строковых колонок с целью обезличения данных и сохранения их секретности. В палитре узлов Анонимайзер расположен в разделе Операции с колонками.

Когда использовать Анонимайзер

Предположим, вы работаете с массивом данных, в котором каждая запись представляет человека; у вас есть колонка, в которой хранятся имена людей. Ваша задача – создать отчет или график, который показывает некоторые скрытые тенденции в данных, но вы не хотите раскрывать персональные данные и вместо имен планируете использовать некоторые значения, которые кажутся случайными, но при этом однозначно соотносятся с конкретными именами. Вы можете использовать Анонимайзер для создания новой таблицы, содержащей дополнительную колонку со строковыми данными, в которой будут храниться соответствующие "уникальные" значения для каждого имени, а затем создать отчет на основе этой новой таблицы данных, предварительно удалив из нее исходную колонку с именами. Это позволит вам анонимизировать, или обезличить персональные данные.

Анонимные значения, сгенерированные данным узлом, представляют собой псевдослучайные числа. Для каждого уникального значения исходной колонки генерируется уникальное выходное значение.

Например, исходное имя "Josh" может соответствовать выходному значению 0123435. Ни одно другое исходное значение не будет преобразовано в то же самое выходное значение.

Примечательно то, что ни одно исходное значение никогда не будет иметь никакой очевидной связи с выходным значением (для сохранения анонимности). Другими словами, если исходное значение – "Josh", то выходным значением никогда не будет "Josh", т.к. это противоречило бы назначению узла.

Ниже представлен простой пример того, как может выглядеть таблица выходных данных (то есть, выходные данные узла Применение моделей, который использует модель, созданную узлом Анонимайзер): 

Исходная колонка

Исходная колонка_АНОНИМ

Джош

013241324

Элвин

813458747

Джош

013241324

Кейси

987234592

Дополнительная информация
  • Каждое выходное числовое значение уникально.

  • Имя "Джош" в таблице встречается дважды, поэтому выходное значение в анонимизированной колонке повторятся. Узел создает новое выходное значение не для каждой записи, а лишь для каждого уникального исходного значения. Если исходное значение повторяется, узел использует ранее созданное для него выходное значение.

  • Два уникальных исходных значения не могут соответствовать одному выходному значению.

  • Узел работает с любыми строковыми колонками. Если у вас есть колонка с числовыми данными, например, колонка с 9-значными номерами страхового свидетельства, и вы импортировали эту колонку как числовую, вы можете использовать такие узлы, как Модификация колонок или Производные колонки, чтобы сначала преобразовать эту колонку в строковую, а затем использовать эту новую колонку на входе для узла анонимизации данных.

  • Узел также работает с колонками с целыми числами и целочисленными идентификаторами.

Соединения на скрипте

Анонимайзер в качестве входных данных принимает таблицу данных. Следовательно, к узлу анонимизации можно подключить любой узел, который создает таблицу данных на выходе.

Узел анонимизации не создает таблицы данных. Правильнее будет сказать, что данный узел генерирует модель. Эта модель недоступна для просмотра. Она представляет собой набор правил, похожих на следующее: "Если в таблице встречается значение X, оно должно быть заменено значением Y".

Поскольку выходные данные узла представляют собой модель, целесообразно использовать Анонимайзер совместно с узлом Применение моделей. Вы можете применить модель к тем же данным, что были использованы при создании модели, либо к таблице с новыми данными.

Соединение на скрипте при этом будет выглядеть так, как показано на рисунке ниже. Узел Применение моделей на входе принимает модель и таблицу данных. Его выходными данными является таблица данных, содержащая "анонимизированные" данные. Выходная таблица фактически представляет собой исходную таблицу, к которой узел добавляет новую колонку, содержащую анонимные значения.

anonymize score flowchart example.rus

Вы можете соединить выходную таблицу узла Применение моделей с узлом Фильтрация колонок и удалить исходные колонки с персональными данными. Узел Фильтрация колонок в таком случае создаст таблицу данных, которая не будет содержать информацию, которую вы намерены скрыть. Эта таблица может быть использована в ходе дальнейшего анализа.