Узел Обогащение данных
dataset dataenrichment big
Общая информация

Прежде чем приступать к работе с узлом Обогащение данных в системе PolyAnalyst, необходимо иметь общее представление об этом процессе.

Часто возникают ситуации, особенно при решении нестандартных аналитических задач, когда для анализа требуется информация, которой почему-то не оказалось в наличии. Это может произойти из-за непродуманного процесса сбора данных. Порой базы данных оказываются забиты чем угодно, только не данными, имеющими прямое отношение к основным бизнес-процессам на предприятии. Например, в регистрирующую систему заносят номер автомобиля, на котором вывозят товар, ФИО водителя и т.д. А непосредственное отношение к бизнес-процессу имеют только наименование товара, его количество и цена за единицу. Очевидно, что большая часть информации, содержащейся в базе данных, может заинтересовать разве что начальника охраны, но никак не аналитика по продажам. Складывается ситуация, когда в огромном массиве данных имеется только небольшое их подмножество, реально описывающее исследуемый процесс. Когда же наконец приходит время анализировать данные, выясняется, что анализировать, в общем-то, и нечего. В такой ситуации и возникает необходимость обогащения данных.

Обогащение данных – процесс насыщения данных новой информацией, которая позволяет сделать их более ценными и значимыми с точки зрения решения той или иной аналитической задачи. Это значит, что на основе их анализа можно будет принимать управленческие решения, которые позволят оптимизировать товарные потоки, работу с клиентами, политику скидок, гарантий и т.д.

Традиционно выделяют два основных метода обогащения данных – внешнее и внутреннее. Внешнее обогащение предполагает привлечение дополнительной информации из внешних источников. Внешним источником информации для обогащения данных могут быть любые организации, которые в процессе своей деятельности собирают, структурируют и хранят информацию, необходимую им для осуществления своих целей. Внутреннее обогащение обычно связано с получением и включением в набор данных полезной информации, которая отсутствует в явном виде, но может быть тем или иным способом получена с помощью манипуляций с имеющимися данными. Затем эта информация встраивается в виде новых полей или даже таблиц в полученную базу данных и может быть использована для дальнейшего анализа. Для обогащения данных также может использоваться информация, полученная в процессе их анализа.

Узел Обогащение данных в системе PolyAnalyst предоставляет пользователям возможность внутреннего обогащения данных. Технически это сводится к поиску групп подобных строк и созданию новых строк, содержащих обогащенные значения, полученные на основе обнаруженных групп подобных строк.

Соединения на скрипте

Для узла Обогащение данных требуется одно входное соединение с узлом-источником данных. Выход узла – таблица данных, содержащая дополнительную, новую информацию и новые колонки, характеризующие достоверность полученной информации. Узел Обогащение данных может быть соединен на выходе с любым узлом, выполняющим дальнейший анализ (операции со строками, операции с колонками и др.).