Импорт данных

На начальном этапе любого аналитического проекта необходимо, прежде всего, импортировать данные в систему PolyAnalyst. Импорт данных фактически представляет собой создание копии данных на сервере PolyAnalyst. Этот процесс также называют кэшированием.

Почему необходимо импортировать данные в PolyAnalyst?

Хотя технически вполне можно разработать программное обеспечение, позволяющее анализировать данные "на месте" (т.е. там, где они хранятся), не прибегая к копированию данных, импорт данных имеет несколько преимуществ:

  • Данные всегда доступны.

  • Можно не беспокоиться, что данные изменятся во время анализа, или в промежутке между двумя этапами анализа.

  • Во время импорта данные приводятся к стандартному формату, или нормализуются. Для того, чтобы аналитические инструменты правильно интерпретировали значения, система применяет строгие ограничения к форматам данных разного типа (например, существует ограничение количества символов в строковых данных).

  • Обращение к кэшированным данным не увеличивает нагрузку на первичный источник данных. Это особенно важно при работе с данными, которые хранятся в облаке, и какая-либо третья сторона выставляет вам счет в зависимости от скачанного объема данных.

  • Работа с данными оптимизируется, поскольку во время создания запроса структура данных в локальном хранилище уже известна.

Выбор подходящего способа импорта данных

Для того, чтобы импортировать данные в PolyAnalyst, выберите подходящий узел-источник данных (их может быть несколько). При выборе источника данных, подумайте, как данные хранятся, где они хранятся, и сколько источников вы будете использовать. Скорее всего, вы выберете какой-то узел из раздела Источники данных в Палитре узлов. В некоторых случаях возникает необходимость использования узлов Объединение или Конкатенация из раздела Операции с таблицами.

Работа с несколькими источниками данных

При работе с несколькими источниками данных, вы можете самостоятельно выполнять конкатенацию данных, используя сторонние приложения, а затем импортировать эти конкатенированные данные. В качестве альтернативы можно также использовать для этого специальные внутренние инструменты PolyAnalyst - узлы Объединение и Конкатенация.

Например, вы можете использовать два узла-источника данных, а затем использовать узел Объединение для того, чтобы объединить две таблицы. Явное преимущество такого подхода заключается в том, что при этом вы будете работать с однородными данными единого формата. Благодаря стандартизации данных при импорте, вы легко можете объединять таблицы разных форматов, например, файл CSV и таблицу базы данных, или базы данных Oracle и Microsoft SQL Server.

Расширенный диалог источника данных

При загрузке данных можно использовать расширенный дилог источника данных. Для этого откройте Настройки пользователя в меню Настройки и найдите опции Управление проектом и отчетом. Отметьте галочкой опцию Расширенный диалог источника данных. См. пример загрузки файла-схемы CSV с использованием опций расширенного диалога.