Выбор файла CSV для импорта

На начальном этапе настройки узла CSV Файлы необходимо выбрать файл для импорта. Удостоверьтесь, что файл доступен для сервера PolyAnalyst. Если сервер PolyAnalyst установлен и работает на другом компьютере, то сервер сможет импортировать только файлы с локальных и доступных ему сетевых источников. Для этого вы можете либо просто перенести необходимый файл на скрипт, либо (в связи с ограничениями в целях безопасности) использовать Диск PolyAnalyst, после чего файл будет доступен в папке профиля.

csv wizard.rus

Для импорта файла в правом верхнем углу вкладки Выбор файла нажмите на кнопку Выбрать отдельный файл. Откроется соответствующее окно:

csv wizard files.rus
Начиная с PolyAnalyst 6.5 версии 2412, при переходе в окно настроек узла Файлы CSV окно выбора файла открывается автоматически.

Обратите внимание на то, что администратор может ограничить доступ пользователей к локальным, сетевым или съемным носителям из соображений безопасности. В подобном случае они не будут отображаться в окне выбора файлов.

При необходимости вы можете импортировать несколько файлов или папку, выбрав соответствующие опции в выпадающем списке. Нажмите на стрелку справа от опции Выбрать отдельный файл для того, чтобы развернуть его. Если вы импортируете папку, содержащую подпапки с CSV-файлами, отметьте галочкой опцию Обрабатывать папки рекурсивно (по умолчанию она отключена).

Использовать узел Файлы CSV для импорта нескольких файлов (или папки) допускается только в том случае, когда файлы совпадают по количеству и типам колонок. Например, это могут быть одинаковые данные по статьям доходов компании за разные месяцы. Если вы попытаетесь загрузить файлы различных форматов, узел будет выполнен, но в правом верхнем углу иконки узла на скрипте появится предупредительный восклицательный знак. Он оповещает о том, что при выполнении узла возникли трудности, и записи были импортированы не в полном объеме. Подробное описание ошибки можно просмотреть в журнале ошибок импорта.

Для того чтобы загрузить файлы, которые находятся на вашем компьютере, воспользуйтесь кнопкой Загрузить button upload в правом верхнем углу.

После того, как файл, папка или несколько файлов будут выбраны для импорта, вы вернетесь в окно настроек узла Файлы CSV.

Вы также можете добавлять данные через брокеры сообщений.

csv wizard data connections button.rus

Выберите источник данных для импорта.

csv wizard data connections example.rus

Подробнее о подключении к данным см. здесь.

При отсутствии ошибок в нижней части окна в области Предварительный просмотр отобразятся данные из выбранного вами файла (файлов). Обратите внимание на то, что PolyAnalyst демонстрирует лишь несколько записей для того, чтобы вы смогли просмотреть содержимое файла и исправить любые несоответствия до того, как запустите процесс импорта всей таблицы.

Используйте кнопку Настройка типов данных…​ над областью предварительно просмотра, чтобы настроить формат импортируемых данных в зависимости от типа:

csv wizard data types.rus

Свойства каждого типа данных настраиваются на отдельных вкладках. Например, вы можете настроить формат отображения данных булевого типа на вкладке Да/Нет и др. Нажмите OK для применения изменений. Дополнительная информация о настройке типов данных доступна в разделе Настройка колонок при импорте данных.

Отметьте галочкой опцию Добавить данные, чтобы при повторном выполнении узла новые записи были добавлены в конец созданной ранее таблицы. Подробное описание опции представлено в специальном разделе.

Выпадающее меню Кодировка позволяет указать необходимую кодировку символов.

Опция Начальная строка используется для выбора строки, с которой необходимо начать импорт данных. Это полезно в случаях, когда следует пропустить начальные неинформативные строки (заголовки, комментарии и др.). Если же вы хотите пропустить некоторое количество строк самой таблицы данных, рекомендуется использовать вкладку Выборка для выполнения подобного действия.

Предполагается, что CSV-файлы хранят имена колонок в первой строке, однако на практике не существует никакого стандартного метода определения имен колонок. Система PolyAnalyst самостоятельно или с помощью пользователя пытается определить, какие имена колонок нужно использовать. Опция Первая строка содержит названия колонок позволяет вам выбрать один из стрех режимов:

  • Автоматически – PolyAnalyst проверяет наличие имен в первой строке с помощью эвристического алгоритма;

  • Да – PolyAnalyst будет использовать значения первой строки в качестве имен колонок;

  • Нет – PolyAnalyst будет именовать колонки по умолчанию (column 1, column 2 и т.д.).

В системе PolyAnalyst действует важное ограничение – две колонки не могут иметь одинаковые имена. Когда PolyAnalyst назначает имена колонок, он также дополнительно проводит проверку с целью определить наличие колонок с одинаковыми именами. Если таковых несколько, PolyAnalyst автоматически переименует их, вместо того, чтобы запрашивать у пользователя назначение уникальных имен для колонок.

Предположим, колонка с названием Пол повторяется в таблице несколько раз. Обнаружив это, PolyAnalyst переименует вторую колонку Пол в Пол (1). Если имя Пол (1) уже существует, PolyAnalyst применит Пол (2), Пол (3) и т.д., до тех пор, пока не найдет свободное уникальное имя для колонки.

Это очень удобно, поскольку можно не беспокоиться о повторяющихся именах. В дальнейшем при поиске колонок в анализе обратите внимание на то, что имя может содержать числовой суффикс.

Пользователи также могут вручную ввести имена колонок позже при настройке узла Файлы CSV, либо в последующих узлах, например, Модификация колонок.

Опция Сканировать строки дает команду узлу проанализировать указанное количество строк для того, чтобы определить тип данных в каждой колонке. По умолчанию узел сканирует первые 1000 строк. Тип данных определяется исходя из того, какие значения преобладают. Например, в тренировочном наборе данных CarData.csv колонка Displacement содержит 397 целочисленных значений и одно числовое. В связи с этим при импорте таблицы узел автоматически определит, что колонка содержит целочисленные значения с одним небольшим исключением. Это исключение не препятствует выполнению узла. При этом после выполнения узла в правом верхнем углу иконки узла на скрипте появится предупредительный знак. В журнале узла будет подробно описана ошибка преобразования данных. В такой ситуации пользователь может игнорировать сообщение об ошибке или вручную изменить тип выходной колонки на вкладке Настройки колонок узла Файлы CSV (см. раздел Настройка колонок при импорте данных).

Настройка свойств файла

Доступные на вкладке Свойства файла опции зависят от того, какой файл вы импортируете (с фиксированной или переменной шириной полей).

Узел Файлы CSV может выполнять парсинг текстов с фиксированной и с переменной шириной полей. Для настройки опции Парсинг колонок вам необходимо точно знать, с каким файлом вы имеете дело. Файл CSV – это файл, в котором значения отделены друг от друга запятыми (которая выступает в роли разделителя). В файлах с фиксированной шириной разделители присутствуют не всегда, и только отступ в начале каждой строки указывает на начало новой колонки. Попробуйте открыть файл в текстовом редакторе и если вы увидите в нем упорядоченные данные с визуально различимыми колонками, то это файл с фиксированной шириной текста. В подобном случае необходимо выбрать режим Фиксированный размер, используя соответствующую радиокнопку.

Однако чаще всего приходится иметь дело с файлами с переменной шириной, поэтому по умолчанию выбрана опция С разделителем.

Если вы работаете с файлом с переменной шириной полей, вам необходимо указать разделитель колонок в файле. По умолчанию это запятая. Для назначения другого разделителя используйте выпадающее меню в разделе Настройка ширины колонок с помощью разделителя. Если необходимого разделителя нет в списке, выберите опцию По выбору пользователя и в поле справа введите соответствующий символ:

csv wizard column parsing.rus

Если вы работаете с файлом с фиксированной шириной полей, вкладка будет выглядеть иначе:

csv wizard column fixed.rus

Нажмите на кнопку Обновить для отображения содержимого файла в нижнем поле вкладки. Затем используйте линейку для обозначения границ между колонками:

  • Для добавления разделителя нажмите на линейку или любую точку в пределах области предварительного просмотра;

  • Для удаления разделителя нажмите на него;

  • Для изменения ширины колонки перетащите разделитель в соответствующем направлении.

Настройка других вкладок узла Файлы CSV

Вкладки Выборка, Настройки колонок и Общие присутствуют в окне настроек большинства узлов PolyAnalyst.

Для получения дополнительной информации перейдите по ссылкам в соответствующие разделы.

Совместимость настроек узла с новыми версиями PolyAnalyst

Если узел Файлы CSV был настроен в старых версиях PolyAnalyst (до 2122 включительно), то при обновлении до более новой версии настройки колонок в узле могут быть сброшены. В этом случае потребуется повторное назначение соответствующих параметров.