Узел Экспорт в файл
CSV export48 3

Узел Экспорт в файл позволяет пользователям экспортировать выходную таблицу данных любого другого узла в файл формата CSV, XLS, HTML, XML, XLSX или JSON. Это один из нескольких способов экспорта данных из PolyAnalyst.

Для узла Экспорт в файл требуется одно входящее соединение с узлом, который генерирует таблицу данных, например, операции со строками, колонками или таблицами. Узел Экспорт в файл не создает данных, которые могут быть использованы на входе другими узлами. Это конечный узел в цепи. Он не может иметь исходящих соединений с другими узлами.

Настройка узла Экспорт в файл

Окно свойств узла Экспорт в файл имеет 3 вкладки: Настройки экспорта, Настройки FTP и Общие. Вкладка Настройки экспорта (см. скриншот ниже) позволяет выбрать директорию сохранения файла и задать основные параметры сохранения.

export to file options.rus

Нажмите на кнопку Выбор для того, чтобы указать путь к файлу и его имя в открывшемся окне:

export to file save.rus

Обратите внимание на то, что вы сможете экспортировать файл только в те папки, которые доступны серверу PolyAnalyst. Это не обязательно тот компьютер, на котором установлен Аналитический клиент. См. раздел Поиск файлов в Руководстве по устранению неполадок.

Для того, чтобы узел был выполнен, достаточно просто указать имя и путь сохранения файла. По умолчанию узел экспортирует данные в CSV-файл.

Вы также можете экспортировать данные через брокер сообщений.

export to file data connection button.rus

Нажмите соответствующую кнопку, чтобы задать настройки брокера.

export to file data connection example.rus

Подробнее о настройках брокеров см. здесь.

Из выпадающего меню Экспортировать в пользователь может выбрать формат сохраняемого файла:

export to file format.rus

Кнопка "Настройки" позволяет получить доступ к расширенным настройкам параметров экспортируемого файла. Вкладка "Настройки" (за исключением экспорта в файл XML) обычно включает следующие вкладки:

  • Общие – опции данной вкладки зависят от выбранного формата файла и будут подробно описаны далее;

  • Числа – опции, позволяющие контролировать то, как колонки с числовыми и целочисленными данными хранятся в экспортируемом файле:

    export to file csv numbers.rus
    • Десятичная точка – данный символ означает десятичную точку числа. Обычно это точка. В некоторых странах это запятая.

    • Разделитель тысяч – знак, представляющий собой разделитель тысяч. Это поле обычно пустое. Если нет, чаще всего оно содержит запятую. Это значение не должно быть таким же, как и десятичный знак, в противном случае ни одна компьютерная программа, импортирующая данные значения, не сможет определить разницу между ними. Многие программы не поддерживают импорт чисел, содержащих запятые, числа обычно хранятся без разграничителя тысяч.

    • Точность – количество цифр после десятичного знака для хранения в числовом значении в экспортируемом файле. По умолчанию в этом поле выставляется значение 6. Точность обычно важна при научном анализе данных.

    • Отображать замыкающие нули – указывает, нужно ли сохранять замыкающие нули после десятичного знака (незначимые цифры). Если не выбирать эту опцию, замыкающие нули сохраняться не будут. Возможно, для кого-то будет важно, чтобы максимально точно было сохранено значение 0,10, у которого есть один замыкающий ноль, а не 0,1.

    • Отображать числа в инженерном формате – указывает на необходимость сохранения точности измерений.

  • Строки/тексты/идентификаторы включает следующие опции:

    export to file csv strings.rus
    • Символ, используемый для ограничения строк – символы, которые используются для заключения строк в CSV-файле. По умолчанию используются кавычки.

    • Префикс числового идентификатора – при работе с колонками, которые содержат категориальный тип данных, пользователи могут использовать целочисленный идентификатор для категорий. Обычно префикс отсутствует, или в качестве префикса используется знак ~.

      Данная опция имеет определенные особенности при экспорте в JSON. См. пункт Экспорт в JSON далее.
  • Дата/Время – содержит опции, позволяющие задавать формат хранения дат и времени в экспортируемом файле:

    export to file csv date.rus
    • Показать дату и время – указывает, какую часть значения времени и даты необходимо сохранить.

    • Порядок отображения даты и времени – указывает порядок, в котором хранятся значения времени и даты.

    • Формат записи времени – указывает, хранить ли время в 12-часовом или 24-часовом формате.

    • Формат даты – указывает порядок, в котором хранятся значения месяцев, дней и года в дате.

    • Показывать миллисекунды – позволяет экспортировать миллисекунды (если они имеются в исходных данных) и отображать их в выходной таблице данных.

  • Да/Нет – содержит следующие опции для работы с булевыми значениями:

    export to file csv yesno.rus
    • Использовать булевы (логические) имена из алфавитных символов – указывает, следует ли хранить булевы значения или заменять их числами 0 (ложь) и 1 (истина). Если данная опция подключена, значения будут сохранены в виде строки.

    • Значение "Да" – строковое представление истинных значений, которое должно быть сохранено. Обычно это значения Истина, Да или 1.

    • Значение "Нет" – строковое представление ложных значений, которое должно быть сохранено. Обычно это значения Ложь, Нет или 0. Данное поле можно оставить пустым для обозначения нулевого значения или его отсутствия, что иногда (но далеко не всегда) интерпретируется как ложное значение. Помните, что даже если поле остается пустым, в файле сохранится пустая строка, а не ноль, и это может повлиять на работу программ, в которые позже будет импортирован файл.

Экспорт в CSV

Вкладка Общие содержит следующие опции:

export to file csv general.rus
  • Заголовки выходных колонок – выберите эту опцию для хранения имен колонок в экспортированном файле;

  • Настройки файла

    • Кодировка – выбор соответствующей кодировки для файла. Выбор опции в данном разделе зависит от того, содержат ли данные какие-то особые символы. В большинстве случаев используется кодировки ANSI. При работе с неанглийскими или многоязычными текстами рекомендуется использовать кодировку UTF-8.

      Информация, которая выводится на экран в виде текста, на самом деле хранится в текстовом файле в виде числовых значений. Компьютер преобразует эти значения в отображаемые знаки, используя кодировку.

      Кодировка – это схема нумерации, согласно которой каждому текстовому символу в наборе соответствует определенное числовое значение. Кодировка может содержать буквы, цифры и другие символы, например, знаки препинания. В различных языках часто используются разные наборы символов, поэтому многие из существующих кодировок предназначены для отображения символов соответствующих языков. Кодовая страница – набор символов, соответствующий алфавиту отдельного языка (или группы языков). Разные языки могут использовать различные кодовые страницы, например, кодовая страница ANSI 1252 используется для английского и большинства европейских языков, а ANSI 932 – для японских иероглифов.

      Практически все кодовые страницы используют набор символов ASCII для 128 наиболее распространенных печатных и непечатных знаков (0x00-0x7F). Каждая операционная система компьютера использует какую-то кодовую страницу по умолчанию. Использование неверной кодовой страницы может привести к тому, что в экспортируемом файле сохранятся нераспознанные символы.

      Если вы видите в файле какие-то нечитаемые символы, скорее всего это значит, что в ходе экспорта файла вы указали неверную кодировку. Если вы работаете с разными языками, возможно, вам лучше использовать кодировку UTF-8, которая лучше подходит для работы с особыми символами. Не все программы могут работать с разными форматами символов. Некоторые из них очень ограничены. Даже если вы используете верную кодовую страницу в PolyAnalyst, другая программа может некорректно распознать эти символы, поскольку вы некорректно настроили эту программу, или она не поддерживает альтернативную кодовую страницу. Возможно, вам потребуется обратиться к руководству для пользователей данной программы.

    • Останавливать при ошибках преобразования данных – включите опцию, чтобы любые ошибки конвертации символов приводили к остановке узла. Если опция выключена, то все ошибки конвертации сохраняются в журнале узла, но не останавливают экспорт. В таком случае в ячейку экспортируются только те символы, которые узел смог конвертировать.

  • Формат колонок:

    • Разделитель – выбор разделителя для использования в экспортируемом файле. Разделитель – это знак в файле, который отделяет друг от друга колонки в каждой строке. В CSV-файлах это обычно запятая. Если вы хотите использовать пользовательский значок в качестве разделителя, выберите По выбору пользователя из выпадающего меню и введите знак в маленькое текстовое поле справа от меню.

    • Фиксированная ширина – выбор фиксированной ширины полей.

  • Концы строк – выберите символы, которые будут использованы для разрыва строк:

    • DOS – разрыв строк обозначается сочетанием символов <CR><LF> (\r\n). Данный формат используется в операционных системах DOS и Windows.

    • UNIX/MAC – разрыв строк обозначается символом <LF> (\n). Данный формат используется в операционных системах Unix и MacOS.

  • Сохранить форматирование (таблицы, заголовки и др.) – включите эту опцию для сохранения метаданных экспортируемого текста (например, разметку текста).

  • Добавить данные в существующий файл – если выбрана эта опция, PolyAnalyst сначала проверит, существует ли внешний файл с указанным именем в указанном месте. Если такой файл уже есть, PolyAnalyst добавит экспортируемые записи в конец этого файла. Если файл не найден, то создается новый файл. Если эта опция не включена, PolyAnalyst не проверяет, существует ли уже такой файл, и либо создает новый файл, либо заменяет существующий.

    При добавлении строк в конец файла нет проверки на совпадения порядка и кол-ва колонок в исходном датасете и в экспортируемом файле
  • Создать CSV-файл, совместимый с MS Excel – включите эту опцию, чтобы создать CSV-файл, который можно будет открыть в Microsoft Excel. При этом обратите внимание, что экспортируется не более 1048576 строк и 16384 колонок, а максимальная длина строковых значений – 32758 символов.

  • Создать файл-схему – выбор этой опции приведет к тому, что PolyAnalyst автоматически создаст второй файл в той же папке, что и CSV-файл, но с расширением SCH. При необходимости выберите разделитель или введите свой в соответствующем поле ниже. Файл-схема будет содержать информацию о настройках колонок. Файлы-схемы можно использовать в узле Файлы CSV для автоматической настройки колонок. Это облегчает автоматическую настройку узла Импорт в CSV в случае, если вам понадобится заново импортировать данные в систему PolyAnalyst.

  • Сохранять пустые значения как – если значение булевой, числовой или целочисленной колонки нулевое, указанное в этом поле значение вносится в файл. При необходимости в соотв Нулевые значения обычно хранятся как пустые значения внутри CSV-файлов. Однако пользователь может заменить пустые значения нулем. Это решение зависит от того, как другие программные продукты, которые вы планируете использовать впоследствии при работе с файлом, реагируют на нулевые или отсутствующие значения. Узел Файлы CSV в PolyAnalyst может работать с отсутствующими значениями, поэтому, если вы планируете в будущем заново импортировать данный файл, вы можете оставить поле Сохранять пустые значения как пустым.

Экспорт в XLS (XLSX)

Вкладка Общие содержит следующие опции:

export to file xls general.rus
  • Заголовки выходных колонок – выберите эту опцию для хранения имен колонок в экспортированном файле.

  • Включить подсветку – выберите эту опцию для сохранения подсветки текста входных данных в экспортируемом документе (например, при экспорте результатов узла Таксономия могут встретиться текстовые данные с подсветкой).

  • Сохранить форматирование ячеек – выберите эту опцию для сохранения форматирования ячеек, настраиваемых при просмотре результатов различных узлов.

Экспорт в HTML

Вкладка Общие содержит следующие опции:

export to file html general.rus
  • Записать BOM – если опция включена, то в начало файла для определения формата кодировки будет добавлен маркер последовательности байтов. Но для экспортированных HTML-файлов в этом нет необходимости, поскольку их кодировка уже задана с помощью соответствующего HTML-тега.

  • Заголовки выходных колонок – выберите эту опцию для хранения имен колонок в экспортированном файле.

  • Включить подсветку – выберите эту опцию для сохранения подсветки текста входных данных в экспортируемом документе (например, при экспорте результатов узла .Таксономия могут встретиться текстовые данные с подсветкой).

  • Сохранить форматирование ячеек – выберите эту опцию для сохранения форматирования ячеек, настраиваемых при просмотре результатов различных узлов.

  • Сохранять пустые значения как – выберите способ отображения пустых значений.

Экспорт в XML

Диалог настроек содержит только одну вкладку, Общие с одной опцией:

export to file xml general.rus
  • Сохранить форматирование (таблицы, заголовки и др.) – включите эту опцию для сохранения метаданных экспортируемого текста (например, разметку текста).

Экспорт в JSON

Вкладка Общие содержит следующие опции:

export to file json general.rus
  • Добавить данные в существующий файл – если выбрана эта опция, PolyAnalyst сначала проверит, существует ли внешний файл с указанным именем в указанном месте. Если такой файл уже есть, PolyAnalyst добавит экспортируемые записи в конец этого файла. Если файл не найден, то создается новый файл. Если эта опция не включена, PolyAnalyst не проверяет, существует ли уже такой файл, и либо создает новый файл, либо заменяет существующий.

    Данная опция работает только для файлов с кодировкой UTF-8 или UTF-16LE, а также в кодировках, обратно совместимых с 7-битной ASCII. Подробную информацию см. ниже.
  • Сохранять пустые значения как Null-литералы – если данная опция включена, пустые значения сохраняются как имя колонки:null; в противном случае пустые значения не экспортируются.

При экспорте в несуществующие или перезаписываемые файлы JSON узел Экспорт в файл использует кодировку UTF-8.

Если данные экспортируются путем добавления данных в существующий файл, узел сначала проверяет кодировку существующего файла. Если кодировка файла – UTF-8 или UTF-16LE, то данные записываются в конец данного файла в данной кодировке. Если используется другая кодировка (например, windows-1251), экспорт завершается с ошибкой.

После определения кодировки файла узел проверяет, является ли последним графическим символом в добавленном файле символ закрывающей квадратной скобки в JSON массиве (т.е. символом ]).

Опция Префикс числового идентификатора (вкладка Строки/Тексты/Идентификаторы) имеет определенные особенности при экспорте в JSON. Если вы используете данную опцию и определяете какой-либо символ для целочисленных идентификаторов, они заключаются в кавычки в экспортируемом файле. Это действие выполняется для соответствия требованиям, предъявляемым к типам данных JSON.

Настройка вкладки Настройки FTP

FTP-серверы, с которыми будет устанавливать соединение узел, указываются в поле Адрес на вкладке Настройки FTP. Для добавления сервера нажмите на кнопку с изображением плюса:

export to file ftp options.rus

Используйте выпадающее меню в поле Протокол для выбора типа протокола:

  • FTP (включая FTPS и FTPES, которые представляют собой FTP с шифрованием)

  • SFTP

В выпадающем меню настройки Шифрование выберите один из следующих параметров для протокола FTP:

  • Явное шифрование TLS/SSL (для протокола FTPES. В колонке Адрес будет URL со схемой "ftpes://")

  • Неявное шифрование TLS/SSL(для протокола FTPS. В колонке Адрес будет URL со схемой "ftps://").

  • Без шифрования (для протокола FTP без шифрования, в колонке Адрес будет URL со схемой "ftp://")

При добавлении адреса сервера в поле Хост вы можете включить необходимый префикс, например, "ftp://". В противном случае он будет добавлен автоматически.

В следующем поле указывается Порт, который будет использоваться при установке соединения. Термин порт – это часто используемое понятие в компьютерной среде. Оно аналогично понятию одной линии для многоканального телефона. Когда два компьютера устанавливают между собой соединение через Интернет, каждый компьютер открывает свой порт. FTP-серверы почти всегда используют порт номер 21. Порты с меньшим числовым значением, как правило, связаны с конкретными целями. Порт 21 почти всегда зарезервирован для FTP-соединений. Тем не менее FTP можно настроить на работу и с другим портом.

Например, принимая во внимание то, что большинство злоумышленников знают о широком использовании порта 21, некоторые организации предпочитают закрывать его (защищать брандмауэром) и выбирать менее распространенный или даже случайный номер порта (например, 62234). Для того, чтобы PolyAnalyst успешно установил соединение, вам обязательно нужно знать номер порта.

Передача данных – режим передачи данных может быть пассивным или активным. По умолчанию – пассивный. Разница между активным и пассивным режимом заключается в том, какая сторона открывает соединение для передачи данных. В активном режиме, при работе с клиентом (PolyAnalyst), необходимо учитывать возможность принятия соединения от FTP-сервера. Однако, стоит иметь в виду, что данное действие может быть затруднено из-за наличия запрета брандмауэра или настроек NAT-роутера. В пассивном режиме работа с клиентом (PolyAnalyst) предполагает инициирование соединения с FTP-сервером со стороны клиента. Настройка Передача данных используется только при выборе протокола FTP.

Режим Использовать приватный ключ доступен только при выборе протокола SFTP. Отметьте флажком данную опцию, чтобы указать путь до вашего приватного ключа. Вам также необходимо ввести логин и фразу приватного ключа в соответствующих полях.

Анонимный вход – используйте анонимную авторизацию для анонимного входа (если поддерживается выбранным FTP-сервером). Данная настройка используется только для протокола FTP.

В поле Логин вводится имя пользователя, которое будет использовать PolyAnalyst при соединении с конкретными сервером. Помимо этого вам также необходимо указать пароль для выбранной учетной записи в соответствующем поле.

Не все серверы требуют ввода имени пользователя и пароля. Фактически таких серверов в Интернете очень много, их обычно называют публичными FTP-серверами. Если вы подключаетесь к публичному FTP-серверу, оставьте эти поля пустыми. В случае с сервером небольшой компании, вам, скорее всего, потребуется указать имя пользователя и пароль.

В поле Удаленная папка вы можете указать путь к конкретной папке на сервере, куда будут экспортироваться файлы.

Кодировка путей – это метод кодирования и передачи имен файлов и папок через FTP-сервер. При работе с FTP-сервером PolyAnalyst пытается определить, поддерживает ли сервер кодировку UTF-8. Если сервер поддерживает UTF-8, то будет использована эта кодировка. В противном случае будет использована выбранная кодировка. Важно правильно выбирать кодировку путей, так как неправильный выбор может привести к некорректному отображению файловых путей на FTP-сервере, к возникновению ошибок при создании файловых путей во время экспорта на FTP-сервер или к недоступности файловых путей во время импорта с FTP-сервера.

Опция Принудительно – это обязательное применение выбранной кодировки имен файлов и папок на FTP-сервере, независимо от того, поддерживает ли выбранный FTP-сервер кодировку UTF-8.

Альтернативный вариант заполнение значений полей вышеуказанной формы – через URL, для этого нажмите на кнопку Заполнить из URL в левом нижнем углу.

Нажмите ОК для сохранения внесенных изменений и добавления сервера в список. Для редактирования настроек или удаления сервера используйте соответствующие кнопки на панели инструментов.

Поставьте галочку для опции Загрузить на следующие FTP-серверы, чтобы экспортированный файл загружался на указанные серверы FTP. Для выполнения узла необходимо добавить в список как минимум один сервер.