Настройки подключения к данным и API

Настройки подключения к данным можно использовать для конфигурации источников импорта данных на сервер PolyAnalyst и настроек экспорта данных с сервера.

В сущности мы можем разделить настройки подключения к данным на несколько категорий:

Подробное описание настроек подключения к данным см. ниже.

По умолчанию при импорте данных в проект PolyAnalyst, например, через узел Файлы CSV вам будет доступна папка с тренировочными наборами данных, Диск PolyAnalyst и файлы вашего ПК (при условии, если сервер PolyAnalyst установлен на том же компьютере, что и клиент).

data connections csv wizard.rus

Настройки подключения к данным позволят вам задать различные источники импорта данных.

data connections csv all.rus

Обычный пользователь также может задать настройки подключения к данным. Это делается через окно конфигурации узлов импорта. Для этого нажмите кнопку Источник подключения к данным.

data connections csv import.rus

Настройки подключения к данным также можно использовать при экспорте данных, например, при подключении узла Экспорт в файл.

data connections csv export.rus

Отметьте соответствующий чекбокс, чтобы разрешить экспорт данных.

data connections checkbox.rus

Подробнее о настройках подключения к данным см. в соответствующих разделах:

Сетевые подключения и именованные папки

Когда мы говорим о подключениях по сети, мы обычно подразумеваем использование локальной сети и именованных папок.

data connections local network.rus

Так, например, вы можете подключиться к папке, к которой был предоставлен общий доступ в вашей сети.

data connections local network list.rus

Вы также можете сделать папку именованной – это значит, что доступ к этой папке будет задаваться через алиас. Например, под именем "my_folder" вы можете указать путь D:\data\my_folder. Сюда относятся локальные как локальные папки, так и удаленные, доступ к которым выполняется по сети (например, \\SomeComputer\folder).

Вы также можете использовать веб-скраперы для загрузки данных в PolyAnalyst.

data connections web scrapers.rus

Вы можете написать свой собственный веб-скрапер (например, используя Python) для загрузки данных через узел Интернет.

Использование пользовательских веб-скраперов должно быть разрешено на вкладке Безопасность в настройках сервера. Для этого отметьте чекбокс Разрешить пользовательские веб-скраперы.

Иногда при использовании веб-скраперов необходима авторизация на том или ином ресурсе. В качестве одного из видов авторизации вы можете использовать авторизацию через HTML.

Авторизация через HTML доступна только для веб-скрапера по умолчанию.

В качестве инструмента подключения к данным также используется API. Одним из протоколов, которые используют API, является протокол OData. Доступ к OData осуществляется через узел одноименный узел.

Настройки подключения к данным через API позволяют задать ключ для следующих сервисов:

  • ChatGPT

  • MegaGPT

  • YandexGPT

  • GigaChat

Подключения к базам данных

Подключения к базам данных выполняются через ODBC- и JDBC-интерфейсы.

data connections odbc jdbc.rus

Чтобы импортировать данные через ODBC/JDBC, используйте узел ODBC или JDBC соответственно.

data connections odbc jdbc.rus

Обратите внимание, что конфигурация ODBC-именованных источников и Источников данных JDBC задается по отдельности.

data connections odbc alias.rus

Отдельно стоит сказать про сервис S3.

Сервис S3 (Simple Storage Service), разработанный Amazon, хранит данные в так называемых корзинах – в специальных хранилищах различных форматов данных. Основное преимущество протокола S3 заключается в том, что данные хранятся в "плоском" формате – каждый объект имеет свой уникальный идентификатор, а все объекты, которые находятся в корзине, рассматриваются как равные друг другу. Это позволяет легко получить доступ к файлу без указания точного пути.

Брокеры сообщений

Третья категория, брокеры сообщений, представляет собой удобный инструмент для отправки/получения данных с сервера PolyAnalyst или на него.

Брокер сообщений представляет собой программное обеспечение, которое, в общих словах, принимает данные, хранит их и затем передает дальше. Например, такими данными могут быть файлы формата CSV.

Работа брокера сообщений обычно состоит из 3 этапов:

  • получение информации от продюсера данных (от англ. produce – производить);

  • хранение данных (сам брокер сообщений);

  • передача данных потребителю.

Сначала данные забираются у продюсера, затем сервис, обычно называемый брокером, передает эти данные одному или нескольким потребителям. Таким потребителем может быть как другой сервис, так и конечный пользователь. После того, как данные будут переданы потребителю, они удаляются из хранилища брокера (однако такое поведение зависит от конкретной реализации брокера сообщений).

В настоящее время в PolyAnalyst поддерживаются следующие брокеры сообщений:

Сервис Apache Kafka хранит данные в топиках, т.е. в некой последовательности объектов, которые используются в качестве хранилищ. При получении данные не удаляются из топика, а сохраняются для других потребителей.

Сервис RabbitMQ использует понятие очереди для хранения данных. Как только пользователь получает данные, они удаляются из хранилища. Основная идея RabbitMQ заключается в использовании обменника (Exchange) – промежуточного шага между продюсером и очередью. Продюсеров и очередей может быть несколько (как и несколько потребителей), но используется только один обменник.

Сервис ActiveMQ схож с RabbitMQ, но отличается от него по возможностям масштабирования: ActiveMQ использует вертикальный, горизонтальный и разделяющий типы масштабирования, в то время как RabbitMQ использует вертикальный и горизонтальный типы. Первый тип предполагает масштабирование количества подключений к брокеру, в то время как второй тип ориентируется на количество самих брокеров.

Каждый брокер сообщений настраивается схожим образом, хотя конфигурация конкретного брокера зависит от его реализации.