Узел Оптическое распознавание символов

Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.

Общие сведения об узле

Узел Оптическое распознавание символов предназначен для перевода изображений машинописного и печатного текста в электронные текстовые данные. Узел основан на сверточных нейронных сетях и использует собственный инструмент – PolyAnalyst OCR. На данный момент поддерживаются русский и английский языки.

Для получения информации об альтернативных инструментах OCR см. раздел Импорт данных из PDF-файлов.

По умолчанию в серверных операционных системах Windows Server 2012 (6.2.9200) и Windows Server 2012 R2 (6.3.9200) могут отсутствовать некоторые файлы, которые необходимы для корректной работы узла. В подобных случаях потребуется установка Media Foundation. Для этого откройте Диспетчер серверов, в меню Управление выберите Добавить роли и компоненты, перейдите к разделу Компоненты, отметьте галочкой Media Foundation в списке и выполните установку. По завершении установки перезагрузите сервер.

Windows версий N и KN не содержит Media Feature Pack, который необходим пакету OCR. Если вы используете Windows версий N или KN, установите также Windows Media Feature Pack.

Иногда отсканированные документы в формате PDF содержат в себе изображения в формате JPEG2000. Чтобы система смогла загрузить такие изображения, необходимо скачать дополнительный компонент и скопировать его в папку внутри дистрибутива PolyAnalyst (Bin64\java\solutions\pa_pdfbox\jars). Обратите внимание, что вам также будет необходимо отметить галочкой опцию Перезаписать кэш в настройках узла.

Соединения на скрипте

Узлу необходимо одно входящее соединение с любым другим узлом, который создает таблицу данных, например, узел-источник данных, узел операций с колонками, строками или таблицами. Входная таблица для узла Оптическое распознавание символов должна содержать ключи к бинарному хранилищу данных PolyAnalyst, в котором изображения хранятся в бинарном формате.