Импорт данных из PDF-файлов

В PolyAnalyst имеется возможность импортировать данные из PDF-файлов с помощью таких узлов, как E-Mail, E-Mail архив, Файлы, FTP, Интернет и SharePoint. Для выполнения подобной операции необходимо использовать один из инструментов оптического распознавания символов (англ. Optical Character Recognition, OCR): ABBYY FineReader Engine, Tesseract OCR или PolyAnalyst OCR.

Более подробно опции инструментов OCR описаны в разделе Настройка узла Файлы.

Выбор инструмента OCR

В окне настроек одного из вышеперечисленных узлов найдите поле со значением Не использовать OCR:

example files properties.rus

Нажмите на данное поле для того, чтобы развернуть список доступных инструментов OCR:

OCR tools.rus

После выбора необходимого инструмента нажмите на кнопку […​] для настройки дополнительных параметров.

Установка ABBYY FineReader Engine

Поскольку ABBYY FineReader Engine не поставляется вместе с PolyAnalyst, его установка осуществляется отдельно. Для успешной работы также необходимо наличие лицензии на выполнение.

  1. До начала установки проверьте версию ABBYY FRE (это должна быть версия 11.1.14.63).

    Для этого откройте файл Readme.txt в корневом каталоге дистрибутива:

    FRE 1
  2. Выполните следующую команду:

    setup.exe /qb /v ARCH=x86 INSTALLDIR="С:\Program Files\ABBYY SDK\11\FineReader Engine"

  3. Введите серийный номер:

    SN=SWAR-xxxx-xxxx-xxxx-xxxx-xxxx

    Не изменяйте путь установки. Он должен быть таким же, как на следующем скриншоте:

    FRE 4
  4. Запустите License Manager (Менеджер лицензий):

    "С:\Program Files\ABBYY SDK\11\FineReader Engine\Bin\LicenseManager.exe"

    Менеджер лицензий также можно запустить из меню Пуск.

    FRE 5
  5. Нажмите на кнопку Activate License…​ (Активировать лицензию) и введите серийный номер:

    FRE 6
  6. После успешной активации появится следующее (или похожее) окно:

    FRE 7