ocr

Назначение

Находит документы, содержащие слова с высокой достоверностью распознавания OCR-модулем PolyAnalyst.

Синтаксис

ocr([0-100], аргумент)

Аргументы

Функция принимает несколько аргументов. Первый опциональный параметр целое число имеет формат [0-100] и задает порог достоверности распознавания. Функция находит все слова, которые больше или равны этому порогу.

Функция принимает в качестве аргумента любые PDL-запросы. Они трактуются как список элементов, перечисленных через оператор OR, при этом функция проверяет, что OCR-достоверность найденных слов лежит в заданном диапазоне.

Опциональный именованный параметр confidence задает диапазон достоверности.

Возвращаемое значение

Документы, соответствующие запросу.

Примеры

ocr() найдет все слова, чья достоверность больше порога, заданного в настройках OCR модуля (по умолчанию он равен 80).

См. настройки узлов «Файлы» или «Оптическое распознавание символов».

ocr(80) найдет все слова с достоверностью, лежащей в диапазоне [80, 100].

ocr(confidence:>20) найдет все слова, чей диапазон достоверности больше 20.

ocr(confidence:<90) найдет все слова, чей диапазон достоверности меньше 90.

ocr(confidence:>20, confidence:<80) найдет все слова, чей диапазон достоверности лежит в пределе от 20 до 80.

ocr(80, entity(People)) найдет упоминания людей, состоящие из слов, чья достоверность больше или равна 80.

ocr(a,b, confidence:<=30) найдет слова «a» или «b» с достоверностью, которая меньше или равна 30.

ocr(sentence()) найдет все предложения со словами, чья достоверность больше той, что задана в OCR-модуле.

Примечание

Модуль OCR помечает только слова ниже заданного порога.

По умолчанию порог достоверности равен 80. При этом реальная достоверность слов с порогом выше 80 неизвестна, но считается равной 100.

Тексты, которые не прошли через модуль OCR, считаются распознанными с достоверностью 100%.

Например, запрос ocr(entity(People)) найдет все имена людей в обычных текстах, а фильтрация низкодостоверных имен людей будет происходить только в текстах, распознанных модулем OCR.