ocr
Назначение
Находит документы, содержащие слова с высокой достоверностью распознавания OCR-модулем PolyAnalyst.
Аргументы
Функция принимает несколько аргументов. Первый опциональный параметр целое число имеет формат [0-100] и задает порог достоверности распознавания. Функция находит все слова, которые больше или равны этому порогу.
Функция принимает в качестве аргумента любые PDL-запросы. Они трактуются как список элементов, перечисленных через оператор OR, при этом функция проверяет, что OCR-достоверность найденных слов лежит в заданном диапазоне.
Опциональный именованный параметр confidence задает диапазон достоверности.
Примечание
Модуль OCR помечает только слова ниже заданного порога.
По умолчанию порог достоверности равен 80. При этом реальная достоверность слов с порогом выше 80 неизвестна, но считается равной 100.
Тексты, которые не прошли через модуль OCR, считаются распознанными с достоверностью 100%.
Например, запрос ocr(entity(People)) найдет все имена людей в обычных текстах, а фильтрация низкодостоверных имен людей будет происходить только в текстах, распознанных модулем OCR.