puretext

Назначение

Функция puretext возвращает простой текст указанного строкового или текстового значения (удаляет теги, символы форматирования, объединенные таблицы, заголовки электронных писем и прочее неязыковое содержимое).

Синтаксис

puretext(строка[,…​])

Аргументы

Функция требует наличия одного аргумента (строкового или текстового значения/колонки), но принимает ряд именованных аргументов:

Именованный аргумент

Описание

Тип значения аргумента

binary

Определяет необходимость ссылаться на бинарные данные в колонке вместо текстовых (при просмотре бинарные колонки будут подсвечены)

Булевое (например, yes/no)

check_for_borderless_tables

Проверяет наличие таблиц без границ (для OCR)

Булевое (например, yes/no)

check_for_complex_page_layout

Проверяет наличие сложного расположения элементов на странице

Булевое (например, yes/no)

encoding

Явно указывает кодировку

Строковое (например, UTF-8)

explicit_separators

Распознает таблицы без скрытых разделителей

Булевое (например, yes/no)

extract_image

Извлекает изображения

Булевое (например, yes/no)

filter_binary

Извлекает нетекстовые (бинарные) записи

Булевое (например, yes/no)

first_page

Указывает, что необходимо вернуть первую страницу (для OCR)

Числовое (например, 1)

ignore_all_graphical_lines

Игнорирует все графические линии

Булевое (например, yes/no)

last_page

Указывает, что необходимо вернуть последнюю страницу (для OCR)

Числовое (например, 10)

mark_unreliable_chars

Отмечает неточно распознанные символы

Булевое (например, yes/no)

max_page_number

Указывает максимальное число страниц для распознавания (для OCR)

Числовое (например, 10)

ocr_file_name_filter

Указывает фильтр для файлов OCR

Строковое (например, somefolder)

ocr_file_types

Указывает типы файлов, которые будут обработаны выбранным методом OCR

Строковое (например, JPG, PDF, TIF; указанные типы должны быть разделены запятой)

ocr_languages

Явно указывает языки (для OCR)

Строковое (например, English; указанные языки должны быть разделены запятой)

ocr_mode

Указывает, какой движок OCR необходимо использовать

Строковое (например, PA)

ocr_speed_profile

Использует более быстрый профиль распознавания

Булевое (например, yes/no)

page_segmentation_mode

Использует режим сегментации страницы (для Tesseract)

Строковое (например, PSM_AUTO)

parse_advanced_meta

Загружает форматирование (таблицы, заголовки и т.д.)

Булевое (например, yes/no)

pdf_advanced_tables

Извлекает сложные таблицы из PDF

Булевое (например, yes/no)

pdf_do_not_extract_tables

Не извлекает таблицы из PDF

Булевое (например, yes/no)

pdf_merge_coinciding_neighboring_tables

Объединяет совпадающие соседние таблицы

Булевое (например, yes/no)

pdf_ratio_threshold

Указывает пороговое соотношение извлеченного текста и PDF-источника

Числовое (например, 0.01)

rewrite_cache

Переписывает кэш (для OCR)

Булевое (например, yes/no)

show_hidden_sheet

Отображает скрытые листы в таблицах Excel

Булевое (например, yes/no)

split_tables_sheet

Разбивает таблицы в листе (только для XLSX, XLS)

Булевое (например, yes/no)

test_size

Указывает число символов для распознавания формата

Числовое (например, 10000)

use_advanced_html

Извлекает только информативный HTML-контент

Булевое (например, yes/no)

write_words_coordinates_to_metainformation

Сохраняет координаты слова (для OCR)

Булевое (например, yes/no)

Возвращаемое значение

Функция возвращает текстовое или строковое значение без неязыкового содержимого.

Примеры

puretext([column], encoding:="ASCII", extract_image:=no) возвращает текст в колонке в кодировке ASCII и без изображений