puretext
Назначение
Функция puretext возвращает простой текст указанного строкового или текстового значения (удаляет теги, символы форматирования, объединенные таблицы, заголовки электронных писем и прочее неязыковое содержимое).
Аргументы
Функция требует наличия одного аргумента (строкового или текстового значения/колонки), но принимает ряд именованных аргументов:
Именованный аргумент |
Описание |
Тип значения аргумента |
binary |
Определяет необходимость ссылаться на бинарные данные в колонке вместо текстовых (при просмотре бинарные колонки будут подсвечены) |
Булевое (например, yes/no) |
check_for_borderless_tables |
Проверяет наличие таблиц без границ (для OCR) |
Булевое (например, yes/no) |
check_for_complex_page_layout |
Проверяет наличие сложного расположения элементов на странице |
Булевое (например, yes/no) |
encoding |
Явно указывает кодировку |
Строковое (например, UTF-8) |
explicit_separators |
Распознает таблицы без скрытых разделителей |
Булевое (например, yes/no) |
extract_image |
Извлекает изображения |
Булевое (например, yes/no) |
filter_binary |
Извлекает нетекстовые (бинарные) записи |
Булевое (например, yes/no) |
first_page |
Указывает, что необходимо вернуть первую страницу (для OCR) |
Числовое (например, 1) |
ignore_all_graphical_lines |
Игнорирует все графические линии |
Булевое (например, yes/no) |
last_page |
Указывает, что необходимо вернуть последнюю страницу (для OCR) |
Числовое (например, 10) |
mark_unreliable_chars |
Отмечает неточно распознанные символы |
Булевое (например, yes/no) |
max_page_number |
Указывает максимальное число страниц для распознавания (для OCR) |
Числовое (например, 10) |
ocr_file_name_filter |
Указывает фильтр для файлов OCR |
Строковое (например, somefolder) |
ocr_file_types |
Указывает типы файлов, которые будут обработаны выбранным методом OCR |
Строковое (например, JPG, PDF, TIF; указанные типы должны быть разделены запятой) |
ocr_languages |
Явно указывает языки (для OCR) |
Строковое (например, English; указанные языки должны быть разделены запятой) |
ocr_mode |
Указывает, какой движок OCR необходимо использовать |
Строковое (например, PA) |
ocr_speed_profile |
Использует более быстрый профиль распознавания |
Булевое (например, yes/no) |
page_segmentation_mode |
Использует режим сегментации страницы (для Tesseract) |
Строковое (например, PSM_AUTO) |
parse_advanced_meta |
Загружает форматирование (таблицы, заголовки и т.д.) |
Булевое (например, yes/no) |
pdf_advanced_tables |
Извлекает сложные таблицы из PDF |
Булевое (например, yes/no) |
pdf_do_not_extract_tables |
Не извлекает таблицы из PDF |
Булевое (например, yes/no) |
pdf_merge_coinciding_neighboring_tables |
Объединяет совпадающие соседние таблицы |
Булевое (например, yes/no) |
pdf_ratio_threshold |
Указывает пороговое соотношение извлеченного текста и PDF-источника |
Числовое (например, 0.01) |
rewrite_cache |
Переписывает кэш (для OCR) |
Булевое (например, yes/no) |
show_hidden_sheet |
Отображает скрытые листы в таблицах Excel |
Булевое (например, yes/no) |
split_tables_sheet |
Разбивает таблицы в листе (только для XLSX, XLS) |
Булевое (например, yes/no) |
test_size |
Указывает число символов для распознавания формата |
Числовое (например, 10000) |
use_advanced_html |
Извлекает только информативный HTML-контент |
Булевое (например, yes/no) |
write_words_coordinates_to_metainformation |
Сохраняет координаты слова (для OCR) |
Булевое (например, yes/no) |