Узел Проверка орфографии
Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.
sc icon

Узел Проверка орфографии позволяет находить и исправлять орфографические ошибки в текстовой колонке. Узел Проверка орфографии используется для подготовки текстовых данных к анализу. Реальные текстовые данные, как правило, не готовы к анализу. В большинстве случаев текст содержит ошибки. Нахождение и исправление этих ошибок значительно увеличивает полезность результатов, полученных в ходе дальнейшего анализа, например, в таких узлах, как Извлечение ключевых слов, Классификация текстов или Кластеризация текстов.

Существуют следующие типы орфографических ошибок

  • Замены – неправильная буква использована вместо правильной (receibe → receive);

  • Перестановки – две буквы переставлены местами (recieve → receive);

  • Пропуски – нужная буква отсутствует (receve → receive);

  • Добавления – дополнительная буква встречается в той позиции, где ее не должно быть (receivve → receive).

Отчет узла является интерактивным. Это означает, что вы можете изменить предложенное исправление, указать новый вариант исправления или добавить слово с ошибкой в словарь стоп-слов. В этом случае узле не будет распознавать указанное слово как ошибку.

Исправления применяются пакетно. Это значит, что вы не можете настроить алгоритм на исправление орфографической ошибки лишь в нескольких случаях использования термина. Модель, созданная узлом, исправит ошибку в данном термине по всему тексту.

Алгоритм не является контекстуальным, поскольку его поведение не зависит от окружения термина, содержащего орфографическую ошибку. Данный аспект работы алгоритма может быть изменен в будущем.
В результате редактирования исправлений из окна просмотра узла результаты последующих узлов становятся недействительными (изменяются исходные данные последующих узлов, в связи с чем полученные ранее результаты аннулируются). Пользователям необходимо заново настроить эти узлы и перевыполнить их.
Соединения на скрипте

Для узла Проверка орфографии необходимо входное соединение с узлом, который создает таблицу или индексированную текстовую колонку.

sc flowchart.rus

Вы можете соединить данный узел с узлом Производная таблица для создания новой таблицы, содержащей текстовую колонку с исправлениями.

sc flowchart gd.rus

Соедините данный узел с последующим узлом Индекс, чтобы изменить параметры индексирования, используемые по умолчанию.

sc flowchart index.rus