Узел Проверка орфографии
Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server. |
Узел Проверка орфографии позволяет находить и исправлять орфографические ошибки в текстовой колонке. Узел Проверка орфографии используется для подготовки текстовых данных к анализу. Реальные текстовые данные, как правило, не готовы к анализу. В большинстве случаев текст содержит ошибки. Нахождение и исправление этих ошибок значительно увеличивает полезность результатов, полученных в ходе дальнейшего анализа, например, в таких узлах, как Извлечение ключевых слов, Классификация текстов или Кластеризация текстов.
Существуют следующие типы орфографических ошибок
-
Замены – неправильная буква использована вместо правильной (receibe → receive);
-
Перестановки – две буквы переставлены местами (recieve → receive);
-
Пропуски – нужная буква отсутствует (receve → receive);
-
Добавления – дополнительная буква встречается в той позиции, где ее не должно быть (receivve → receive).
Отчет узла является интерактивным. Это означает, что вы можете изменить предложенное исправление, указать новый вариант исправления или добавить слово с ошибкой в словарь стоп-слов. В этом случае узле не будет распознавать указанное слово как ошибку.
Исправления применяются пакетно. Это значит, что вы не можете настроить алгоритм на исправление орфографической ошибки лишь в нескольких случаях использования термина. Модель, созданная узлом, исправит ошибку в данном термине по всему тексту.
Алгоритм не является контекстуальным, поскольку его поведение не зависит от окружения термина, содержащего орфографическую ошибку. Данный аспект работы алгоритма может быть изменен в будущем. |
В результате редактирования исправлений из окна просмотра узла результаты последующих узлов становятся недействительными (изменяются исходные данные последующих узлов, в связи с чем полученные ранее результаты аннулируются). Пользователям необходимо заново настроить эти узлы и перевыполнить их. |
Соединения на скрипте
Для узла Проверка орфографии необходимо входное соединение с узлом, который создает таблицу или индексированную текстовую колонку.
Вы можете соединить данный узел с узлом Производная таблица для создания новой таблицы, содержащей текстовую колонку с исправлениями.
Соедините данный узел с последующим узлом Индекс, чтобы изменить параметры индексирования, используемые по умолчанию.