Узел Уникальные тексты

Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.

Узел Уникальные тексты предназначен для фильтрации повторяющихся записей в текстовой колонке таблицы. Для данного узла необходимо одно входное соединение с узлом, представляющим таблицу данных. Результатом работы узла является новая таблица. Узел может иметь исходящие соединения с любым количеством узлов, которые принимают на входе таблицу.

Как правило, узел Уникальные тексты используется на подготовительном этапе для улучшения качества данных для последующего анализа. Если вы работаете с "грязными" данными, которые могут содержать большое количество дублирующих друг друга записей, вы можете использовать узел Уникальные тексты для того, чтобы удалить повторяющееся содержимое с помощью специального алгоритма. Узел может использовать различные методы определения сходства документов. Вы можете задать такой порог схожести, при котором два минимально отличных друг от друга документа будут рассматриваться как дубликаты.

При анализе текстовых данных аналитикам часто приходится иметь дело с повторяющимися записями. Например, предположим, что вы объединяете результаты нескольких анкет, содержащих схожие вопросы. Предположим, что данные собраны разными способами (с применением разных методик), и существует вероятность того, что некоторые данные дублируются. Вместо того, чтобы проверять данные самостоятельно, что крайне непрактично, если вы работаете с таблицами большого объема, вы можете использовать узел Уникальные тексты, чтобы удалить повторяющиеся данные прежде, чем приступать к анализу.

Удаление повторяющихся записей очень важно при анализе текста различными статистическими алгоритмами. Частота термина нередко является индикатором его значимости в пределах корпуса текстов (ряда документов). Если дубликаты присутствуют и не фильтруются специальными средствами, например, такими, как этот узел, то статистические выводы алгоритмов, используемых в ходе дальнейшего анализа, и отчеты, созданные различными инструментами, будут содержать искаженную информацию. Например, частота термина сильно искажает результаты таких узлов, как Связь терминов, Кластеризация текстов и Извлечение ключевых слов. Подобно тому, как неисправленные орфографические ошибки приводят к недостаточной репрезентации некоторых терминов, дублирующийся контент приводит к избыточной репрезентации отдельных терминов.

Алгоритмы определения степени схожести документов в системе PolyAnalyst в настоящее время учитывают только посимвольное, но не семантическое, сходство текстов. Другими словами, документ о собаках и документ о семействе псовых не будут считаться схожими документами, поскольку с точки зрения их буквенного состава, собака и пес – разные слова. Если вы хотите исследовать семантическое сходство текстов, попробуйте использовать узел Кластеризация текстов. Вы также можете выполнить предварительную обработку данных, собрав термины в объединенные гиперонимические ряды (гипероним – тип понятийных отношений между терминами, в которых одно понятие – это "тип" другого понятия). Например, и собака, и пес могут входить в класс животные. Получив гиперонимические ряды, можно продолжить исследование текста и удалить дубликаты.

Фильтрация повторяющихся документов

Чтобы сравнить две записи и определить, являются ли они дубликатами, узел Уникальные тексты использует значение текстовой колонки из каждой записи. Сравнение является нечетким в том смысле, что два значения не должны быть 100%-но идентичными по форме и содержанию. Схожесть между двумя значениями зависит от наличия повторяющихся в записях последовательностей символов.

Узел Уникальные тексты может быть полезен после импорта данных, в которых повторы записей весьма вероятны. Например, если вы использовали узел Интернет для импорта нескольких сотен документов из сети, то существует большая вероятность того, что некоторые веб-страницы являются копиями, поскольку некоторые вебсайты используют различные директории для хранения одного и того же контента. Таким же образом, если вы используете узел E-mail в качестве источника данных, существует вероятность того, что вы получите несколько копий одного и того же письма из рассылки, что приведет к искажению общей картины, например, при оценке значимости ключевых слов. Узел Уникальные тексты позволяет решить проблему повторяющегося контента. Однако он подходит не всегда. Если вам нужно отследить, кто и кому отправлял электронные письма, то в этом примере было бы непрактично удалять записи, содержащие схожее содержимое. В этом случае вам, возможно, придется изучить связи между людьми, используя все записи в таблице данных, и лишь затем выполнить анализ ключевых слов на основе подмножества уникальных записей из этой таблицы.

Если вы хотите очистить текст от повторяющихся в записях фрагментов вместо удаления целых строк, попробуйте использовать узел Удаление фрагментов.