Узел Замена терминов
dataset replaceterms big

Узел Замена терминов относится к узлам операций с колонками. Как и большинство других узлов этой группы, он принимает на входе таблицу данных, а выходными данными узла является измененная таблица данных. В ходе выполнения узла исходные записи не изменяются, изменяются лишь выходные колонки.

Хотя узел Замена терминов на скрипте может быть соединен с любым узлом, генерирующим таблицу данных, вам понадобится такая таблица, в которой есть как минимум одна текстовая колонка — только в этом случае вы сможете корректно настроить и выполнить узел. Ниже приведен типичный пример соединения с источником данных:

replace terms example input.rus

В этом примере таблица данных состоит из трех колонок, две из которых содержит информацию о поле и возрасте комментаторов, третья - текст. Эта таблица может быть использована в данном случае, поскольку она содержит как минимум одну текстовую колонку, с которой может работать узел Замена терминов. После соединения, настройки и выполнения узла Замена терминов его выходные данные будут выглядеть следующим образом:

replace terms example output.rus

Таблица выходных данных выглядит почти так же, как и исходная таблица, но теперь она содержит дополнительную колонку с именем Comment_rep, которая содержит результаты замен, выполненных во время выполнения узла.

На скрипте узел Замена терминов обычно расположен после узла, импортировавшего данные, и узлов, которые готовят данные. За узлом Замена терминов в цепочке обычно следуют аналитические узлы. На следующем рисунке приведен пример проекта, в котором узел Замена терминов используется для подготовки данных для последующего анализа.

replace terms example flowchart.rus

В этом примере первые несколько узлов импортируют данные с комментариями в проект PolyAnalyst. Таблица с комментариями объединяется с таблицей, содержащей демографические данные для того, чтобы впоследствии можно было исследовать возможные корреляции между данными двух таблиц. Затем узел Определение языка определяет язык каждой записи. Затем фильтруются комментарии не на английском языке. Далее используются два узла Замена терминов. Первый ищет в комментариях упоминания различных сокращений и аббревиатур и заменяет их соответствующими полными формами. Например, узел находит сокращения "IBM" или "I.B.M." и заменяет их на "International Business Machines". Затем измененный текст поступает во второй узел Замена терминов, где исправляются орфографические ошибки. Наконец, этот измененный текст поступает в несколько узлов текстовой обработки, которые выполняют статистический анализ и создают отчеты, раскрывающие важную информацию, содержащуюся в измененных комментариях.

Настройка узла Замена терминов

Свойства узла Замена терминов представлены на нескольких вкладках. Исходные колонки выбираются на вкладке Колонки. Вкладка Настройки позволяет задать правила поиска и замены терминов. Вкладка Общие одинакова для всех узлов в PolyAnalyst. Перейдите по ссылке, чтобы получить более подробное описание каждой опции на этой вкладке.

Выбор исходных колонок

Колонки, с которыми должен работать узел Замена терминов, настраиваются на вкладке Колонки. Вкладка выглядит следующим образом:

RT select cols.rus

Слева отображается список доступных колонок из исходной таблицы данных. Справа - список выбранных исходных колонок.

Чтобы выбрать исходную колонку:

  1. Найдите колонку в списке доступных колонок слева. Дополнительная информация по выбору колонок, фильтрации и сортировке списка колонок и др. представлена в разделе по выбору колонок. Список доступных колонок содержит только те колонки, которые могут быть использованы в качестве исходных колонок. К таким относятся только колонки со строковыми и текстовыми типами данных, поскольку узел Замена терминов может обрабатывать только строковые или текстовые колонки.

  2. Чтобы выбрать колонку, нажмите левой кнопкой мыши на имя колонки в списке доступных колонок.

  3. Нажмите на кнопку > для перемещения колонки в список колонок справа. Это действие позволяет выбрать колонку в качестве рабочей колонки узла Замена терминов.

Наименование выходных колонок

После того, как вы выбрали рабочую колонку, вы можете задать имя для выходной колонки узла, которая будет создана на ее основе. При перемещении исходной текстовой колонки в список выбранных колонок справа, PolyAnalyst автоматически присвоит ей имя, которое генерируется на основе имени исходной колонки. На рисунке выше колонка Comment уже перемещена в список справа. PolyAnalyst показывает выходное имя для исходной колонки в колонке Новое имя в списке выбранных колонок. Выходное имя нашей колонки — Comment_rep. Оно создано путем добавления суффикса "_rep" к имени исходной колонки.

Вы можете изменить предлагаемое имя. Для того, чтобы настроить выходное имя для исходной колонки:

  1. Найдите нужную колонку в списке колонок справа.

  2. Нажмите левой кнопкой мыши на значение имени в колонке Новое имя. Ячейка в таблице станет редактируемой, как на следующем рисунке, где имя, заданное по умолчанию, было изменено на Modified comment.

    RT modified name.rus
  3. Введите новое имя. Обратите внимание на то, что PolyAnalyst может ограничить количество символов при выборе нового имени. См. раздел по наименованию колонок.

  4. Нажмите Enter, чтобы изменения вступили в силу. Либо нажмите левой кнопкой мыши в любом месте окна.

Выбранные вами имена колонок могут не сохраниться, если вы удалите исходящее соединение с узлом Замена терминов, скопируете и вставите узел, либо выполните его на другой таблице данных. Если вы планируете изменить положение узла на скрипте, соединения узлов или заменить исходную таблицу данных, и если вы не хотите вводить новое имя для выходной колонки при каждом последующем использовании узла, целесообразно использовать имена колонок по умолчанию, и лишь затем изменить их с помощью узла Модификация колонок.
Исключение исходных колонок из выходной таблицы данных

По умолчанию узел Замена терминов создает выходную таблицу данных, в которую входят как исходные, так и сгенерированные узлом колонки.

Например, если исходная таблица данных состоит из одной колонки Comment, то выходная таблица будет состоять из двух колонок — Comment и Comment_rep.

Вы можете включить в выходные данные только новые колонки. Для этого нужно исключить исходные колонки из выходной таблицы.

Например, если исключить колонку Comment из выходных данных, таблица будет состоять только из колонки Comment_rep. Такое поведение алгоритма настраивается на вкладке Колонки.

Чтобы настроить узел Замена терминов так, чтобы не включать исходную колонку в выходные данные:

  1. Найдите колонку в списке выбранных колонок справа на вкладке Колонки.

  2. Включите опцию Исключить источник для конкретной колонки. По умолчанию эта опция отключена.

Обзор вкладки Настройки
RT options.rus

Вкладка Настройки разделена на семь основных областей, которые подробно описаны далее.

  • Имя правила - cписок правил в верхней левой части. Данная таблица, которая содержит колонки с номерами и названиями правил. Эта область далее будет обозначена как "список правил" или "верхний список правил".

  • Над списком правил находится панель инструментов с опциями добавления правил в список и удаления правил из него, а также некоторые другие опции, которые объясняются позже в данном разделе.

  • Под списком правил есть выпадающее меню Общие настройки. Здесь можно выбрать фрагмент текста, по которому будет выполняться поиск, настроить парсер, подключить журнал, в котором PolyAnalyst фиксирует отдельные замены. Общие настройки будут подробнее описаны ниже.

  • В верхнем правом углу находится поле Поисковое выражение. Здесь вводится искомая последовательность символов или слов.

  • Расположенное под поисковым выражением поле Замена позволяет ввести последовательность символов или слов, которыми необходимо заменить найденный фрагмент текста.

  • Ниже расположено выпадающее меню Настройки правила. Здесь доступны опции, которые относятся только к выбранному правилу.

    Пользователь может определить Настройки правила, выбрав подстроку, шаблон поиска или регулярное выражение. Дополнительные настройки правил (поиск с учетом регистра, поиск целого слова или текста и др.) описаны ниже.

  • В нижней части окна находятся еще две вкладки — Проверка правил и Библиотека правил. Вкладка Проверка правил позволяет проверить, работает ли правило, и какой результат оно позволяет получить. Библиотека правил содержит сохраненные пользователем правила, которые можно использовать в других узлах Замена терминов.

Краткие сведения об использовании правил в узле Замена терминов

В узле Замена терминов правилом называется особая последовательность команд поиска и замены текстовых фрагментов, которые имеют несколько настраиваемых свойств. Каждое правило имеет два основных свойства:

  1. критерии, которые позволяют найти в исходном тексте некоторый фрагмент;

  2. текст, который нужно вставить вместо найденного фрагмента, и который будет отображен в выходной таблице.

    Например, простейшее правило может искать в исходном тексте слово "принтеры" и заменять его на форму единственного числа "принтер".

Правила можно также называть шаблонами или операциями/командами поиска и замены текстовых фрагментов.

В процессе выполнения узел Замена терминов применяет одно или несколько правил к одной или нескольким исходным текстовым колонкам для того, чтобы создать одну или несколько выходных текстовых колонок. Данный процесс предполагает анализ каждого исходного значения по отдельности, применение каждого правила к исходному значению, и сохранение выходного значения в новой таблице данных. Чем больше правил нужно обработать, тем больше времени требуется на выполнение узла. Кроме того, скорость выполнения узла зависит и от количества исходных документов.

Правила применяются к исходному тексту в том порядке, в котором они перечислены в списке правил на вкладке Настройки. Чем ближе правило к началу списка, тем раньше оно будет обработано. Это называется "приоритетом правил". Вы можете изменить приоритет правил, используя опции Вверх и Вниз на панели инструментов, расположенной над списком правил на вкладке Настройки.

Создание правил

Чтобы создать новое правило, нажмите на кнопку button add на панели инструментов над списком правил. При этом PolyAnalyst добавит новое правило в верхнюю часть списка правил. Имя правила может быть отредактировано. По умолчанию PolyAnalyst просто присваивает правилам порядковые номера, однако рекомендуется сразу изменять названия правил так, чтобы они отражали их функционал. Название правила не влияет на процесс его применения, оно лишь помогает вам организовывать свою работу. Правила могут содержать крупные выражения, поэтому лучше использовать простое имя для обозначения конкретного правила. После того, как вы ввели имя нового правила (или если вы хотите использовать имя, заданное по умолчанию), сохраните его, кликнув в любом месте на вкладке Настройки или просто нажав клавишу Enter.

На следующем рисунке показан результат этого действия. В список правил добавлено новое правило, его имя можно отредактировать.

replace terms options new rule.rus

Для того, чтобы создать новое правило, вы также можете нажать на любое правило в списке правой кнопкой мыши и выбрать в открывшемся окне опцию Добавить. Обратите внимание на то, что в этом случае новое правило будет добавлено в список сразу после правила, на которое вы нажали правой кнопкой мыши. Когда вы используете кнопку button add, правило добавляется в конец списка. Как уже было сказано ранее, порядок правил в списке имеет важное значение, поскольку он определяет порядок применения правил. Таким образом, вместо того, чтобы использовать кнопку button add, а затем перемещать правило в нужное место в списке, опция Добавить позволяет сразу добавить новое правило в нужную позицию.

Правила можно переименовать в любой момент, следовательно, если вы ошиблись при вводе имени, вы можете вернуться к имени правила и отредактировать его. Кроме того, вы можете удалить созданное правило, если вы решите не использовать его, а также отключить правило без удаления, если вы решите не использовать его, но хотите сохранить настройку правила.

Имя правила не может содержать больше 255 символов. В имени правила можно использовать любые символы, т.к. имя дается только для справки и для удобства организации работы.

Следующим шагом после выбора имени для нового правила является редактирование выражения правила и других его свойств. При создании правила PolyAnalyst автоматически выбирает его в списке правил. Выражение редактируется в поле Поисковое выражение в верхней правой части окна. Обратите внимание на то, что при выборе другого правила в списке слева поле Поисковое выражение также изменится. После того, как вы создадите новое правило, его выражение будет пустым.

Переименование правил

Чтобы переименовать правило, найдите его в списке правил и нажмите на его имя левой кнопкой мыши два раза. Введите новое имя. Нажмите на клавишу Enter, либо нажмите левой кнопкой мыши в любом месте на вкладке Настройки, чтобы подтвердить изменения. PolyAnalyst не требует, чтобы имя правила было уникальным, это нужно исключительно для удобства пользователя.

Выбор правил из списка

В списке правил можно выбрать одно или несколько правил сразу. Чтобы выбрать одно правило, нажмите левой кнопкой мыши на имя правила в списке правил. Для выбора нескольких правил выберите одно правило в списке правил и, удерживая клавишу CTRL, выберите левой кнопкой мыши другие правила; или выберите одно правило в списке правил, а затем, удерживая клавишу SHIFT, нажмите на другое правило левой кнопкой мыши. В выборку будут добавлены все правила, которые находятся между двумя выбранными правилами. Для отмены выбора правила просто выберите другое правило, либо левой кнопкой мыши нажмите на имя выбранного правила, удерживая клавишу CTRL.

Настройки правила, расположенные под полем Замена, применяются только к выбранному правилу. Если выбрано несколько правил, то показываются опции для правила, которое было выбрано последним. Во избежание путаницы не рекомендуется редактировать выражения правил или другие их свойства, когда выбрано несколько правил.

Некоторые опции на вкладке Настройки (например, Вверх, Вниз и Удалить) применяются ко всем выбранным правилам.

Удаление правил

Чтобы удалить правило, нажмите на него правой кнопкой мыши в списке правил и выберите Удалить в открывшемся списке опций, либо нажмите левой кнопкой мыши на правило в списке правил, а затем нажмите на кнопку button remove на панели инструментов, расположенной над списком правил. Обратите внимание на то, что операция удаления применяется ко всем выбранным правилам в списке.

Включение и отключение правил

Каждое правило можно отключить. При работе узла Замена терминов обрабатываются только включенные правила. Вместо того, чтобы удалять правила, на настройку которых может понадобиться много времени, вы можете просто отключить правило, сохранить его и включить позже.

Все вновь созданные правила включены по умолчанию. Для отключения правила снимите знак галочки слева от имени правила в списке правил. Чтобы включить правило, вновь поставьте знак галочки рядом с именем правила. Чтобы отключить все правила, нажмите правой кнопкой мыши на любое правило в списке и выберите Отключить все. Чтобы вновь включить все правила, нажмите правой кнопкой мыши на любое правило в списке правил и выберите Включить все.

Обратите внимание, что вы можете редактировать свойства правила даже тогда, когда правило отключено. Если полученный результат совсем не соответствует вашим ожиданиям, например, если вы заметили, что какое-то правило не было применено к исходной текстовой колонке, как ожидалось, то для начала убедитесь, что правило включено.

Изменение порядка правил в списке

Как уже было сказано, порядок правил в списке имеет значение, поскольку от него зависит порядок обработки каждого правила в ходе выполнения узла. Это важно в том случае, когда к одной исходной текстовой записи применяются несколько правил замены. Для перемещения правила вверх по списку выберите правило, а затем нажмите на кнопку Вверх на панели инструментов над списком. Для перемещения правила вниз по списку, выберите правило, а затем нажмите на кнопку Вниз на панели инструментов над списком. Обратите внимание на то, что кнопки Вверх и Вниз перемещают все выбранные правила.

Импорт и экспорт правил

Список правил можно экспортировать в файл для сохранения внешней резервной копии, хранения или редактирования. Рекомендуется редактировать правила в самом узле Замена терминов. Однако пользователи, которым интерфейс узла кажется неудобным, могут использовать сторонние программы, такие как Microsoft NotePad или Microsoft Excel.

Экспорт списка правил позволяет пользователям повторно использовать настройку узла Замена терминов, или делиться с другими пользователями готовыми настройками узла. Список правил вместе со свойствами каждого правила хранится в экспортированном файле. Позже вы можете импортировать этот файл в другой узел Замена терминов в том же или в другом проекте, сэкономив время на настройку узла. Кроме того, с этой же целью вы можете скопировать настроенный узел и вставить его в этот же или в другой проект.

Экспорт правил также позволяет сохранить настройки списка правил при обновлении PolyAnalyst. Рекомендуется выполнять экспорт списка правил (или всего проекта полностью) перед обновлением версии PolyAnalyst.

Правила можно экспортировать в одном из двух форматов: ini и CSV. ini (от англ. initialization file) — часто используемый в Windows формат для хранения исходных настроек программ. Синтаксис ini-файлов в данной документации не рассматривается. За дополнительной информацией обратитесь к документации Microsoft. CSV (от англ. comma separated values) — значения, разделенные запятой. Файлы этого формата используются узлами CSV и Экспорт в CSV. CSV-файлы хранят информацию в табличной форме, их можно открывать и редактировать в Microsoft Excel и в ряде других инструментов для редактирования баз данных. Форматы ini и CSV сохраняют информацию в простой текстовой форме, в связи с чем они не являются масштабируемыми и не подходят для хранения тысяч правил. Однако эти форматы удобно редактировать в сторонних программах. Прежде чем экспортировать список правил с целью его редактирования в сторонней программе, помните, что, во-первых, в PolyAnalyst вы можете редактировать список, состоящий из тысяч правил. А во-вторых, это позволит вам избежать ошибок при вводе данных, поскольку при внутреннем редактировании правил вероятность возникновения таких шибок минимальна. Если подобная ошибка возникает при внешнем редактировании, найти и устранить источник возникшей проблемы впоследствии будет очень трудно.

Для того, чтобы экспортировать список правил в файл формата ini или CSV, нажмите на кнопку button export на панели инструментов над списком правил, в выпадающем меню выберите Экспорт в CSV или Экспорт ini-файла. Откроется окно Экспортировать правила. Отметьте галочкой правила, которые необходимо экспортировать. Затем нажмите на кнопку Экспорт в нижней части окна Экспортировать правила. Процесс экспорта на экране не отображается. Дождитесь завершения процесса. PolyAnalyst не предупреждает о завершении экспорта. Обычно операция экспорта завершается быстро даже при работе с тысячами правил. В случае возникновения ошибки на экране появится сообщение об ошибке. В случае возникновения ошибки в ходе экспорта файла свяжитесь с технической поддержкой компании Мегапьютер. Рекомендуется не открывать файл в стороннем приложении сразу после экспорта файла, поскольку если PolyAnalyst не успеет завершить операцию экспорта к тому моменту, как стороннее приложение попытается открыть файл, на экране появится сообщение об ошибке экспорта.

При экспорте ini-файла PolyAnalyst экранирует символы и ожидает корректно экранированные значения при импорте.

Для импорта списка правил нажмите на кнопку button import на панели инструментов над списком правил, в выпадающем меню выберите Быстрый импорт или Мастер импорта:

  • Если вы выбрали Быстрый импорт, найдите и выберите файл для импорта и нажмите Открыть. Дождитесь завершения операции импорта. Процесс импорта не имеет индикатора выполнения. Программа не сообщает о завершении импорта. Обычно операция импорта завершается в течение нескольких секунд, но может занять больше времени при импорте тысяч правил.

  • Если вы выбрали Мастер импорта, то откроется окно Импорт, состоящее из нескольких вкладок, где настраивается вид загружаемых данных. На вкладке Информация данного окна содержится подробная информация о настройках импорта правил замены терминов.

Редактирование выражения правила

Выражение правила редактируется в текстовом поле Поисковое выражение. Для просмотра или редактирования выражения правила выберите правило в списке правил. Введите выражение в поле Поисковое выражение. Ваши изменения будут автоматически сохранены.

Для правил существует 3 типа синтаксиса. Другими словами, существует три различных типа правил, которые вы можете создать. Можно создать правила поиска и замены на основе подстроки, шаблона поиска или регулярных выражений. Интерпретация текста, который вы вводите в текстовом поле Поисковое выражение, зависит от того, какой тип правила вы используете. Тип поиска настраивается в меню Тип поиска в поле Настройки правила. По умолчанию используется Регулярное выражение.

Правила на основе подстрок позволяют выполнять простой буквенно-цифровой поиск. Такой поиск вы выполняете в любой поисковой системе в Интернете, например, в Google, или при использовании операций Найти и Заменить в Microsoft Word.

Шаблоны поиска, также, как и регулярные выражения, позволяют выполнять поиск различных последовательностей символов (шаблонов). Синтаксис шаблонов поиска проще, чем синтаксис регулярных выражений. Он описан в разделе, посвященном PDL-функции wildcard (Справочник PDL). Синтаксис масок в PolyAnalyst создан на основе стандартизованного и известного синтаксиса, который используется во многих программных продуктах. На сайте Microsoft можно ознакомиться с наиболее часто используемыми шаблонами поиска.

Синтаксис стиля регулярных выражений — стандартизованный синтаксис PERL на основе POSIX.

Редактирование выражения в поле Замена

Выражение в поле Замена позволяет записать текст, который затем будет вставлен вместо фрагмента, найденного поисковым запросом. При выполнении операций Найти и Заменить в Microsoft Word аналогичную функцию выполняет команда Заменить на.

Обратите внимание на то, что когда вы работаете с регулярными выражениями, у вас есть возможность ссылаться на фрагменты найденного текста. См. документацию по синтаксису Perl по ссылке выше.

Ссылки на фрагменты найденного текста позволяют выполнять более сложные замены, например, замену всех форм слова в единственном числе эквивалентом во множественном числе. Например, можно заменить каждое вхождение слова doghouse фразой dog house.

Опции просмотра выражений

Поле Поисковое выражение и Замена имеют кнопку просмотра регулярных выражений Показать, которая содержит следующие опции:

rule view options.rus
  • Разрешить перенос на другую строку - позволяет переносить текст на следующую строку;

  • Показать миникарту - отображает в верхней правой части окна миникарту регулярного выражения;

  • Отображать пробелы - обозначает пробелы в выражении серыми точками;

  • Отображать отступы - обозначает отступы в выражении при помощи серых вертикальных черт;

  • Увеличить - увеличивает шрифт выражения;

  • Уменьшить - уменьшает шрифт выражения;

  • Сбросить - сбрасывает все операции по увеличению и уменьшению шрифта и возвращает исходный размер шрифта.

Опции в разделе Общие настройки

Настройки данной группы относятся ко всем правилам, которые узел обрабатывает во время выполнения.

common options.rus

В разделе Применять правила к имеется четыре опции: Текст, Абзац, Предложение и Строка. По умолчанию выбрана опция Текст. Эта опция указывает, как PolyAnalyst должен (и должен ли) разбивать исходное текстовое значение на более мелкие фрагменты для обработки правил. Если выбрана опция Текст, PolyAnalyst не разбивает исходный текст на менее крупные части. Если выбрана опция Абзац, PolyAnalyst сначала разобьет текст на абзацы, а потом применит правила к каждому абзацу по отдельности. Аналогично PolyAnalyst поступит с предложениями и строками, если подключить соответствующую опцию.

Обратите внимание на разницу между мягким и жестким разрывом строки. Алгоритм разбиения строк выполняет разбиение текста, если имеется жесткий разрыв строк (имеет место при нажатии клавиши Enter). Мягкие разрывы строк, которые появляются из-за того, что большинство программ для редактирования текста делают перенос по словам, не считаются фактическими разрывами строк.

Дополнительные опции парсинга абзацев и предложений в PolyAnalyst, используемые, если включена одна из опций, представлены на вкладке Настройки парсера (см. раздел по настройке Парсера в узле Индекс).

Включите опцию Заменить только при первом совпадении, чтобы PolyAnalyst автоматически переходил к следующей исходной текстовой записи после того, как будет найдено первое соответствие внутри исходного текста. Эта опция отключена по умолчанию, и PolyAnalyst выполняет замены всех фрагментов исходной текстовой записи, которые отвечают условиям поиска. Очевидно, что в некоторых записях искомые текстовые фрагменты могут встречаться несколько раз. При включении этой опции только первое соответствие правилу в исходном тексте будет заменено новым текстовым фрагментом.

Опция Заменить самое длинное соответствие позволяет узлу заменить новым фрагментом только самое длинное из найденных в исходном тексте соответствий.

Опция Копировать только найденное управляет тем, как PolyAnalyst поступает с текстом после обнаружения искомых фрагментов и их замены. Опция по умолчанию отключена. Если эта опция отключена, то и измененный, и исходный текст включаются в выходные данные. Если эта опция включена, то в выходной колонке отображается только измененный текст (замена).

Включите опцию Сохранить журнал выполнения узла, чтобы PolyAnalyst записывал подробную информацию о каждой замене. По умолчанию опция выключена. Для того, чтобы хранить подробную информацию о выполнении узла, потребуется дополнительное место на диске. Однако такая информация может быть очень полезна при оценке работы узла. Вы можете включить опцию при настройке узла, использовать его в ходе апробации узла, а затем, когда скрипт будет полностью готов к работе, можно отключить опцию с тем, чтобы сэкономить время и место на диске.

Опция Выполнять правила последовательно позволяет обновлять исходную строку после каждого правила, в результате чего следующее правило работает уже с новой строкой.

Например, мы имеем дело с текстом AABB и задаем две замены — 1) AA → CC и 2) CB → XY.

  1. При настройках, используемых по умолчанию, на данном тексте сработает только первое правило, в результате в выходной колонке отобразится текст CCBB.

  2. При последовательном выполнении сначала выполняется первая замена CCBB, затем на основе нового текста выполняется вторая замена. В выходной колонке отобразится текст CXYB.

Такое поведение может быть удобно в некоторых аналитических проектах, даже несмотря на то, что время выполнения узла в таком случае может значительно увеличиться.

Опции в разделе Настройки правила
rule options.rus

Для того, чтобы поиск выполнялся с учетом регистра, включите опцию Учитывать регистр. По умолчанию опция выключена; она настраивается для каждого правила отдельно.

Для того, чтобы узел находил только целые слова (если выполняется поиск с помощью подстроки), включите опцию Слово целиком. Опция выключена по умолчанию и настраивается для каждого правила отдельно. Если опция выключена, то, например, выражение compound найдет текст "compoundword". Если опция включена, это слово не будет найдено, т.к. правило проверяет наличие отдельного слова в тексте, а не просто наличие подстроки где-либо в тексте.

Опция Весь текст действует аналогичным образом: замена выполняется только в том случае, если весь текст целиком удовлетворяет условию поискового выражения.

Включите опцию Сохранять регистр для сохранения исходного регистра найденного текста в исходных данных. Опция выключена по умолчанию и настраивается для каждого правила. Эта опция управляет тем, как PolyAnalyst вставляет текст замены, заданный выражением в поле Замена в выходной текст. Например, если эта опция включена, а в исходном тексте используются символы в верхнем регистре, то выходной текст также будет сохранен в верхнем регистре.

Опция Искать в пределах одного слова используется во время поиска с помощью масок. При активации опции маски для любого одиночного символа (?), нуля или нескольких символов (*) не находят пробелы.

Две последние опции в списке могут быть использованы при работе с регулярными выражениями.

Чтобы игнорировать все пробелы в правиле, отметьте галочкой опцию Игнорировать пробелы. PolyAnalyst может игнорировать символы управления (пробелы, абзацы, табуляция), которые используются в регулярных выражениях. Чтобы найти эти символы, нужно использовать одиночные символы и классы символов.

Например, правило для нахождения слова, перед которым стоит артикль the, должно выглядеть как the\s\w+ - а не - the \w+ - . Обратите внимание, что \s используется для нахождения символа пробела. Однако это поведение по умолчанию можно изменить, отключив опцию Игнорировать пробелы.

Опция Точка находит символ новой строки позволяет с помощью метасимвола . (точка) находить любой одиночный символ, включая символ новой строки.

Вкладка Библиотека правил

Вкладка Библиотека правил расположена в нижней части вкладки Настройки. Здесь отображается список наиболее часто используемых правил. Вы можете отфильтровать этот список, используя меню Коллекция над библиотекой правил. В библиотеке представлены примеры регулярных выражений, синтаксис регулярных выражений, синтаксис замен и синтаксис масок, которые могут быть использованы при составлении правил замены.

rules library.rus

Чтобы добавить какое-либо правило из библиотеки в список правил, нажмите на имя правила в библиотеке левой кнопкой мыши дважды. PolyAnalyst добавит это правило в конец списка правил. Любой пример из библиотеки может быть использован несколько раз. Обратите внимание на то, что если вы используете одно и то же правило из библиотеки несколько раз, используется одно и тоже имя правила. Во избежание путаницы рекомендуется использовать уникальные имена правил.

Второй способ вставить правило из библиотеки в список правил - это нажать на правило в библиотеке левой кнопкой мыши и выбрать опцию Добавить в список правил в открывшемся меню или нажать add to library button на верхней панели инструментов.

Пользователи могут не только использовать правила, сохраненные в библиотеке, но и добавлять в нее новые правила и их наборы.

Чтобы создать новый набор, нажмите на кнопку Создать над библиотекой правил, которые могут быть применены к выбранной колонке. Откроется окно для ввода имени нового набора правил. Введите имя и нажмите ОК. В коллекцию будет добавлен новый набор правил. Вы можете создать любое количество дополнительных наборов правил (однако, если их будет несколько сотен, производительность узла может снизиться).

Чтобы создать копию набора, сначала выберите нужный набор в меню Коллекция, расположенном на вкладке Библиотека правил. Затем нажмите Сохранить как. Введите имя нового набора и нажмите Сохранить.

Чтобы удалить набор, выберите его в меню Коллекция и нажмите Удалить. Нажмите Да, если программа попросит подтвердить удаление. Рекомендуется не удалять из библиотеки наборы правил, используемые по умолчанию.

Чтобы удалить правило из набора, откройте меню Коллекция, выберите правило в наборе, а затем нажмите на кнопку button remove на верхней панели инструментов над списком правил или нажмите на правило в библиотеке правой кнопкой мыши и выберите опцию Удалить в открывшемся меню.

Вы можете изменить порядок правил в наборе. Помните, что он не влияет на работу узла. Изменение порядка правил в коллекции может потребоваться исключительно в целях их удобной организации. Чтобы изменить порядок следования правил, используйте кнопки Вверх и Вниз на панели инструментов, расположенной над списком правил.

При необходимости вы можете сохранить созданные или отредактированные правила в списке правил (верхний список) и использовать их при настройке других узлов или для справки. Для этого нужно вставить созданное вами правило в набор. Чтобы вставить правило в набор:

  1. Выберите набор из меню Коллекция, если он еще не выбран. Правило будет добавлено в выбранный набор правил, поэтому сначала необходимо выполнить именно эту операцию.

  2. Правой кнопкой мыши нажмите на правило в списке правил (верхний список) и выберите опцию Добавить в библиотеку или нажмите add to library button на верхней панели инструментов, выбрав правило.

  3. Каждое правило в наборе должно иметь уникальное имя. В верхнем списке правил такое ограничение отсутствует. В связи с этим, когда вы пытаетесь добавить правило в коллекцию, PolyAnalyst сначала проверит, не существует ли правило с таким именем. Если такое правило уже существует, то вам будет предложен выбор из трех опций:

    1. Заменить — эта опция заменяет правило в наборе новым правилом из вашего списка. Выполняется замена существующего правила. Эта операция аналогична замене одного файла другим.

    2. Переименовать и добавить — эта опция позволяет автоматически переименовать правило путем добавления к его имени уникального числового суффикса, а затем добавляет правило в коллекцию. Например, если правило в верхнем списке называется Rule, при выборе опции Переименовать и добавить оно будет добавлено в коллекцию под именем Rule(1).

    3. Пропустить это правило — эта опция отменяет операцию добавления.

    4. Поставьте галочку для опции Применить выбранное ко всем, если хотите, чтобы выбранное вами действие применялось ко всем выбранным в верхнем списке правилам при их добавлении в библиотеку. Опция Добавить в библиотеку добавляет все выбранные правила в выбранный набор правил в библиотеке. Если в вашем списке правил выбрано только одно правило, вы можете проигнорировать эту опцию. Она актуальна в тех случаях, когда вы добавляете в библиотеку несколько сотен правил. Если при этом вы пытаетесь добавить в библиотеку правило, имя которого совпадает с именем, которое уже присутствует в библиотеке, PolyAnalyst будет всякий раз открывать окно для выбора действия, которое необходимо выполнить, и на это может уйти много времени. Включение опции Применить выбранное ко всем позволяет автоматически применять указанное действие ко всем выбранным правилам при их добавлении в библиотеку.

  4. PolyAnalyst добавляет правило в библиотеку.

  5. Обратите внимание, что добавленное правило — копия правила, сделанная в тот момент, когда правило было добавлено в коллекцию. Дальнейшие изменения правила в верхнем списке правил не будут автоматически применены к тем правилам, которые уже были добавлены в библиотеку. Вы можете в любой момент отредактировать правило после того, как оно было добавлено в библиотеку.

Если при добавлении правила вы допустили ошибку, вы можете удалить правило (или несколько правил) из библиотеки.

При удалении правил помните о том, что ваши коллеги, возможно, тоже используют эту же библиотеку правил. В связи с этим рекомендуем не удалять правила из библиотеки. Вместо этого вы можете создать копию нужной коллекции правил и редактировать ее по мере необходимости. Ваши коллеги, которые имеют доступ к проекту, в котором используется узел Замена терминов, смогут использовать и вашу коллекцию правил. Помните, что они также могут и редактировать все правила в коллекции.

Проверка правил до запуска узла Замена терминов

При работе с сотнями правил и миллионами записей на выполнение узла Замена терминов может потребоваться значительное количество времени. Некоторые выражения для поиска и замены отдельных слов или фрагментов текста могут быть сложными для восприятия и интерпретации. В связи с этим перед выполнением узла рекомендуется выполнять проверку правил, чтобы убедиться, что вы используете корректный синтаксис, и что правило позволяет вам получить нужный результат. Для этого переключитесь на вкладку Проверка правил в нижней части вкладки Настройки.

Вкладка Проверка правил разделена на три зоны: панель инструментов (с одной кнопкой Выполнить проверку), поле для ввода исходного текста, к которому будет применено правило, и поле для выходного текста, в котором будет показано, как будет выглядеть текст после того, как все правила замены из верхнего списка будут применены к исходному тексту.

Процесс проверки правила предполагает выполнение следующих действий:

  1. Введите пример текста в левую текстовую область на вкладке Проверка правил. Выберите текст, к которому будут применяться ваши правила.

  2. Нажмите на кнопку button run test на панели инструментов сверху от той области, в которую вы ввели текст.

  3. Изучите выходной текст в текстовой области в правой части вкладки Проверка правил. Если в выходном тексте не выполнены все замены, которые вы рассчитывали выполнить с помощью заданных правил, это означает, что выражение в поле Поисковый запрос для одного или нескольких правил не работает так, как ожидалось. Вы можете попытаться исправить проблему: возможно, вы нарушили синтаксис при составлении выражения (при необходимости обратитесь снова к справочникам по синтаксису), или использовали неправильные настройки правила (например, проверьте, чувствительно ли правило к регистру).

  4. Обратите внимание на то, что при проверке правил выполняются те же действия, что и при запуске узла.

  5. На проверку правил обычно требуется несколько секунд. При работе с тысячами правил проверка может занять больше времени.

Примечание по изменениям функционала в узле Замена терминов в версии PolyAnalyst 6.0.1162

Функционал узла Замена терминов в версии PolyAnalyst 6.0.1162 значительно изменился. Если вы использовали узлы замены терминов в более ранних версиях PolyAnalyst, вам понадобится выполнить дополнительные действия при обновлении PolyAnalyst для того, чтобы сохранить использованные ранее настройки. Между старой и новой версиями узлов замены терминов имеются некоторые важные различия. Если вы импортируете проект из более старой версии, PolyAnalyst импортирует проект и сохранит в проекте старый узел замены терминов вместе с устаревшим окном настроек. Настройки узла, сделанные вами, не удаляются. Однако при создании нового узла замены терминов узел появится в той форме, в которой он присутствует в последней версии. Рекомендуется экспортировать список правил из старого узла и затем импортировать его в новый узел.