Настройка узла Параметры

Окно настроек узла Параметры состоит из двух вкладок: Распределение параметров и Общие.

parameters defaults new.rus

Если колонки таблицы данных родительского узла называются так же, как и параметры узла, то дополнительная настройка узла Параметры не требуется.

В противном случае переключитесь на вкладку Распределение параметров. Интерфейс данной вкладки достаточно простой. В левой части окна находится список узлов, которые могут принимать узел Параметры. Используйте поле Фильтр для быстрого поиска. В правой части находится таблица с парами "параметр + колонка таблицы данных" со следующими колонками:

  • Параметр – собственно сам параметр. Доступные параметры зависит от того, с каким узлом соединяется узел Параметры в качестве родительского. Обязательные параметры отмечены символом * красного цвета.

  • Входная колонка – колонка родительского узла Параметры, по которому настраивается параметр;

  • По умолчанию – значение параметра по умолчанию.

После выбора соответствующего узла в списке слева можно перейти к настройке пар. Для каждого узла имеется определенный набор параметров. Используйте выпадающий список, чтобы назначить колонку для параметра.

Некоторые узлы имеют общие параметры, поэтому вы можете настроить узел Параметры сразу для нескольких узлов.

Вкладка Общие позволяет изменить название и описание узла.

Работа со значениями по умолчанию

Колонка По умолчанию имеет большое значение для работы узла Параметры и его дочерних узлов. Для упрощения понимания рассмотрим несколько примеров:

1. Пустая строка в исходной таблице данных

Если исходная таблица данных содержит пустую строку, либо значение ее не определено, для дальнейшего анализа используется значение по умолчанию из узла Параметры.

На скриншоте ниже в родительском узле Файлы CSV в строке Entity 3 имеется пустая ячейка:

example csv

Предположим, что мы используем узел Параметры для дальнейшей работы с узлом Извлечение сущностей. Колонку По умолчанию в таблице на вкладке Распределение параметров также оставляем пустой:

window properties entity extraction.rus

Если в дальнейшем мы попытаемся выполнить узел Извлечение сущностей, система предупредит нас, что в настройках XPDL-правила имеется ошибка:

window xpdl error.rus

Мы не сможем закрыть окно настроек узла Извлечение сущностей сразу или до тех пор, пока не нажмем кнопку Отмена, либо каким-то образом не исправим ошибку.

Однако как только мы укажем значение в колонке По умолчанию узла Параметры (например, тест), все пустые ячейки соответствующей колонки получат данное значение.

В результате мы сможем выполнить узел Извлечение сущностей без ошибок.

2. Выбор цвета

Предположим, что мы хотим установить определенный цвет для выделения сущностей в дочернем узле Извлечение сущностей. Для этого нажмите на поле в колонке По умолчанию для вызова цветовой палитры. Выбранный цвет будет применен к сущностям в узле Извлечение сущностей:

window properties entity extraction color.rus

3. Настройка имени параметра

Если имя колонки не задано, используйте колонку По умолчанию для параметра Name. Если родительский узел работает с многострочными параметрами, включая параметр Name, узел Параметры принимает его как шаблон и добавляет индекс (например, Entity 1, Entity 2 и т.д.).

Дополнительные настройки

Выбор дополнительных настроек по большей части зависит от того, какой узел соединен с узлом Параметры в качестве дочернего. Список разбит по категориям:

1. Источник данных

Выберите колонку для параметра URL, в которой содержатся ссылки.

Выберите колонку для параметра Filter, где вы можете указать фильтр для URL-адресов, используя регулярное выражение. Отметьте чекбокс Применять без сортировки, чтобы не сортировать введенные URL-адреса.

Опция Удалить старые URL. Принимать ссылки только из узла Параметры позволяет удалить все старые значения и сохранить только новые. Если отключить данную опцию, узел Параметры не будет удалять старые URL, добавив в список дочернего узла Интернет новые значения.

По умолчанию узел Параметры не выполняет сортировку списка URL в дочернем узле. Если вы хотите упорядочить элементы списка по возрастанию, уберите галочку рядом с опцией Применять без сортировки.

В выпадающем списке выберите входную колонку для параметра Folder. При необходимости введите путь по умолчанию в соответствующем поле.

Опция Очистить старые папки регулирует взаимодействие между путями, которые были сохранены в узле Параметры, и уже существующими путями в дочернем узле Файлы. Если опция включена, применяются только файлы/папки из узла Параметры, а соответствующее поле в окне настроек узла Файлы становится неактивным. В противном случае все источники включаются в список, который можно редактировать.

File – единственный параметр, используемый для данного узла. Выберите колонку, которая содержит информацию об имени файла или пути до папки.

Выберите колонку для параметра File, в которой указано имя файла MS Excel. Вспомогательный параметр Sheet Index используется для определения номера страницы. Нумерация начинается с 1.

При работе с данным узлом используется параметр Connection string. Выберите колонку, в которой содержится строка для запроса соединения с узлом ODBC.

Вторым обязательным для настройки параметром выступает Query. Он характеризует запрос для доступа к базе данных. При настройке узла ODBC через узел Параметры доступ к базе данных всегда осуществляется через введенное вручную SQL-выражение.

Mode определяет разрядность узла ODBC:

  • 0 – нативный режим (используется по умолчанию);

  • 32 – 32-разрядный драйвер;

  • 64 – 64-разрядный драйвер.

RSS

Выберите колонку для параметра RSS, в которой содержатся сведения о веб-каналах.

XML

Выберите колонку для параметра File, в которой указано имя файла.

Параметры узла Объединенный поиск могут быть изменены при работе с библиотекой ClinicalTrials.gov. Используйте выпадающее меню, чтобы указать исходные колонки для параметров поиска по ClinicalTrials.gov.

Параметры узла Ручной ввод могут быть изменены для представления необработанных данных, имеющих JSON-структуру.

В этом случае скрипт будет выглядеть следующим образом:

parameters mi flowchart.rus

В первом узле Ручной ввод мы указали колонку с данными в формате JSON. Давайте взглянем на приведенный ниже пример.

parameters mi json.rus

Данная колонка, как было указано ранее, может быть представлена в виде таблицы с использованием узла Параметры.

Для этого откройте настройки узла Параметры и выберите узел Ручной ввод в списке слева. Затем выберите колонку-источник данных, т.е. колонку с JSON-данными в исходном узле, в параметре Data source.

parameters mi properties.rus

Вы также можете изменить порядок колонок, введя их заголовки в колонке По умолчанию параметра Columns order.

Параметр Columns order является необязательным, поэтому вы можете оставить поле пустым. В таком случае заголовки колонок взятые из ключей оригинального JSON будут отображаться в алфавитном порядке.

Названия колонок должны быть указаны с использованием квадратных скобок и кавычек, например ["size", "fruit", "color"], как показано ниже.

parameters mi order.rus

Вы можете ввести одно или два значения, например ["size"] или ["size", "fruit"] (остальные значения будут введены автоматически в алфавитном порядке), или все значения, как показано выше. Вы также можете указать данные значения в дополнительной колонке узла Ручной ввод перед использованием узла Параметры.

parameters mi columns.rus

Таким образом, вы сможете выбрать колонку из исходного набора данных в качестве значения параметра Columns order.

parameters mi config.rus

Задайте параметры для колонки, в которой будет представлена последовательность чисел, и имя самой колонки.

param numer seq.rus

2. Манипуляции с данными

Оба параметра для данного узла являются обязательными. Выберите колонку для параметра Rule, в которой содержится правило. Fraction характеризует распределение записей.

Выберите колонку для параметра Rule, в которой содержится правило для создания колонки. Вспомогательный параметр Name определяет имя колонок.

Для каждого из этих двух узлов имеется три дополнительные опции, которые включаются галочками:

  • Добавлять новые правила из узла Параметры – узел Параметры добавляет все новые правила;

  • Удалять правила, отсутствующие в узле Параметры – узел Параметры удаляет правила, которые не включены в узел Параметры;

  • Обновлять правила, включенные в узел Параметры. Правила будут заменены в соответствии с узлом Параметры – узел Параметры обновляет только те правила, которые включены в параметры.

Эти опции можно сочетать в зависимости от цели анализа. Однако необходимо выбрать как минимум одну опцию. Если выбрать все три опции, узел Параметры перезапишет все правила узла Параметры. Сочетание этих трех опций является способом фильтрации правил.

Опция Использовать многострочный режим позволяет объединять правила с помощью параметра Concat. Если отключить данную опцию, узел Параметры будет использовать только первый параметр.

Опция Type позволяет выбрать метод создания выборки. Параметр Sample size является обязательным и требует выбора входной колонки.

3. Анализ текстов

Для каждого из этих пяти узлов доступны четыре дополнительные опции с флажками:

  • Отключить стандартные сущности. Применить только пользовательские сущности – узел Параметры отключает все стандартные сущности в дочернем узле. Данная опция используется в том случае, когда необходимо работать только с пользовательскими сущностями.

  • Добавлять новые сущности из узла Параметры – узел Параметры добавляет все новые сущности;

  • Удалять сущности, отсутствующие в узле Параметры – соответственно, узел Параметры удаляет сущности, которые не включены в узел;

  • Обновлять сущности, включенные в узел Параметры. Сущности будут заменены в соответствии с узлом Параметры – узел Параметры обновляет только те сущности, которые включены в параметры.

Эти опции можно сочетать в зависимости от цели анализа. Однако необходимо выбрать как минимум одну опцию.

Для данного узла доступны четыре дополнительные опции с флажками:

  • Добавлять новые термы из узла Параметры – узел Параметры добавляет все новые термы;

  • Удалить термы, которые не представлены в узле Параметры – соответственно, узел Параметры удаляет термы, которые не включены в узел;

  • Обновить текущие термы. Сущности будут переписаны из узла Параметры – узел Параметры обновляет только те термы, которые включены в параметры;

  • Отключить стандартные термы – узел Параметры отключает все стандартные термы в дочернем узле. Данная опция используется в том случае, когда необходимо работать только с пользовательскими термами.

При работе с данным узлом используются следующие параметры:

  • Level – уровень одного или нескольких узлов в дереве;

  • Name – имя узла;

  • Expression – выражение, описывающее условия для объединения исходных записей в категорию;

  • Type – режим классификации (Обобщить, А-Е);

  • Column – колонка по умолчанию;

  • Description – описание выражения;

  • Accuracy – условия для контроля качества выражения;

  • Parent – родительский узел для выражения. Позволяет создать двухуровневое дерево таксономии;

  • Level01Name-Level10Name (LevelNName) – определяет соответствующий уровень дерева. Начиная с Level02Name и далее, обязательным условием является настройка предыдущего уровня.

Параметры Level, Parent и LevelNName имеют следующий порядок приоритета: Level, Parent и LevelNName. Например, после того, как вы настроите параметр Level, два других будут игнорироваться.

4. Экспорт данных

При определении параметров для узла Экспорт в изображение в обязательном порядке настраиваются следующие элементы:

  • File export path – выберите колонку родительской таблицы данных, значение которой определяет путь до папки назначения.

  • Extension – выберите колонку родительской таблицы данных, значение которой указывает на формат экспортируемого файла. Допустимые значения, которые могут быть обработаны узлом, – "PDF" и "PNG" в любом регистре.

Дополнительно вы можете:

  • Установить разрешение экрана, указав колонки целочисленного типа для параметров Width (ширина) и Height (высота).

  • Настроить поведение узла при возникновении конфликта имен, указав колонку булева типа для параметра Overwrite file if exists (заменить существующий файл).

  • Добавить шаблон имени файла, указав колонку строкового типа для параметра File name pattern (шаблон имени файла). Для создания динамического имени используйте следующие сочетания символов:

    • \P – имя родительского узла;

    • \N – имя узла;

    • \T – время экспорта;

    • \D – дата экспорта.

      По общему правилу имя файла не должно содержать следующих знаков: \ / : * ? " < > |.

При подключении узла Параметры к узлу Экспорт в изображение в качестве родительского все настроенные параметры будут автоматически применены и зафиксированы в дочернем узле. Соответствующие поля в окне настроек дочернего узла станут неактивными, исключая возможность изменения текущих значений пользователем.

При работе с данным узлом используется параметр Connection string. Выберите колонку, в которой содержится строка для запроса соединения с узлом ODBC.

Вторым обязательным для настройки параметром выступает Table. Он характеризует имя таблицы в базе данных, в которую выполняется экспорт.

Дополнительно используются следующие параметры:

  • Convention – используется для выбора шаблона определения синтаксиса в базе данных для обозначения таблицы (по умолчанию – "OWNER"."TABLE");

  • Uppercase – определяет чувствительность к верхнему регистру;

  • Owner – определяет владельца таблицы, например, "sys";

  • Write mode – режим записи колонок в базу данных:

    • 0 – добавить данные (используется по умолчанию);

    • 1 – удалить строки;

    • 2 – удалить таблицу.

  • Bulk insertion – статус режима блочной вставки (по умолчанию – нет);

  • Bulk buffer – количество строк в буфере блока;

  • Commit – определяет поведение при коммите:

    • 0 – вся таблица;

    • 1 – каждая строка;

    • 2 – согласно настройке сервера.

При конфигурации узла Экспорт в MS Word вам необходимо настроить 4 обязательных параметра, а именно:

  • Use template

  • Export to

  • ColumnLeft

  • ColumnnRight

Параметр Use template позволяет вам указать файл-шаблон, т.е. пример, который будет использоваться в качестве схемы для импорта данных. Убедитесь, что вы указываете полный путь к файлу, например, C:\Megaputer Intelligence\PolyAnalyst 6.5 Server 64-bit\Dictionaries\v70\Common\UserSettings\MsWord\template_table.docx.

Параметр Export to определяет директорию для экспорта, т.е. место, куда будут экспортироваться результирующие файлы. Важно помнить, что PolyAnalyst может не иметь доступа к указанному каталогу. В таком случае выполнение узла завершится с предупреждением, которое можно посмотреть в журнале узла.

В данном случает экспорт не будет выполнен.

Параметры ColumnLeft и ColumnRight представляют, соответственно, колонку из оригинального набора данных (того, который вы хотите экспортировать) и колонку из файла-шаблона. Обратите внимание на написание записей в файле-шаблоне: используйте вариант #price, а не price. Таким образом, если все настроено верно, окно конфигурации узла Параметры будет выглядеть следующим образом:

ms word params.rus

Остальные параметры являются не обязательными. Например, если вы оставите параметр Filename пустым, результирующий документ (документы) получат имя файла-шаблона.

Также представлены два булевых параметра, а именно Merge и Use as filename. Параметр Merge позволяет вам объединить результирующие документы в один файл. Параметр Use as filename используется для задания имени экспортируемого файла (файлов), если указан параметр Splitting column. Если значение параметра Splitting column не указано, а параметр Merge равен "false", то данные будут экспортированны в различные файлы, имена которых будут соответствовать номерам строк оригинального набора данных.

Будьте внимательны при использовании параметров разделения: параметр Splitting column используется только тогда, когда в параметре Splitting mode выбрана опция "Значение колонки". Если имя колонки не соответствует требованиям наименования файлов в вашей операцонной системе, то PolyAnalyst автоматически поменяет имена экспортируемых файлов, например, имя колонки 1/1/2001 будет изменено на 2001-01-01T00_00_00 в качестве имени результирующего файла.