Узел Индекс

Узел Индекс – полезный инструмент, используемый на этапе предварительной обработки неструктурированных данных (например, документов). Узел может использовать любую таблицу данных на входе, однако она должна содержать как минимум одну колонку с неструктурированными данными.

index flowchart.rus

Выходными данными узла являются исходные данные, к которым добавляется индекс текста, т.е. информация о его количественном и лексическом составе. Эти выходные данные могут затем использоваться в качестве входных для любого числа последующих узлов текстового анализа, например, Извлечение терминов или Извлечение сущностей.

index flowchart ee.rus

Кроме этого, узел Индекс создает интерактивный отчет об индексации текстовой колонки. Для того, чтобы просмотреть отчет, нажмите на выполненный узел на скрипте правой кнопкой мыши и выберите в контекстном меню опцию Показать.

Скрытое и явное индексирование

В PolyAnalyst существует два типа индексации текста: неявная, т.е. скрытая индексация и явная индексация.

Когда вы соединяете узел, который производит таблицу данных, с узлом, который выполняет текстовый анализ, без использования узла Индекс, выполняется скрытое индексирование текста.

Информация об индексировании текста хранится вместе с оригинальной таблицей данных. Другими словами, текстовый индекс сохраняется "внутри" родительского узла как дополнительный, скрытый выход узла. Индекс генерируется только при первой обработке данных узлом текстового анализа. При последующем выполнении узлов текстового анализа или при запуске других узлов текстового анализа скрытая индексация повторно не выполняется.

Явная индексация выполняется с использованием узла Индекс. Вы можете частично изменить опции индексирования по умолчанию на вкладке Настройки.

Если вы изменяете настройки узла Индекс, вам придется перевыполнить как сам узел Индекс для создания нового индекса, так и все последующие узлы текстового анализа, подключенные к узлу Индекс.