Узел Индекс
Узел Индекс – полезный инструмент, используемый на этапе предварительной обработки неструктурированных данных (например, документов). Узел может использовать любую таблицу данных на входе, однако она должна содержать как минимум одну колонку с неструктурированными данными.
Выходными данными узла являются исходные данные, к которым добавляется индекс текста, т.е. информация о его количественном и лексическом составе. Эти выходные данные могут затем использоваться в качестве входных для любого числа последующих узлов текстового анализа, например, Извлечение терминов или Извлечение сущностей.
Кроме этого, узел Индекс создает интерактивный отчет об индексации текстовой колонки. Для того, чтобы просмотреть отчет, нажмите на выполненный узел на скрипте правой кнопкой мыши и выберите в контекстном меню опцию Показать.
Скрытое и явное индексирование
В PolyAnalyst существует два типа индексации текста: неявная, т.е. скрытая индексация и явная индексация.
Когда вы соединяете узел, который производит таблицу данных, с узлом, который выполняет текстовый анализ, без использования узла Индекс, выполняется скрытое индексирование текста.
Явная индексация выполняется с использованием узла Индекс. Вы можете частично изменить опции индексирования по умолчанию на вкладке Настройки.
Если вы изменяете настройки узла Индекс, вам придется перевыполнить как сам узел Индекс для создания нового индекса, так и все последующие узлы текстового анализа, подключенные к узлу Индекс.