kwic

Назначение

Функция kwic возвращает текстовое значение, содержащее специальные слова вместе с контекстом этих слов. Название kwic - сокращение от keyword-in-context (ключевые слова в контексте).

Анализ kwic - это известный метод сообщения результатов анализа ключевых слов. Традиционно отчет kwic состоит из списка терминов, извлеченных из документа, где каждый элемент списка - особое включение слова; также для каждого слова включается некоторое количество текста до и после него. Следовательно, kwic в целом рассматривается как форма контекстуального анализа, где основное внимание уделяется исследованию текста с интересующими ключевыми словами. Исследование контекста может дать некоторые полезные сведения и помочь устранить некоторые неоднозначности в значении терминов при выполнении семантического анализа.

Функция kwic не производит отчет, но производит новое значение, которое при использовании в выражении новой колонки узла Производные колонки, может применяться для генерирования таблицы, которая может дать необходимые данные для генерирования отчета.

Синтаксис

kwic(строка,строка,целое число,целое число,разделитель/строка)

Аргументы

Функция требует наличия пяти аргументов:

  1. Первый аргумент - это строка, которая представляет входное текстовое значение. Обычно это текстовая колонка из таблицы.

  2. Второй аргумент - это список целевых терминов, разграниченный точкой с запятой. Необходимо указать минимум один термин. Если указан только один термин, не нужно указывать конечную точку с запятой.

    Например, если вы хотите посмотреть контексты, в котором используются слова "house" и "office", вам нужно указать "house;office" в качестве второго аргумента. Порядок терминов не имеет значения. Можно указывать неограниченное число терминов.

  3. Третий аргумент - целое число, которое означает расстояние, а именно максимальное расстояние. Расстояние означает число слов/токенов, которое нужно включить в результаты функции. Расстояние применяется отдельно к предшествующему и конечному контексту.

    Например, если вы указали расстояние 2, то из контекста, предшествующего одному из целевых слов, будет включено 2 слова, а затем еще 2 слова из контекста, последующего за одним из целевых слов.

  4. Четвертый аргумент - целое число. Используются только числа 0 и 1. Этот аргумент управляет тем, что функция считает включением целевого термина (из второго аргумента).

    • Значение 0 означает точное соответствие

    • Значение 1 - либо точное соответствие, либо одно из действительных альтернативных морфологических значений целевого термина.

      При нахождении точного соответствия функция ищет только те включения, в которых целевой термин представлен точно так же, как и во втором аргументе.

      При использовании морфологического расширения функция ищет и точное включение термина, и включения любых его морфологических форм (например, множественное число, единственное число, притяжательный падеж).

      Например, если дан целевой термин "box" и четвертый аргумент в значении 1, то функция kwic будет искать box, boxes, boxed и boxing. При использовании точного соответствия будет учитываться только слово "box".

  5. Пятый аргумент - разграничивающий символ или строка, которая используется для разделения соответствий в получившейся строке.

    Например, если вы хотите разделить результаты символом "|", укажите его в пятом аргументе.

Возвращаемое значение

Функция kwic возвращает значение текстового типа. Возвращаемое значение содержит ограниченный ряд слов вместе с контекстом.

Примеры

kwic([Contents],"oil;gold", 5, 1, "|") будет осуществлять поиск в колонке Содержание терминов "oil" и "gold", либо их различные морфологические формы (четвертый аргумент - 1, определяющий морфологическое расширение), а затем включать до 5 терминов в любом направлении для каждого случая встречаемости либо термина "oil", либо термина "gold" в текстовой колонке Содержание, а затем возвращает текстовое значение с ограничителем "|" для каждого соответствия.