Практическое руководство по использованию узла Производные колонки

В данном практическом руководстве содержится простой пример использования узла Производные колонки для добавления новых колонок к таблице данных.

  1. Создайте новый проект "Derive Node Tutorial".

    1. Откройте проект.

    2. Создайте новый узел Файлы CSV и загрузите в него файл CarData.csv, расположенный в папке Examples.

    3. Выполните узел.

      По желанию вы можете открыть окно просмотра узла Файлы CSV и посмотреть данные. При необходимости обратитесь к разделу Тренировочные наборы данных в руководстве Введение в анализ данных.

  2. Создайте новый узел Производные колонки. Цель узла — создание новой таблицы с дополнительными колонками. Единственным отличием выходной таблицы данных от исходной является наличие новых колонок. В связи с этим узел относится к операциям с колонками.

  3. Соедините узлы Файлы CSV и Производные колонки. Выходные данные узла Файлы CSV становятся входными данными узла Производные колонки.

  4. Теперь можно перейти к настройке узла Производные колонки.

    1. Откройте окно настроек узла Производные колонки. Список колонок в узле на момент создания узла пуст.

    2. Следующий шаг — создание новой колонки. Нажмите на кнопку Добавить (кнопка в виде знака "плюс" на боковой панели инструментов). Новая колонка будет добавлена в список колонок.

    3. Мы создадим колонку, содержащую значение 1. Назовем ее "One". После ввода имени щелкните левой кнопкой мыши в любом месте окна, или нажмите Enter. Чтобы переименовать колонку позже, дважды кликните на имя колонки, чтобы сделать имя редактируемым.

    4. Следующий шаг — создание условия, которое позволит заполнить новую колонку значениями. Это делается путем ввода выражения в поле редактора. Поле редактора отображает выражение для выбранной в списке колонки. В поле выражения введите число 1.

      По желанию можно нажать на кнопку Проверить синтаксис и убедиться, что в выражении нет ошибок. Если выражение верно (а если вы выполнили все пункты инструкции, оно должно быть верным), вы не увидите сообщения об ошибке.

    5. PolyAnalyst рядом с именем новой колонки выводит иконку, означающую тип данных в колонке, который определяется на основе типа значения, которое является возвращаемым значением выражения. В данном случае значение равно 1, поэтому PolyAnalyst определяет, что тип данных, содержащихся в новой колонке — целое число.

      Таким образом мы создали одну колонку "One", в которой в каждой строке будет присутствовать значение 1.

  5. Нажмите Выполнить. По завершении работы узла откройте отчет узла Производные колонки, используя кнопку Показать в контекстном меню узла. Справа можно увидеть новую колонку "One" целочисленного типа, в каждой строке которой содержится значение "1".

  6. Мы выполнили очень простое упражнение на создание новой колонки. На практике узел Производные колонки может создавать несколько новых колонок одновременно, и возвращаемые значения могут быть гораздо более сложными. Далее, добавим сразу две колонки к таблице.

    1. Закройте окно просмотра узла, если оно еще открыто, либо просто переключитесь на скрипт, кликните правой кнопкой мыши на узел и выберите Настройки.

    2. В списке колонок слева выберите "One".

    3. Поскольку нам больше не нужна эта колонка, удалим ее. Выбрав колонку "One", нажмите Удалить. Колонка сразу же удаляется из списка. Помните, что отменить удаление колонок невозможно, поэтому будьте внимательны при удалении колонок. Чтобы вернуть только что удаленную колонку, вы можете отменить изменения и выйти из диалогового окна настроек. Однако помните, что при этом новые колонки, если вы успели их создать после открытия окна свойств, также будут удалены.

  7. Создадим новую колонку, которая будет содержать значение колонки Mpg.

    1. Нажмите Добавить и введите название Mpg Again. Значение новой колонки должно содержать значение существующей колонки Mpg. Это действие достаточно бессмысленно, но позволяет увидеть, как использовать существующее значение колонки. Мы можем либо ввести имя колонки в редакторе выражения, либо выбрать его из списка. Пока просто введите Mpg и нажмите Проверить синтаксис. Вы не должны получить сообщения об ошибке. Вы также можете ввести [Mpg], квадратные скобки для данного примера не обязательны.

    2. Это действие есть ничто иное, как введение выражения на языке символьных правил PolyAnalyst (SRL). Мы ссылаемся на значение существующей колонки. Когда мы включаем проверку синтаксиса, PolyAnalyst проверяет выражение. Если мы правильно указали имя колонки, то автоматически будет определен тип данных этой колонки, а поскольку в выражении больше ничего нет, тип данных новой колонки "Mpg Again" будет тем же (числовым).

  8. Создадим вторую новую колонку.

    1. Нажмите на кнопку Добавить еще раз.

    2. Назовем новую колонку "Mpg Times Two". После ввода имени кликните мышью в области выражения данной колонки (убедитесь, что колонка "Mpg Times Two" остается выбранной).

    3. Теперь введите следующее: Mpg*2. Мы также создадим новую колонку, которая содержит значение колонки Mpg, умноженное на значение из колонки Weight (Вес).

    4. Нажмите на кнопку Добавить еще раз.

    5. Назовем колонку "Mpg Times Weight". Теперь введите выражение Mpg*Weight.

  9. Теперь, когда мы удалили старую колонку и создали 3 новые, нажмем на кнопку Выполнить.

  10. Когда узел Производные колонки завершит выполнение, откройте окно просмотра. Справа мы можем увидеть 3 новые колонки с заданными значениями.

Попробуйте создать другие типы колонок самостоятельно. Учитесь составлять более сложные выражения, пользуясь руководством по SRL. SRL используется в PolyAnalyst очень часто, не только для создания новых колонок. Например, узел Фильтрация строк использует SRL-выражения для фильтрации записей (например, когда нужно найти записи с Mpg > 20).

Не забудьте сохранить свой проект, чтобы иметь возможность вернуться к нему.