Шаг 1: Обзор руководства

Данное руководство содержит пошаговые инструкции по использованию некоторых аналитических инструментов PolyAnalyst. На примере тренировочных таблиц данных из папки Examples показано, как пользователи могут выявлять скрытые в данных закономерности с помощью инструментов системы PolyAnalyst. Особое внимание уделяется основным методам анализа структурированных данных и извлечению статистической информации. Для изучения данного руководства вам понадобится около одного часа. Мы рекомендуем всем пользователям PolyAnalyst изучить данное руководство.

На данном этапе вы должны уметь запускать сервер PolyAnalyst, создавать проекты и знать основы работы с различными узлами. Данное руководство больше касается основных аналитических принципов, а также содержит рекомендации по использованию отдельных инструментов. Если в ходе изучения данного руководства у вас возникнут вопросы о базовых принципах работы с PolyAnalyst, вернитесь к вводным разделам.

Описание конкретной ситуации (кейса)

Отдел маркетинга обращается к вам, инженеру-механику в автомобилестроительной компании, с запросом: необходимо создать новый автомобиль с повышенной топливной экономичностью, чтобы выдержать конкуренцию с другими компаниями в следующем году. Организации по защите окружающей среды диктуют новые условия, и ваша компания должна с этим считаться. Вы принимаете решение протестировать имеющиеся на рынке автомобили. Вы собираете такую информацию, как пробег в милях на галлон (1 галлон = 3,8 литра) израсходованного топлива, вес автомобиля, среднее время, необходимое автомобилю, чтобы разогнаться до 100 миль (1 миля = 1,6 км) в час, количество цилиндров, производитель автомобиля, марка и модель автомобиля и т.д. Возможно, существует порядка 1000 показателей для каждого автомобиля, информацию о котором вы собираете, но в данном руководстве мы будем использовать 5-6 показателей. Для каждой марки и модели вы выполняете 10 тестов и из результатов этих 10 тестов берете средний показатель, который и будет отображать пробег в милях на галлон израсходованного топлива. В ходе эксперимента вы проводите испытание около 400 различных автомобилей и сохраняете все эти показатели на вашем компьютере. Далее вам необходимо скопировать эти данные в PolyAnalyst и приступить к их изучению, и, в частности, узнать, как определенные показатели увеличивают или уменьшают расход топлива. Имея информацию, которую вы получили при анализе и моделировании топливной экономичности автомобиля, вы можете понять, как производить автомобили, которые эффективно расходуют топливо.

Этот упрощенный пример наглядно показывает возможности использования глубокого анализа данных в какой-либо производственной компании. Аналитик может оценить, насколько экономичной будет новая машина, и сравнить ее с реальной экономичностью созданного прототипа. Соотношение прогнозируемого показателя "Mpg" (пробег на галлон топлива) и других характеристик машины показывает, какие параметры имеют ключевое значение, когда человек хочет купить машину с повышенной топливной экономичностью. Подобное правило может быть своего рода руководством при разработке новой модели автомобиля.

Про данные

Таблица данных CarData.csv представляет собой информацию о различных автомобилях, собранную в ходе проведения ряда испытаний в 1970-х годах. Каждая запись содержит сведения об автомобиле, который был протестирован. Значения представляют факты о каждом автомобиле. Таблица содержит 398 строк и 9 колонок:

Колонка

Описание

Тип данных

Mpg [Миль/галлон]

Расход топлива (используется для оценки экономичности автомобиля)

Численное значение

Cylinders [Цилиндры]

Количество цилиндров

Целое число

Displacement [Рабочий объем]

Рабочий объем двигателя

Численное значение

Power [Мощность]

Мощность автомобиля в лошадиных силах

Численное значение

Weight [Вес]

Вес автомобиля в фунтах (1 фунт = 0,453592 кг)

Численное значение

Acceleration [Ускорение]

Количество секунд, необходимое для разгона от 0 до 100 миль/ч

Численное значение

Year [Год]

Обозначение года выпуска, состоящее из двух цифр. Все исследуемые автомобили были произведены в 1900-е годы (например, если указано значение "70", значит, автомобиль был произведен в 1970 году)

Целое число

Origin [Происхождение]

Страна-производитель. Япония/США/Европа

Строка

Model [Модель]

Марка и модель автомобиля

Строка