Шаг 5: Исследование основных статистических данных

На начальном этапе анализа рекомендуется всегда просматривать общую статистику данных. В окне просмотра результатов узла Производные колонки перейдите на вкладку Статистика. Нажимая на названия колонок левой кнопкой мыши, изучите основную статистику каждой колонки (она представлена ниже, под списком) и графики распределения значений каждой колонки (справа). На представленном ниже скриншоте показана вкладка Статистика для таблицы данных, созданной узлом Производные колонки. В списке выбрана колонка Mpg.

Вкладки Данные, Статистика и Уникальные записи могут быть расположены как в верхней части окна, так и внизу, в зависимости от ваших настроек.

Вкладка Статистика отображает так называемые параметры сдвига. Например, на этой вкладке мы можем почерпнуть следующие сведения:

Машины, в среднем, имеют пробег 23,51 миль на галлон
Среднее количество цилиндров - 5,455
Большинство машин произведено в США
Колонка Model содержит 305 уникальных записей

Последнее наблюдение очень важно для нас. В глубоком анализе данных разнородные значения обычно мешают аналитическим инструментам выявлять скрытые в данных тенденции. В колонке Model количество уникальных значений по отношению к общему числу записей настолько велико, что возникает ощущение, что название каждой модели встречается в таблице только один раз. Поскольку тенденции в данных часто основаны на ассоциациях отдельных элементов, которые периодически встречаются вместе, то элементы, которые никогда не встречаются вместе с другими и не образуют никакие ассоциации, по сути, являются бесполезными для анализа. Модель, созданная на основе значений колонки Model, не обладала бы должным уровнем обобщенности, поскольку она должна была бы учитывать все значения колонки. Кроме того, следует помнить о низкой математической значимости любого вывода, сделанного на основе малого числа наблюдений. В конце концов, если бы вы могли задать кандидату в президенты только один вопрос, на который он мог бы дать только один ответ, насколько верным было бы ваше мнение о кандидате? Для создания аналитических моделей требуется достаточное количество наблюдений о событии или объекте для того, чтобы сделать верные выводы. Если учесть, что большая часть названий автомобилей во всей таблице встречается только один раз, становится очевидно, что мы не можем сделать никаких значимых выводов на основе модели автомобиля.

Важным шагом на раннем этапе анализа является выявление колонок с разнородными значениями, таких, как Model, и исключение их из анализа. Наблюдения (различные значения в одной колонке) должны иметь некоторую степень однородности. Отдельные значения должны повторяться. В противном случае, мы делаем вывод, что такая случайная переменная, как модель автомобиля, не может быть использована для выявления скрытых тенденций в данных. Так, например, имеет ли смысл прогнозировать, какой болезнью вы можете заболеть на основе имени, которым вас назвали родители? Вряд ли. А если вы исследуете покупательские привычки, имеет ли смысл делать прогнозы на основе имен респондентов, принявших участие в вашем опросе? Номинативные значения (или имена и названия), такие как "Модель машины" и "Имя человека", чаще всего являются первыми кандидатами на удаление (или игнорирование) в ходе анализа ввиду их разнородности. Эти значения обычно называются "случайными значениями" в связи с тем, что они, скорее всего, не могут прогнозировать результат события, если значения имени используются в качестве исходных данных при анализе. Другими словами, какое бы значение в данной колонке вы ни выбрали, оно будет абсолютно случайным.

Единственным (редким) исключением является ситуация, когда вам необходимо сохранить такие колонки, как Model, для создания отчетов, если вам нужны все действительные значения колонки с названиями моделей автомобилей, или их отдельная группа. Однако вы можете в любое время снова добавить эти колонки в таблицу, если возникнет необходимость создать подобный отчет.

Далее перейдем к следующему этапу подготовки данных для анализа. Подготовка может означать очистку данных вручную, а также их статистическую корректировку. Нам нужно преобразовать сырые (исходные) данные и удалить аномалии или асимметрию данных, чтобы избежать ошибок при обучении моделей. Кроме того, нам нужно изучить некоторые аномалии, чтобы понять, что именно отличает их от других значений.