Тренировочные наборы данных

Установочный пакет PolyAnalyst содержит набор тренировочных таблиц данных, которые могут быть использованы в качестве примеров в ходе обучения новых пользователей. Некоторые таблицы содержат измененные данные реальных проектов, выполненных ранее аналитиками компании Мегапьютер. Таблицы в папке с примерами хранятся в формате CSV. По умолчанию эта папка называется Examples и находится в папке PolyAnalyst (по умолчанию на вашем компьютере это C:\Megaputer Intelligence\PolyAnalyst 6.x\Examples), или на компьютере, на котором установлен сервер PolyAnalyst.

Simple Data (Простые данные)

Эта таблица данных была создана на основе электронной таблицы Microsoft Excel, содержащей две колонки - X и Y. X - это колонка, содержащая номера (или уникальные идентификаторы) строк. Значение каждой строки на единицу больше предыдущего значения (т.е. первая строка - 1, вторая - 2, третья - 3 и т.д.).

Значение колонки Y определяется следующей функцией (введенной вручную): (2*x*x+30000)/(x+300). Переменная х - целое число от 1 и выше. y - числовая функция, которая зависит от значения в колонке X.

Transaction Data (Данные о транзакциях)

Эта таблица представляет кассовые транзакции, похожие на пример данных покупательской корзины, но в другом формате. Здесь присутствуют две колонки: Product (Продукт) и Consumer (Покупатель). Каждая покупка продукта считается транзакцией и фиксируется в отдельной строке таблицы. Если покупатель приобрел три продукта одновременно, фиксируются три отдельные записи (транзакции). Это обычный формат хранения данных, используемый торговыми компаниями. В примере содержится более 300 кодов продуктов и свыше 15000 индивидуальных продаж в течение рассмотренного периода.

Колонка

Описание

Тип данных

Consumer [Покупатель]

Идентификационный номер покупателя

Строка

Product [Продукт]

Идентификационный номер или код продукта

Строка

Citizen Data (Данные соцопроса)

Таблица данных содержит ответы на вопросы открытой анкеты, созданной органами местного самоуправления округа Хиллсборо (Флорида, США). Отвечая на вопросы анкеты, жители округа оставили 851 комментарий на самые разные темы, включая проблемы образования, дорожную инфраструктуру и др.

Каждый вопрос был вручную закодирован членом комиссии, проводящей опрос. На один и тот же вопрос можно было дать несколько ответов, поэтому один ответ может иметь несколько кодов. Последние 6-7 кодов касались отношения отвечающего, в то время как первые 10 кодов непосредственно связаны с темой вопроса. Каждый код был внесен вручную (быстро и не всегда точно).

Таблица содержит 851 строк и 29 колонок:

Колонка

Описание

Тип данных

Date [Дата]

Дата проведения опроса

Дата

Comment [Ответ]

Текст ответа

Текст

Zipcode [Почтовый код]

Индекс респондента

Целое число

Jurisdiction [Юрисдикция]

Юрисдикция респондента (4 разные юрисдикции)

Строка

Mobility and Transportation Code [Вопрос о мобильности и транспорте]

Булевый тип

Education Code [Вопрос об образовании]

Булевый тип

Social Services Code [Вопрос о социальном обеспечении]

Булевый тип

Growth Management Code [Вопрос о менеджменте роста]

Булевый тип

Economic Considerations Code [Вопрос об экономике округа]

Булевый тип

Utilities Code [Вопрос о коммунальных услугах]

Булевый тип

Children’s Services Code [Вопрос об услугах для детей]

Булевый тип

Environment Code [Вопрос об окружающей среде]

Булевый тип

Public Safety and Security Code [Вопрос об общественной безопасности]

Булевый тип

Government Services Code [Вопрос о госуслугах]

Булевый тип

Roads and Lanes Code [Вопрос о дорогах]

Булевый тип

Pedestrian Code [Вопрос о пешеходах]

Булевый тип

Biking Code [Вопрос о велоспорте]

Булевый тип

Rail Code [Вопрос о железной дороге]

Булевый тип

Water/Air Code [Вопрос о состоянии воды/воздуха]

Булевый тип

Bus/Shelters Code [Вопрос об автобусах]

Булевый тип

Paratransit Services Code [Вопрос об услугах социальной перевозки престарелых и инвалидов]

Булевый тип

Carpool Code [Вопрос о совместном использовании автомобиля]

Булевый тип

More Need Code [Вопрос о потребностях]

Булевый тип

No More Needed Code [Вопрос о ненужных объектах/услугах]

Булевый тип

Improve Code [Вопрос об усовершенствовании]

Булевый тип

Maintain Code [Вопрос о технической поддержке]

Булевый тип

Rethink Code [Вопрос о переосмыслении]

Булевый тип

Suppose Code [Вопрос о предположениях]

Булевый тип

Don’t Support Code [Вопрос об отсутствии поддержки]

Булевый тип

Comment Card Data (Данные карт отзывов)

Таблица содержит набор данных отзывов постояльцев крупной сети отелей. Это реальные данные, которые были частично изменены. Названия отелей могут оказаться настоящими, но любые совпадения случайны. Таблица состоит из 7 колонок и содержит 3021 запись. Каждая запись представляет собой отдельный отзыв, оставленный одним из постояльцев отеля:

Колонка

Описание

Тип данных

Gender [Пол]

Пол постояльца

Строка

Age [Возраст]

Возраст постояльца в годах

Целое число

Code [Код ответа]

Категория, которая была вручную задана человеком, собирающим анкеты

Строка

Purpose [Цель поездки]

Вопрос с множеством вариантов ответов о причинах пребывания в отеле

Строка

Hotel [Отель]

Выдуманное имя отеля

Строка

Region [Регион]

Расположение отеля

Строка

Comment [Ответ]

Текст ответа на вопрос

Текст

Crime Data (Сводка преступлений)

Эта таблица представляет собой данные отчетов об отдельных преступлениях. Отделение полиции публично огласило список преступлений, совершенных в определенный промежуток времени и в определенной местности. Для каждого преступления указываются дата совершения, юрисдикция, описание, предоставленное офицером полиции, и категория преступления.

Таблица содержит 4 колонки, 535 записей:

Колонка

Описание

Тип данных

Date [Дата]

Дата совершения преступления

Дата

District [Район]

Район, в котором совершено преступление

Строка

Category [Категория]

Категория, указанная полицейским, зарегистрировавшим преступление

Строка

Description [Описание]

Описание офицером полиции фактов и событий, имеющих отношение к преступлению

Текст

Diagnosis Data (Данные диагностического исследования)

Эти данные были получены из архива крупной клиники кардиохирургии в России. Каждая запись относится к одному пациенту. Таблица содержит 6 колонок и 109 записей:

Колонка

Описание

Тип данных

Age [Возраст]

Возраст пациента в годах

Целочисленное значение

IsMale [Муж.]

ИСТИНА для мужчин, ЛОЖЬ для женщин, 0 - если пол не указан

Булевый тип данных

Weight [Вес]

Вес пациента в килограммах

Численное значение

Height [Рост]

Рост пациента в сантиметрах

Численное значение

BSA [Площадь поверхности тела]

Эту колонку можно игнорировать

Численное значение

Diagnosis [Диагноз]

Диагноз, записанный в виде аббревиатуры, например: MVD - митральный порок сердца, IHD - ишемическая болезнь сердца, ASD - дефект межпредсердной перегородки, AVD - аномалия клапана аорты, TF - тканевой фактор (белок, обладающий высокой тромбогенной активностью)

Строка

Likert Survey Data (Данные исследования Лайкерта)

Этот таблица данных состоит из ответов респондентов. Каждая запись представляет какого-то человека, принявшего участие в опросе. Анкета состояла из 30 вопросов, участники опроса выбирали цифры от 1 до 9. 9 - вариант ответа, наиболее близкий респонденту, 1 - наименее близкий. На 31-й вопрос был дан ответ: «Я скорее всего куплю автомобиль XYZ». Настоящая марка автомобиля не указана (респондент должен представить машину своей мечты). Всего в опросе принимали участие 400 человек. Все колонки содержат целочисленные значения:

Колонка

Описание (ответ)

Attitude [Отношение]

Я бы купил автомобиль Discovery Land Rover. 

In Shape [В форме]

Я в очень хорошей физической форме.

Fashionable [Модный]

Если приходится выбирать, я предпочитаю модную одежду удобной.

Stylish [Стиль]

По сравнению с друзьями, у меня самая стильная одежда.

Individualistic [Индивидуальность]

Я хочу отличаться от других.

Risk Taker [Любитель риска]

Жизнь слишком коротка, чтобы не играть в азартные игры.

No Ozone Concern [Обеспокоенность озоновыми дырами]

Мне нет дела до озоновых дыр.

Right To Pollute [Право на загрязнение окружающей среды]

Я думаю, что правительство принимает слишком серьезные меры для предотвращения загрязнения окружающей среды.

Society Fine [Общество]

Я думаю, что в нашем обществе все в порядке.

No Time For Charity [Нет времени на благотворительность]

У меня не так много времени, чтобы посвящать его благотворительности.

No Debt [Без долгов]

У нашей семьи нет больших долгов на сегодняшний день.

Prefer Cash [Оплата наличными]

Я предпочитаю оплачивать наличными все, что покупаю.

Spendthrift [Расточительность]

Я трачу сегодня, сколько хочу и мне не важно, что будет завтра.

Prefer Credit [Предпочтение кредиток]

Я предпочитаю кредитные карты, потому что так я могу постепенно оплачивать счета.

Low Interest Buyer [Низкий интерес покупателя]

Процентные ставки по кредитам достаточно низкие, поэтому я могу всегда позволить покупать себе то, что хочу.

Confident [Уверенность]

Я более уверен в себе по сравнению с моими друзьями.

Leader [Лидерство]

Мне нравится думать о себе, как о лидере.

Dependable [Надежность]

Люди часто просят помочь меня разобраться с их проблемами.

Children Important [Дети]

Дети самое важное, что может дать семья.

Introverted [Интроверт]

Я лучше проведу время дома, чем пойду на вечеринку.

American Cars Rule [Американские машины лучшие]

Импортные автомобили не могут сравниться с американскими.

Restrict Japan Imports [Ограничение импорта из Японии]

Правительству следует сократить ввоз товаров из Японии.

Buy American [Американские покупки]

Американцы должны стараться покупать только американские продукты.

Adventurous [Приключения]

Я хотел бы совершить кругосветное путешествие.

Midlife Crisis [Кризис среднего возраста]

Я хотел бы покончить с моим настоящим образом жизни и делать что-то совершенно другое.

Early Adopter [Новинки]

Я всегда рад принять участие в испытании новых продуктов.

Active [Активный]

Я люблю усердно работать и активно отдыхать.

Skeptics Wrong [Скептицизм]

Предсказания скептиков, как правило, ошибочны.

Determined [Решительность]

Я могу добиться всего, чего захочу.

Optimistic [Оптимизм]

Через 5 лет у меня будет куда больший заработок, чем сейчас.

Market Data (Данные о ситуации на рынке)

Эта таблица включает в себя данные о некоторых компаниях и факты, относящиеся к ним. Данные взяты из настоящего консультационного проекта для провайдера телекоммуникационных услуг. Данные и имена изменены. Таблица содержит опубликованные в сети бизнес-данные о клиентах, сотрудничавших с компанией в прошлом, а также сведения о том, приняли ли клиенты предложение или нет. Компания составила список организаций, пользовавшихся ее услугами ранее, а затем добавила случайную выборку из нескольких тысяч организаций, не пользовавшихся услугами компании. Каждая из 13117 записей представляет отдельную компанию:

Колонка

Описание

Тип данных

Local Employees [Местные служащие]

Количество служащих в отдельном офисе

Целое число

Total Employees [Общее число служащих]

Количество служащих всей компании

Целое число

Local Sales [Местные продажи]

Ежегодные продажи (в тысячах) в отдельном офисе

Целое число

Total Sales [Общие продажи]

Общие продажи всей компании

Целое число

International [Международная деятельность]

Занимается ли компания бизнесом за пределами США

Булевый тип

Ad Spending [Затраты на рекламу]

Ежегодные затраты на рекламу (USD)

Строка

New Location [Новое расположение]

Переезжала ли компания на новое место в последнее время или это новый бизнес

Строка

Ownership Type [Тип собственности]

Строка

Industry Type [Вид промышленности]

Целое число

Industry Category [Категория промышленности]

Строка

Age [Возраст]

Возраст компании (в годах)

Целое число

Buyer [Покупатель]

Занималась ли компания прежде продажей или поставками по почте

Булевый тип 

Patient Data (Сведения о пациентах)

Эта таблица данных предоставлена крупной страховой компанией. В ней содержится около 15000 записей, представляющих факт оказания медицинской услуги пациентам. Это - подмножество записей о клиентах страховой медицинской компании за 2000 год; здесь содержатся записи только о тех пациентах, которым было оказано не менее 160 медицинских услуг за год. Данные изменены согласно требованиям HIPAA.

Таблица содержит 1499 строк и 7 колонок:

Колонка

Описание

Тип данных

PatientID [Идентификационный номер пациента]

Уникальный номер каждого пациента

Строка

PatientName [Имя пациента]

Измененное имя пациента

Строка

ProviderID [Идентификационный номер поставщика]

Уникальный номер поставщика медицинских услуг

Строка

ProviderName [Имя поставщика медицинских услуг]

Измененное имя поставщика

Строка

ServiceDate [Дата обслуживания]

Время предоставления услуги

Дата

ProcedureCode [Код процедуры]

Целое число

NetPayments [Оплата наличными]

Наличная сумма в долларах, которую страховая компания заплатила поставщику за предоставление медицинских услуг

Целое число

Car Data (Сведения о автомобилях)

Этот набор данных представляет собой таблицу с информацией о различных автомобилях, произведенных в Японии, США и нескольких европейских странах, и включает в себя данные по машинам, которые прошли ряд испытаний, проведенных в 70-е годы, а также факты по каждому отдельному автомобилю: его мощность, вес и т.д. Более подробную информацию о представленном наборе данных вы можете найти в следующем подразделе текущего Руководства пользователя, где этот набор данных используется в качестве примера анализа данных.

Vehicle Complaints Data (Жалобы на транспортные средства)

Набор данных по жалобам на транспортные средства представляет собой еще одну таблицу, содержащую информацию о различных автомобилях. Данная таблица включает в себя информацию о неисправностях автомобилей, которые были присланы в Национальное управление безопасностью движения на трассах (NHTSA), и содержит 5193 строк и 32 столбцов.

Таблица столбцы различных типов (строковый, целочисленный, булевый тип и т.д.), некоторые из которых приведены ниже:

Колонка

Описание

Тип данных

STATE

Штат, откуда поступила жалоба

Строка

INJURY_TYPE

Тип травмы, вызванной автомобильной аварией

Текст

INJURIES

Количество травм

Целое число

SUMMARY

Описание автомобильной аварии

Текст

CRASH

Показывает, имела ли место автоавария

Строка

SPEED

Скорость автомобиля в момент аварии

Строка

TIRE_POSITION

Шина, которая была повреждена

Строка