Книга О чем говорят цифры. Как понимать и использовать данные, страница 22. Автор книги Томас Дэвенпорт, Ким Хо

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «О чем говорят цифры. Как понимать и использовать данные»

Cтраница 22
Типы моделей

Аналитики и компании для решения аналитических задач и принятия решений на основе анализа используют множество типов моделей. Мы не собираемся учить читателей статистике, но считаем, что им было бы полезно знать, какие критерии применяют количественные аналитики, выбирая наиболее адекватную модель. Это поможет читателям сделать первые шаги в бизнес-аналитике и твердо усвоить ее основы. Если мы хотим знать, какие типы моделей лучше всего подойдут в том или ином случае, надо оценить специфику ситуации с точки зрения тех, кто принимает решения (или их аналитиков).

• Чтобы правильно выбрать модель, надо ответить на три основных вопроса.

• Сколько переменных подлежат анализу? Возможны такие варианты ответа: одна переменная (одномерная модель), две переменные (двумерная модель), три и более переменных (многомерная модель). Последний вариант ответа достаточен для решения любой проблемы.

• Требуется ли нам описание решения проблемы или просто ответы на поставленные вопросы? Описательная статистика просто описывает имеющиеся данные и не пытается делать выходящих за их рамки обобщений. Средние значения, медианы и стандартные отклонения – вот классический пример описательной статистики. Они весьма полезны, но не слишком интересны с математической или статистической точки зрения. Индуктивная статистика исследует выборку из какой-либо совокупности и распространяет выводы о средних характеристиках ее объектов на всю совокупность. Примеры такой статистики – корреляционный и регрессионный анализ (см. далее): они включают оценку вероятности того, что взаимосвязи, выявленные на основе выборки, характерны и для всей совокупности. Статистики и количественные аналитики обычно отдают предпочтение индуктивной статистике по сравнению с описательной.

• Насколько точно можно оценить значения интересующих переменных? Некоторые методы оценки описаны во вставке «Методы измерения данных».


Конкретный тип используемой вами (или вашими квантами) модели зависит от того, какого вида ваш аналитический проект и какого типа данные. Некоторые характеристики проектов и массивов данных, а также моделей, выбранных для их обработки, описаны ниже. Мы рассмотрели далеко не все типы моделей, но из тех, которые изо дня в день используются организациями для аналитики, здесь представлены примерно 90 процентов.

Модели с двумя числовыми переменными. Если требуется установить взаимосвязь между двумя числовыми переменными, то проще всего это сделать с помощью корреляционного анализа. Это один из простейших видов статистического анализа. В типичном случае с его помощью можно установить, меняется ли одна переменная с изменением другой. Для примера возьмем рост и вес человека. Можно ли утверждать, что вес человека увеличивается с увеличением его роста? Как правило, так и бывает, поэтому можно утверждать, что эти две переменные коррелируют между собой. Поскольку корреляционный анализ является одним из методов индуктивной статистики, существуют способы определить: может ли определенный уровень корреляции быть случайным? Если вам, например, говорят, что «статистическая значимость связи равна 0,05», то это означает, что в пяти случаях из ста наблюдается согласованное изменение анализируемых показателей.

Две категориальные переменные или больше. Если вы используете данные опросов и они представлены номинальными категориями (например, мужской и женский пол; молодой, средний или пожилой возраст), то вам понадобится ряд аналитических процедур для анализа категориальных данных. Результаты этого вида анализа часто оформляют в виде таблицы, в ячейках которой указано количество наблюдений. Например, если вы устанавливаете связь между полом и продолжительностью жизни, то обнаружите, что численность мужчин и женщин в молодом и среднем возрасте примерно одинакова, но поскольку женщины обычно живут несколько дольше, чем мужчины, то в старшем возрасте их численность будет выше. Если эта или подобная закономерность присутствует в вашем массиве данных, то таблица покажет значимую (то есть вряд ли случайную) взаимосвязь в соответствии со значением такого статистического критерия, как хи-квадрат. Взаимосвязь может быть значимой при уровне значимости 0,05 или 0,01. Такие бинарные категориальные переменные, как пол, можно также обрабатывать с помощью регрессионного анализа, используя при этом фиктивные переменные: то есть такие, которые получают значение 0 при отсутствии признака (например, мужского пола), и 1 при его наличии.


Более чем две количественные переменные. Если количественных переменных более двух, то проводится углубленный анализ корреляционной связи, называемый регрессионным анализом: иногда множественной регрессией (если для объяснения динамики одной переменной используются несколько других переменных), а иногда линейной регрессией (если взаимосвязь между переменными остается стабильной (линейной) во всех интервалах их значений). Регрессия представляет собой метод подбора уравнения (или линии, если речь идет о графическом выражении), описывающего совокупность собранных в прошлом данных. Если вам это удалось, то с помощью уравнения регрессии можно прогнозировать поведение переменных в будущем. В регрессионной модели каждой независимой переменной приписывается определенный коэффициент, отражающий (или прогнозирующий) ее «вес» в модели.

В качестве примера множественной линейной регрессии можно привести случай из практики экономиста из Принстона Орли Ашенфельтера. Он использовал регрессионный анализ для прогнозирования аукционных цен на марочные французские вина. Его прогноз аукционных цен основывался на погоде в период сбора урожая вин этого года – и вызвал шок в среде экспертов по винам и даже привел их в ярость. (Газета New York Times опубликовала на первой странице статью об этом прогнозе под названием «Уравнение цены на вино вывело из строя многие носы» [38].) Если у вас есть хорошее уравнение, то зачем вам эксперты?

Большинство экспертов сходятся в том, что хорошее вино получается в том случае, если предшествующая зима была дождливой, в сезон созревания винограда стояла теплая погода, а в сезон его сбора – сухая. Таким образом, Ашенфельтер выбрал три независимые переменные, относящиеся к погоде и влияющие на качество винограда: средняя температура воздуха в период созревания и количество осадков в период сбора винограда, а также количество осадков в предшествующую зиму. Кроме того, поскольку вкус вина, как правило, зависит от его выдержки, еще одной независимой переменной стала продолжительность выдержки в годах.

Качество сбора винограда влияет на цену зрелого вина, которая и становится зависимой переменной, которую Ашенфельтер пытался предсказывать. Он собрал информацию о ценах на лондонском аукционе за шесть бутылок бордо шато в 1960–1969 годы. Этот период был выбран потому, что вина, сделанные из урожая сборов этих лет, уже созрели, а в их качестве не было сомнений. Данные о значениях независимых переменных предоставило бюро прогнозов погоды из района выращивания винограда.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация