Книга Искусство статистики. Как находить ответы в данных, страница 53. Автор книги Дэвид Шпигельхалтер

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Искусство статистики. Как находить ответы в данных»

Cтраница 53

1. Соответствует ли ежедневное число убийств в Соединенном Королевстве распределению Пуассона?

2. Изменился ли уровень безработицы в Соединенном Королевстве за последний квартал?

3. Снижает ли употребление статинов риск инфарктов и инсультов у людей вроде меня?

4. Связан ли рост матерей с ростом их сыновей, если учитывать рост отцов?

5. Существует ли бозон Хиггса?


Этот список показывает, что можно задавать самые разные вопросы – от преходящих до вечных.

1. Убийства и распределение Пуассона: общее правило, которое не представляет особого интереса для общества, но помогает ответить, произошли ли изменения в реальном уровне преступности.

2. Изменения в уровне безработицы: специфический вопрос, относящийся к конкретному времени и конкретному месту.

3. Статины: научное утверждение, но относящееся к конкретной группе.

4. Рост матерей: возможно, представляет научный интерес.

5. Бозон Хиггса: может изменить основные представления о физических законах Вселенной.


У нас есть данные, которые могут помочь ответить на некоторые из этих вопросов. Мы уже строили графики и делали какие-то неформальные заключения для подходящих статистических моделей. Однако сейчас мы подошли к составляющей этапа анализа цикла PPDAC, известной как проверка гипотез.

Что такое «гипотеза»?

Гипотезу можно определить как предлагаемое объяснение явления. Это не абсолютная истина, а временное рабочее предположение, которое, возможно, лучше всего представлять как подозреваемого в уголовном деле.

При обсуждении регрессии в главе 5 мы столкнулись с утверждением, что

наблюдение = детерминистская модель + остаточная ошибка.

Оно отражает идею, что статистические модели – это математические представления наших наблюдений, где сочетаются детерминистский и стохастический компоненты. Стохастический компонент отражает непредсказуемость, или случайную «ошибку», обычно выраженную в терминах какого-нибудь вероятностного распределения. В рамках статистики гипотезой считается какое-то конкретное предположение об одном из компонентов статистической модели, носящее смысловой оттенок «рабочей версии», а не «истины».


Зачем нужно формально тестировать нулевые гипотезы?

Открытия ценятся не только учеными – восторг от обнаружения чего-то нового универсален и настолько соблазнителен, что у нас есть врожденная склонность ощущать, будто мы нашли что-то новое, даже когда на самом деле этого нет. Ранее для описания способности видеть закономерности и связи там, где их не существует, мы использовали термин апофения; даже было высказано предположение, что такая склонность обеспечивает определенное эволюционное преимущество – те наши предки, которые, заслышав шорох в кустах, тут же убегали, не дожидаясь момента, чтобы выяснить, действительно ли там тигр, выживали с большей вероятностью.

Однако такое отношение может быть приемлемым для охотников-собирателей, но не для науки, ведь когда наши утверждения остаются всего лишь плодом нашего воображения, подрывается сама суть научного процесса. Должен существовать способ защитить нас от ложных открытий, и проверка гипотез претендует на эту роль.

Центральной здесь становится идея нулевой гипотезы: это упрощенная форма статистической модели, с которой мы будем работать, пока не получим достаточное количество аргументов против нее. Для вышеуказанных вопросов нулевыми гипотезами могут быть:


1. Ежедневное количество убийств в Соединенном Королевстве имеет распределение Пуассона.

2. Уровень безработицы в Соединенном Королевстве за последний квартал не изменился.

3. Статины не уменьшают риск инфарктов и инсультов у людей вроде меня.

4. Рост матерей не влияет на рост сыновей, если учесть рост отцов.

5. Бозона Хиггса не существует.


Нулевая гипотеза – это то, что мы готовы принять, пока не докажем обратное. Она безжалостно негативна в своем отрицании прогресса и перемен. Но это не означает, что на самом деле мы верим в ее безусловную правильность: ясно, что ни одна из вышеперечисленных гипотез не может быть в точности верной (за исключением, возможно, несуществования бозона Хиггса). Поэтому мы никогда не можем заявить, что нулевая гипотеза фактически доказана. Как говорил великий британский статистик Рональд Фишер, «нулевая гипотеза в ходе экспериментов никогда не доказывается, но, возможно, опровергается. Можно сказать, что любой эксперимент существует только для того, чтобы дать фактам шанс опровергнуть нулевую гипотезу» [186].

Весьма хороша аналогия с уголовным судопроизводством в английской правовой системе: подсудимого можно признать виновным, но никого нельзя признать невиновным просто потому, что не доказана его вина. Точно так же мы можем что-то найти, что способно опровергнуть нулевую гипотезу, но если у нас недостаточно доказательств, это вовсе не значит, что мы можем считать ее истинной. Это всего лишь рабочее предположение, пока не найдется что-нибудь получше.

Скрестите руки на груди. У вас сверху левая или правая рука? Согласно исследованиям, примерно у половины людей сверху правая рука и у половины – левая. Но связано ли это с тем, мужчина вы или женщина?

Хотя это не самый насущный научный вопрос, который я исследовал, когда преподавал в Африканском институте математических наук [187] в 2013 году, он был прекрасным упражнением для аудитории, а мне действительно хотелось узнать ответ [188]. Я получил данные по 54 аспирантам со всей Африки. Табл. 10.1 показывает общее распределение ответов по полу и положению правой или левой руки сверху. Такой тип таблицы в статистике называется таблицей сопряженности, или факторной таблицей.


Таблица 10.1

Таблица сопряженности полов и положения рук при скрещивании для 54 аспирантов

Искусство статистики. Как находить ответы в данных

В целом большинство кладут сверху правую руку (32/54 = 59 %). Однако у женщин доля таких «праворуких» (9/14 = 64 %) выше, чем у мужчин (23/40 = 57 %): наблюдаемая разница между долями составляет 64–57 = 7 %. В этом случае нулевая гипотеза состоит в том, что между скрещиванием рук и полом нет никакой связи, а потому наблюдаемая разница в долях между полами должна равняться 0 %. Ключевой вопрос: может ли наблюдаемое отклонение в 7 % считаться достаточно большим, чтобы противостоять нулевой гипотезе?

Вход
Поиск по сайту
Ищем:
Календарь
Навигация