Но словосочетание «необычайно высокий» отнюдь не описывает того, что происходило в Атланте. Количество исправлений неправильных ответов на правильные в листах с ответами некоторых классов превышало норму данного штата на 20–50 среднеквадратических (стандартных) отклонений. (Чтобы было понятнее, что это означает, вспомним, что большинство наблюдений в любом распределении, как правило, отклоняется от среднего значения не более чем на два среднеквадратических отклонения.) Так какова же вероятность того, что учащимся в Атланте удалось по чистой случайности исправить столь большое количество неправильных ответов на правильные? Официальный представитель Министерства образования, который проанализировал эти данные, описал вероятность того, что картина, зафиксированная в Атланте, сложилась исключительно в силу случайного стечения обстоятельств и вовсе не является результатом махинаций, как примерно равную вероятности появления на трибунах стадиона Georgia Dome 70 000 зрителей ростом свыше семи футов
{59}. Может такое случиться? Теоретически да, может. Насколько велика вероятность? Чрезвычайно мала!
Тем не менее власти штата Джорджия, столицей которого является Атланта, не смогли предъявить кому-либо обвинение в манипулировании результатами стандартизированных тестов, точно так же как мой преподаватель статистики не мог (и не должен был) вышвырнуть меня из школы только потому, что я сдал выпускной экзамен по статистике успешнее, чем промежуточный. Властям штата Джорджия не удалось доказать факт мошенничества с оценками стандартизированных тестов. Они, конечно, могли отвергнуть нулевую гипотезу, что эти результаты законны, причем «с высокой степенью уверенности» (это означало, что наблюдаемая ими картина была почти невозможной в обычных условиях), и принять альтернативную гипотезу, согласно которой результаты сдачи стандартизованных тестов в Атланте стали следствием махинаций. (В официальных документах они, наверное, использовали более дипломатичную формулировку.) В ходе дальнейшего расследования удалось выявить факты мошенничества с оценками стандартизированных тестов. В объяснительных записках преподавателями приводились факты исправления ими неправильных ответов на правильные, заблаговременного ознакомления учащихся с правильными ответами, предоставления возможности отстающим ученикам списывать правильные ответы у отличников и даже указания учителем правильных ответов в тот момент, когда он останавливался возле парты ученика. Самым вопиющим примером махинаций было исправление ответов преподавателями непосредственно во время пикника, на который они собрались после экзаменов, прихватив с собой экзаменационные работы.
В примере с экзаменами в Атланте мы могли отвергнуть основную гипотезу («махинаций не было»), поскольку картина, зафиксированная в результате сдачи тестов, представлялась крайне маловероятной, если исходить из того, что обмана не было. Но насколько неправдоподобной должна быть нулевая гипотеза, чтобы мы могли ее отклонить и прибегнуть к какому-то альтернативному объяснению?
Одно из самых распространенных пороговых значений, используемых исследователями для отклонения нулевой гипотезы, – 5 % (его нередко представляют в форме десятичной дроби: 0,05). Данная вероятность известна как уровень значимости и представляет собой верхнюю границу вероятности возникновения некой картины данных в случае, если бы основная гипотеза оказалась верна
[44]. Не спешите выражать свое возмущение: в действительности это не так сложно, как могло показаться на первый взгляд.
Что такое уровень значимости 0,05? Мы можем отвергнуть при нем основную гипотезу, если вероятность исхода, по крайней мере такого же экстремального, как тот, который мы наблюдали бы, если бы она была истинной, оказывалась меньше 5 %. Попытаюсь объяснить это положение на простом примере. Хоть я себя и ругаю, но вынужден опять вернуться к нашему пресловутому пропавшему автобусу. Предположим, вам поручено пролить свет на очередную ситуацию, в которую он угодил (честь выполнить эту важную миссию вам оказана, в частности, с учетом героических усилий, приложенных в предыдущей главе). На сей раз вы прикомандированы к группе исследователей Americans’ Changing Lives, которые предоставили вам чрезвычайно ценные данные, призванные помочь в выполнении важной миссии. В каждом из автобусов, арендованных организаторами исследования, находится примерно 60 пассажиров, поэтому мы можем рассматривать их как случайную выборку, сформированную из всей совокупности Americans’ Changing Lives. Итак, вас разбудили рано утром, сообщив о захвате одного из автобусов группой террористов (ярых поборников прав людей, страдающих ожирением) в районе Бостона
[45]. Ваша задача – спрыгнуть с вертолета на крышу движущегося автобуса, проникнуть внутрь через аварийный выход и тайком определить, основываясь исключительно на собственных оценках веса пассажиров, являются ли они участниками исследования Americans’ Changing Lives. (Между прочим, этот сюжет ничуть не менее правдоподобен, чем сюжеты большинства приключенческих фильмов, зато гораздо более поучителен с образовательной точки зрения.)
После того как вертолет взлетает с базы войск спецназа, вам вручают автомат, несколько гранат, наручные часы (которые также могут выполнять функции видеокамеры с высоким разрешением) и вычисленные нами в предыдущей главе данные о среднем весе и стандартной ошибке для выборок, сформированных из участников исследования Americans’ Changing Lives. Любая случайная выборка из 60 его участников будет иметь ожидаемый средний вес 162 фунта и среднеквадратическое отклонение 36 фунтов, поскольку именно таковы среднее значение и среднеквадратическое отклонение для всех участников исследования (генеральной совокупности). С помощью этих даных вы можете вычислить стандартную ошибку для среднего значения выборок: s ÷ √n = 36 ÷ √60 = 36 ÷ 7,75 = 4,6. В центре управления миссией представленное ниже распределение выводится на внутреннюю поверхность сетчатки вашего правого глаза, чтобы вы могли использовать его в качестве справочной информации, после того как проникнете в автобус и будете тайно прикидывать вес всех его пассажиров.
Как следует из представленного распределения, можно ожидать, что средний вес приблизительно 95 % всех выборок из 60 человек, сформированных из участников исследования Americans’ Changing Lives, будет отстоять от среднего значения совокупности не более чем на две стандартные ошибки, то есть находиться в пределах от 153 фунтов до 171 фунта
[46]. И наоборот, лишь в 5 случаях из 100 средний вес выборки из 60 человек, сформированной случайным образом из участников исследования Americans’ Changing Lives, окажется больше 171 фунта или меньше 153 фунтов. (Вы выполняете так называемую двустороннюю проверку гипотезы; разницу между «двусторонней» и «односторонней» проверками я разъясню в приложении, помещенном в конце главы.) Ваш руководитель из центра контртеррористических операций решил, что уровень значимости для вашей миссии равняется 0,05. Если средний вес 60 пассажиров в автобусе, захваченном террористами, окажется больше 171 фунта или меньше 153 фунтов, то вам придется отвергнуть нулевую гипотезу о том, что в автобусе едут участники исследования Americans’ Changing Lives, и принять альтернативную гипотезу, что в автобусе находятся 60 человек, направляюшихся в какой-то другой пункт назначения, и ждать дальнейших указаний.