Пользу методов, позволяющих судить о многом по малому, сознавали еще древние греки. В 479 году до н. э., когда союз городов-государств собирался напасть на город Платеи, нужно было узнать длину лестниц, необходимых, чтобы подняться на его стены. К городу отправили воинов, поручив им измерить образцы кирпичей, из которых были сложены городские стены. Взяв средний размер и умножив его на число кирпичей, которые были видны в стенах, нападавшие получили достаточно точную оценку высоты стен.
Но более замысловатые методы начали появляться лишь в XVII веке. В 1662 году Джон Граунт впервые оценил численность населения Лондона по числу похорон, проходящих в городе. Исходя из данных приходских книг, он предположил, что в каждых 11 семьях ежегодно умирают по 3 человека, а средний размер семьи составляет 8 человек. Поскольку в городе регистрировались 13 000 похорон в год, это позволило ему оценить численность населения Лондона в 384 000 человек. В 1802 году французский математик Пьер-Симон Лаплас пошел еще дальше: он использовал выборку записей о крещении в 30 приходах для получения оценки численности населения всей Франции. Из его анализа этих данных следовало, что на каждых 28,35 человека, живущих в каждом приходе, получалось по одному крещению. Воспользовавшись суммарным числом крещений во Франции за тот же год, он получил оценку численности населения страны – 28,3 миллиона человек.
Даже для определения количества кошек в Великобритании необходим статистический шорткат, позволяющий переходить от малого к большому. В случае кошачьего населения Великобритании можно использовать метод, сходный с тем, который применили греческие воины: измерить небольшую выборку и пропорционально увеличить результат. Зная число кошек на одного человека в малой выборке, можно получить оценку для всей страны, просто умножив его на суммарную численность населения. Но что делать, если нужно оценить суммарное количество барсуков, живущих в Великобритании в дикой природе? Поскольку ни один из этих барсуков не принадлежит людям, использовать количество людей, как в случае кошек, нельзя.
Вместо этого экологи используют хитроумный шорткат под названием «метод поимки с повторной поимкой». Он основан на той же стратегии, что и оценка Лапласа. Предположим, они пытаются оценить размеры популяции барсуков в графстве Глостершир. Сначала экологи ставят несколько ловушек и ловят барсуков в течение определенного периода. Откуда они знают, какую долю барсуков они поймали? Пока ниоткуда. Но вот на какую хитрость они идут. Они метят всех пойманных барсуков и снова отпускают их на волю, позволяя меченым животным вновь смешаться с общей популяцией. Затем устанавливают по всему графству видеокамеры, регистрирующие появление барсуков. Таким образом, они получают два разных числа: суммарное количество барсуков, замеченных камерами, и количество меченых барсуков. Это позволяет определить долю меченых животных среди попавших на камеру. Затем производится масштабирование. Зная, сколько всего в графстве меченых барсуков и какую часть всей популяции барсуков они составляют, можно оценить суммарное количество барсуков в графстве.
Предположим, например, что при первой поимке были пойманы и помечены 100 барсуков, а в выборке последующего видеонаблюдения меченым был 1 барсук из каждых 10. Предполагая, что во всей популяции такая же доля меченых животных, как и в наших видеозаписях, можно оценить ее суммарную численность в 1000 особей. В случае Лапласа новорожденные (число которых известно) соответствуют меченой части полной популяции (численность которой неизвестна), а подсчет количества новорожденных в 30 приходах (оба эти числа известны) соответствует этапу повторной поимки в эксперименте с барсуками.
Этот метод использовался для оценки всего на свете – от числа людей, находящихся сейчас в рабстве на территории Великобритании, до количества танков, производившихся в Германии во время Второй мировой войны.
Проблема с шорткатами заключается в том, что они не всегда ведут к знанию. Бывает так, что они сбивают с верной дороги, лишь создают иллюзию достижения ответа, тогда как на самом деле уводят за многие мили от той цели, до которой вам нужно добраться. Опасны этим и статистические шорткаты. Иногда они бывают не настоящими шорткатами, а способами срезать углы.
Хотя 246 кошек могут дать какое-то представление о предпочтении всего 7-миллионного кошачьего населения, на выборке из 10 кошек, разумеется, нечего и надеяться что-либо понять. Тем не менее в научной литературе есть масса примеров предполагаемых открытий, основанных на таких смехотворно малых выборках. Такое часто бывает во многих исследованиях по психофизике и нейрофизиологии, опубликованных в крупных журналах, просто потому, что набрать большое количество участников для таких исследований бывает трудно. Но можно ли в самом деле делать какие бы то ни было выводы из исследований, проведенных на двух макаках-резусах или четырех крысах?
К сожалению, о сенсационных открытиях типа «8 из 10 X предпочитают Y» часто объявляют, ничего не говоря о размерах использованной выборки, что не позволяет оценить вероятность того, что это открытие соответствует действительности.
Золотой стандарт для обоснованного сообщения о значительном открытии дают те параметры, которые я установил для создания представительной выборки в опросе о кошачьем корме. Тогда я решил, что меня устроит размер выборки, при котором предпочтения кошек будут правильно представлены в 19 случаях из 20.
Когда речь идет о научных открытиях и их потенциальной значимости, например, о действенности нового лекарства при лечении некоего заболевания, результаты можно считать значимыми, если вероятность того, что пациент выздоровел бы и без приема лекарства, составляет менее 1 шанса из 20. Предположим, вы придумали заклинание, делающее так, что подброшенная монета падает орлом. Большинство людей в это не поверит; что же вам нужно сделать, чтобы убедить их? Допустим, после применения вашего заклинания орел выпадает в 15 случаях из 20. Означает ли это, что заклинание, возможно, работает? Если подсчитать вероятность того, что при случайном подбрасывании «честной» (никак не измененной) монеты без заклинания в 15 случаях из 20 выпадет орел, окажется, что она составляет менее 1 шанса из 20. Значит, тот факт, что после применения вашего заклинания орел выпал 15 раз, позволяет предположить, что заклинание действительно работает.
Начиная с 1920-х годов пороговым уровнем вероятности случайного результата, необходимым, чтобы открытие можно было признать «статистически значимым» и пригодным для публикации, считают 1/20. Когда эта вероятность ниже, говорят, что P-значение меньше 0,05. Одна двадцатая означает 5-процентную вероятность того, что рассматриваемое событие произошло случайно.
Беда в том, что, если взять всего двадцать исследовательских групп, одна из них с очень высокой вероятностью может получить такой случайный результат. Девятнадцать групп займутся другими идеями, но двадцатая придет в чрезвычайно сильное волнение, так как будет считать, что получила значимый результат, соответствующий статистическому критерию пригодности для публикации. Легко понять, почему при использовании этого порогового критерия в научной литературе появляется такое количество сумасбродных гипотез. Именно поэтому появляются призывы перепроверять многие из результатов, опубликованных благодаря тому, что они прошли эту проверку на статистическую значимость.