Выловить такого рода чепуху несложно. На сайте Spurious Correlations
[175] («Подложные взаимосвязи») Тайлер Виген прочесывает тысячи переменных, чтобы найти пары с тесной, но случайной корреляцией. Например, число утонувших в бассейнах с 1999 по 2009 год шокирующим образом соотносится с количеством фильмов, в которых играет Николас Кейдж.
Засорите фильтр, отсеивающий фантомы, и несколько ложноположительных результатов непременно прокрадутся в цитадель.
Я решил убедиться в этом самостоятельно и разбил 90 респондентов на три группы. Каждый испытуемый выпил или воду из-под крана, или бутилированную воду, или их смесь. Затем я измерил четыре переменные: время бега на стометровку, уровень IQ, рост и любовь к песням Бейонсе. Дальше я провел всевозможные сравнения. Кто пробегает стометровку быстрее: те, кто пил воду из-под крана, или те, кто пил бутилированную воду? Кто больший фанат Бейонсе: те, кто пил бутилированную воду, или те, кто пил смесь? И так далее. Это исследование заняло у меня восемь месяцев.
Да нет, конечно. Я заполнил таблицу с помощью генератора случайных чисел и проделал 50 экспериментов за несколько минут.
Все «респонденты» в принципе не отличались друг от друга: одна и та же программа выдавала произвольные наборы чисел. Все отличия были чисто случайными. Тем не менее три группы и четыре переменные дали 18 «значимых» результатов в 50 экспериментах.
Фантомы, которые впустило p-значение, составили не 1/20, а больше трети.
Есть и другие способы взломать p-значение. В 2011 году анонимный опрос психологов показал, что они практикуют «сомнительные исследовательские методы»
[176].
Даже самые невинно выглядящие из этих собак могут укусить. Например, сбор дополнительных данных в том случае, если вы не добились желаемого результата с первого раза. Звучит безобидно, правда?
Чтобы оценить силу этого хакерского p-взлома, я смоделировал на компьютере исследование «Кто лучше играет в орлянку?». Проще простого: два «человека» (читай: столбцы чисел) подбрасывают десять монет. Затем мы проверяем, у кого больше решек. Проведя 20 экспериментов, я добился значимого результата один-единственный раз. Вы ожидаете от p-значения именно этого: 20 попыток, один фантом. Сердце бьется ровно.
Затем я пустился во все тяжкие. Подбросьте еще одну монету. И еще одну. И еще одну. Остановите исследование, если p-значение опустится ниже 0,05 (или мы безуспешно подбросим тысячу монет).
Результат преобразился. На сей раз 12 из 20 экспериментов дали значимый результат
[177].
Такие фокусы не вполне научны, но это и не бесстыдное мошенничество. Три автора назвали такого рода методы в своей статье «стероидными препаратами научных исследований, которые искусственно повышают эффективность и порождают что-то вроде гонки вооружений, в которой добросовестные исследователи, соблюдающие правила, находятся в невыгодной позиции».
Есть ли способ выровнять игру?
4. Война с фантомами
Кризис, связанный с тиражированием фантомов, оживил старое соперничество между двумя бандами статистиков: частотниками и байесовцами.
Со времен Фишера приверженцы частотной вероятности имели превосходство. Их статистические модели основаны на нейтральности и минимализме. Долой субъективные суждения. Долой тенденциозность. При подсчете p-критерия нам плевать, какую гипотезу мы проверяем — безумную или надежную. Время субъективного анализа наступит позже.
Байесовцы
отвергли эту беспристрастность. Почему специалисты по статистике должны притворяться, что не видят различий между правдоподобными и абсурдными гипотезами, как будто все 0,05 созданы равными?
Байесовская альтернатива работает примерно следующим образом. Вы начинаете с предварительной оценки вероятности того, что ваша гипотеза верна. Мятные леденцы устраняют неприятный запах изо рта? Очень даже может быть. Мятные леденцы лечат кости? Крайне маловероятно. Вы формулируете эту оценку на математическом языке с помощью так называемой формулы Байеса. Затем, по итогам эксперимента, статистика поможет обновить предварительное суждение, сопоставляя прежние знания и новые данные.
Байесовцам безразлично, пользуемся ли мы условным фильтром фантомов, чтобы отсеять ложные результаты. Они заботятся о том, позволяют ли новые данные поколебать наши предварительные оценки.
Байесовцы чувствуют, что пробил их час. Они утверждают: режим приверженцев частотной вероятности потерпел крах и пришло время провозгласить новую эру. Поклонники частотной вероятности парируют: предварительные суждения слишком произвольны, чересчур уязвимы, дают широкие возможности для злоупотреблений. Они предлагают свои собственные реформы, например снижение порога p-значения от 0,05 (т. е. 1 из 20) до 0,005 (т. е. 1 из 200)
[178].