Именно этот наклон отображает факт p-хакинга. Такой график говорит о том, что результаты многих экспериментов, попадающие на ту сторону границы p = 0,05, на которой находятся не подлежащие публикации работы, посредством обмана, незначительных изменений, поправок или элементарного искажения были перенесены на более благоприятную сторону графика. Это хорошо для ученых, но плохо для науки.
Но что если автор работы отказывается истязать данные или если пытки все равно не дают требуемого результата и p-значение остается на уровне, слегка превышающем столь важный порог 0,05? В этом случае есть обходные пути. Ученые придумывают замысловатые формулировки, пытаясь оправдать получение результатов, не достигших порога статистической значимости. Они говорят, что эти результаты «почти значимы», «склоняются к значимости», «находятся на грани значимости» или даже что они «колеблются на пределе значимости»
[143]. Конечно, можно было бы просто высмеять испытывающих такие муки исследователей, полагающихся на подобные фразы, но мы должны критиковать игру, а не игроков, ведь не они виновны в том, что публикация результатов их работы зависит от принципа «все или ничего». Принимать решение «жить или умереть» исключительно по значению 0,05 означало бы совершить крупную ошибку, обращаясь с непрерывной переменной (сколько у нас есть доказательств в пользу того, что лекарственный препарат работает, ген определяет IQ, а женщины в фертильный период отдают предпочтение республиканцам?) так, будто это бинарная переменная (истинный или ложный? да или нет?). Ученым необходимо дать возможность составлять отчеты о статистически незначимых данных.
В некоторых ситуациях их даже можно вынудить сделать это. Верховный суд США в 2010 году единогласно вынес решение, что Matrixx, производитель средства от простуды Zicam, обязан раскрыть информацию о том, что у некоторых пациентов, принимавших этот препарат, возникла аносмия, потеря обоняния
{129}. В этом судебном решении, которое составила Соня Сотомайор, было сказано, что, хотя данные о случаях аносмии не прошли проверку значимости, они все-таки входят в «общую совокупность» информации, на доступ к которой у инвесторов компании есть полное право. Результат с низким p-значением может представлять собой слабое доказательство, но слабое доказательство – это лучше, чем полное его отсутствие; результат с высоким р-значением мог бы стать более сильным доказательством, но, как мы уже видели, он все равно далек от подтверждения того факта, что заявленное воздействие реально.
Если уж на то пошло, в значении 0,05 нет ничего особенного. Это абсолютно произвольное значение, чистая условность, которую выбрал Фишер. Такое условное значение имеет свою ценность: благодаря единой пороговой величине, которую принимают все, мы знаем, о чем говорим, когда произносим слово «значимый». В свое время я прочитал статью Роберта Ректора и Кирка Джонсона о консервативной организации Heritage Foundation (фонд «Наследие»), которая жаловалась на ошибочное заявление конкурирующей группы ученых по поводу того, что обет воздержания не оказывает никакого воздействия на уровень распространенности заболеваний, передающихся половым путем, в подростковом возрасте
{130}. На самом деле среди принимавших участие в исследовании юношей и девушек до 20 лет, которые дали обет воздержания до первой брачной ночи, уровень распространенности заболеваний, передающихся половым путем, действительно был немного ниже, чем среди остальных членов выборки, но это различие не было статистически значимым. Представители фонда «Наследия» были в чем-то правы: доказательства того, что обет воздержания работает, были слабыми, но они все-таки были.
В то же время Ректор и Джонсон пишут в другой работе по теме статистически незначимой связи между расой и бедностью, которую они хотели бы отбросить: «Если переменная не является статистически значимой, это означает, что у этой переменной нет статистически заметной разницы между значением коэффициента и нолем, а значит, нет и воздействия»
{131}. Что хорошо для трезвой гусыни, то хорошо и для перебравшего гусака! Ценность условной границы состоит в том, что она в какой-то мере дисциплинирует исследователей, удерживая их от искушения позволить собственным предпочтениям определять, какие результаты имеют значение, а какие нет.
Однако условную границу, если придерживаться ее достаточно долго, можно ошибочно принять за то, что действительно происходит в реальном мире. Представьте, что было бы, если мы говорили бы в таком духе о состоянии экономики! У экономистов есть формальное определение рецессии, которое зависит от произвольных пороговых значений, как и в случае статистической значимости. Никто не скажет: «Меня не интересует уровень безработицы, или количество строящихся жилых домов, или совокупный объем задолженности по студенческим кредитам, или дефицит федерального бюджета; если это не рецессия, мы не станем это обсуждать». Было бы глупо так говорить. Однако критики (а их с каждым годом все больше, и их голоса становятся все громче) заявляют о том, что значительная часть научной практики – это такая же глупость.
Детектив, не судья
Очевидно, что было бы ошибкой использовать р < 0,05 в качестве синонима определения «истинный» и p > 0,05 для обозначения понятия «ложный». Доказательство от маловероятного, само по себе интуитивно привлекательное, просто не работает в качестве принципа для выведения научной истины, лежащей в основе данных.
Но какова альтернатива? Если вы когда-либо проводили эксперимент, вам известно, что научная истина не возникает из облаков, взывая к вам звуком громогласной трубы. Данные не всегда упорядочены, а логический вывод – трудный процесс.
Одна простая и распространенная стратегия сводится к тому, чтобы помимо р-значений сообщать также доверительные интервалы. Это подразумевает некоторое расширение концептуальных рамок, предлагая нам анализировать не только нулевую гипотезу, но и весь диапазон альтернатив. Предположим, у вас онлайновый магазин, который продает изготовленные кустарным способом фестонные ножницы. Будучи современным человеком (если не считать того, что вы занимаетесь изготовлением фестонных ножниц), вы устраиваете проверку «А или Б», в ходе которой половина пользователей видит текущую версию вашего веб-сайта (А), а другая половина – обновленную версию (Б) с анимационным изображением пары ножниц, которые поют и танцуют, расположившись над кнопкой «Купить сейчас». После тестирования этих двух версий сайта вы обнаруживаете, что на сайте Б объем покупок увеличивается на 10 %. Отлично! Теперь, если вы человек продвинутый, у вас может возникнуть беспокойство по поводу того, не было ли это увеличение случайной флуктуацией, поэтому вы вычисляете р-значение и приходите к выводу, что вероятность получения такого хорошего результата в случае, если переформатирование сайта действительно не работало бы (то есть если нулевая гипотеза оказалась бы верной), составляет всего 0,03
[144].