Мне немного жаль, что вы вообще беспокоились по поводу излишне серьезного подхода к проверке значимости, представленного Нейманом и Пирсоном в виде критических областей и т. д. В действительности я и мои ученики во всем мире даже не думали использовать их. Если меня попросят назвать точную причину этого, я скажу, что они подходят к проблеме совершенно не с того конца, то есть не с точки зрения исследователя, с базой обоснованных знаний, в рамках которой весьма неустойчивая совокупность гипотез и несвязанных наблюдений подвергается постоянному анализу. Что ему необходимо, так это уверенный ответ на вопрос: «Следует ли мне учитывать это?» Безусловно, этот вопрос можно и ради уточнения идеи необходимо сформулировать так: «Отбрасывает ли эта совокупность наблюдений данную гипотезу, и если да, то при каком уровне значимости?» В таком виде это можно недвусмысленно сформулировать только потому, что у настоящего экспериментатора уже есть ответы на все вопросы, на которые последователи Неймана и Пирсона пытаются (думаю, напрасно) ответить исключительно посредством математических размышлений
{133}.
Конечно, Фишер понимал, что достичь порога статистической значимости – это не то же самое, что найти истину. В 1926 году он писал и о более богатом, более итеративном подходе: «Научный факт следует считать экспериментально установленным только в случае, если должным образом спланированный эксперимент редко не обеспечивает данный уровень значимости»
{134}.
Здесь сказано не «один раз обеспечивает данный уровень значимости», а «редко не обеспечивает данный уровень значимости». Статистически значимый результат дает вам подсказку по поводу того, на чем следует сосредоточить свою исследовательскую энергию. Проверка значимости – это детектив, а не судья. Вам ведь известно: когда вы читаете статью о революционном открытии по поводу того, что это вызывает то-то или что одно предотвращает другое, в конце всегда есть банальное высказывание ведущего ученого, не принимавшего участия в исследовании, который провозглашает нечто несущественное в следующем духе: «Это довольно интересное открытие, предполагающее, что необходимо провести дополнительные исследования в этом направлении»? А ведь вы даже не читаете эту часть публикации, поскольку считаете ее обязательным предостережением, не имеющим смысла.
Но дело вот в чем: ученые всегда говорят так лишь потому, что это важно и это правда! Интересное и ах-какое-статистически-значимое-открытие – это не заключительная часть научного процесса, а его начало. Если получен беспрецедентный, важный результат, другие ученые в других лабораториях должны многократно протестировать этот феномен и его варианты, пытаясь понять, является ли результат счастливой случайностью или он действительно соответствует фишеровскому стандарту «редко не обеспечивает данный уровень значимости». Это и есть то, что ученые называют воспроизводимостью: если воздействие нельзя воспроизвести, несмотря на многократные попытки, наука отступает, признавая свою ошибку. Предполагается, что такой процесс воспроизведения должен стать иммунной системой науки, которая атакует новые объекты и уничтожает те из них, которым здесь не место.
Однако это идеал. На практике у науки несколько ослабленный иммунитет. Безусловно, некоторые эксперименты трудно воспроизвести. Если задача вашего исследования состоит в том, чтобы оценить способность четырехлетних детей к отсрочке вознаграждения, а затем соотносит эти данные с итогами жизни тридцать лет спустя, вы не можете просто организовать воспроизведение эксперимента.
Но даже результаты исследований, которые можно было бы повторить, во многих случаях не воспроизводятся. Каждый журнал стремится опубликовать важное открытие, но кто хочет публиковать работу, в которой идет речь о повторении того же эксперимента год спустя с теми же результатами? Что происходит с исследованиями, в ходе которых проводятся такие же эксперименты, но полученный результат не является статистически значимым? Для того чтобы система работала, результаты этих экспериментов необходимо сделать общедоступными. Но вместо этого они слишком часто оказываются в архиве.
Однако культура меняется. Активные реформаторы, как Иоаннидис и Саймонсон, выступающие как перед научным сообществом, так и перед широкой общественностью, подняли вопрос об актуальности такой проблемы, как опасность сползания к крупномасштабному гаданию по внутренностям животных. Ассоциация психологических наук в 2013 году объявила о начале публикации новой категории статей под названием «Отчеты о зарегистрированных случаях воспроизведения результатов исследований». Способ рассмотрения отчетов об экспериментах, ориентированных на воспроизведение результатов широко известных исследований, существенно отличается от того, как рассматриваются обычные работы: материалы предложенного эксперимента принимаются к публикации до проведения самого исследования. Если результаты этого эксперимента подтверждают первоначальный вывод – отлично, если нет, они все равно публикуются, благодаря чему все научное сообщество может получить исчерпывающую информацию о фактическом положении вещей. Еще одно объединение, проект Many Labs, проводит повторную проверку открытий в области психологии, получивших широкую огласку, и пытается воспроизвести их на больших многонациональных выборках. В ноябре 2013 года психологи с воодушевлением приняли первые итоги проверки воспроизводимости, полученные Many Labs: результаты десяти из тринадцати исследований были успешно воспроизведены.
Безусловно, в конечном счете необходимо сделать окончательные выводы и подвести черту. В конце концов, что именно имел в виду Фишер под словом «редко» во фразе «редко не обеспечивает данный уровень значимости»? Присвоив этому слову произвольное числовое значение («воздействие действительно имеет место, если оно достигает статистической значимости в более чем 90 % экспериментов»), мы можем снова оказаться в трудной ситуации.
Как бы там ни было, Фишер не верил в существование непреложного правила, которое говорит нам, что делать. Он не признавал чистого математического формализма. В самом конце своей жизни, в 1956 году, он писал: «В действительности ни у одного ученого нет фиксированного уровня значимости, в соответствии с которым он из года в год, при любых обстоятельствах отбрасывает гипотезы; скорее, он осмысливает каждую конкретную гипотезу в свете имеющихся доказательств и идей»
{135}.