В этом и состоит проблема: различие слишком большое. Действительно ли возможно, что среди всех состоящих в браке женщин, испытывающих симпатию к Митту Ромни, почти половина на протяжении большой части месяца поддерживают Барака Обаму? Неужели этого никто не заметил бы?
Если даже политический поворот в сторону правых во время овуляции действительно существует, то он, по-видимому, существенно меньше. Однако сравнительно небольшой размер исследуемой выборки означает, что, как ни парадоксально, более реалистичная оценка воздействия будет отброшена фильтром p-значения. Другими словами, мы можем быть вполне уверены, что значительное воздействие, о котором свидетельствуют результаты исследования, – это главным образом или всецело всего лишь шум в сигнале.
Однако этот шум с одинаковой вероятностью может направить вас в сторону, противоположную реальному воздействию, а может сказать правду
{124}. В итоге мы остаемся в неведении, получив результат, имеющий высокую статистическую значимость, но весьма низкую достоверность.
Ученые называют эту проблему «проклятие победителя», и это одна из причин, почему при повторном проведении того же опыта впечатляющие, громко расхваливаемые результаты экспериментов зачастую тают, превращаясь в удручающую лужицу. В одном показательном случае группа ученых под руководством Кристофера Шабри
[140] изучала тринадцать одиночных нуклеотидных полиморфизмов (single-nucleotide polymorphism, далее по тексту – SNP) в геноме, которые в предыдущих исследованиях показали статистически значимую корреляцию с показателем IQ
[141]. Нам известно, что способность успешно проходить тесты на определение коэффициента интеллекта в какой-то мере передается по наследству, поэтому поиск генетических маркеров не лишен оснований. Однако, когда команда Шабри проверила эти SNP на предмет корреляции с показателями IQ на больших множествах данных (таких как данные висконсинского лонгитюдного исследования, охватившего 10 тысяч человек), все эти связи оказались статистически незначимыми
{125}: если такие связи и существуют, они почти наверняка настолько слабые, что их невозможно обнаружить даже в ходе крупного эксперимента. В наше время специалисты по геномике считают, что наследственный компонент IQ, по всей вероятности, не сосредоточен в нескольких генах «умности», а скорее, формируется как совокупность многочисленных генетических особенностей, каждая из которых оказывает малое воздействие. Это означает, что, занявшись поиском большого воздействия отдельных полиморфизмов, вы добьетесь успеха – с тем же показателем 1 из 20, что и в случае гадания по внутренностям животных.
На самом деле даже Иоаннидис не считает, что только одна из тысячи опубликованных работ безошибочна. Большинство научных исследований не сводится к произвольному блужданию по геному; они проверяют гипотезы, в отношении которых у исследователей есть основания считать, что они истинны, поэтому нижняя строка матрицы не так уж значительно преобладает над верхней строкой. Однако кризис воспроизводимости результатов исследований действительно имеет место. В 2012 году было проведено исследование, в ходе которого ученые из калифорнийской биотехнологической компании Amgen попытались воспроизвести ряд самых известных экспериментальных результатов исследований в области биологии рака (всего пятьдесят три исследования)
{126}. В процессе проведения независимых испытаний они смогли воспроизвести результаты лишь шести работ.
Как такое могло произойти? Причина не в том, что специалисты по геномике и ученые, изучающие онкологические заболевания, кретины. В какой-то мере кризис воспроизводимости результатов исследований – это просто отражение того факта, что наука трудна, а большинство идей, которые у нас возникают, оказываются неправильными – даже большинство идей, которые прошли первый круг тестирования.
Однако в мире науки существуют практики, которые еще больше усугубляют кризис воспроизводимости результатов исследований, и их можно изменить. Во-первых, мы используем неправильный подход к публикации научных работ. Рассмотрим в качестве примера ситуацию, изображенную на комиксе.
Предположим, вы проверили двадцать генетических маркеров на наличие связи с тем или иным заболеванием и обнаружили, что только один результат имеет статистическую значимость p < 0,05. Будучи грамотным математиком, вы осознаете, что один успешный результат из двадцати – это в точности то, чего вы ожидали бы, если ни один из маркеров не оказывал бы никакого воздействия, и высмеяли бы ничем не обоснованный заголовок, как это пытается сделать художник, нарисовавший этот комикс.