Излишнее стремление исследователей к положительным результатам – действительно очень большая проблема, особенно когда не исключена игра в “техасского стрелка”. Группа статистиков продемонстрировала, что, скрывая часть данных, постепенно увеличивая размер выборки и подгоняя гипотезу под получающиеся результаты, можно доказать все что угодно
[569].
В ходе эксперимента ученые оценили возраст двадцати студентов с помощью статистической модели, учитывающей отцовский возраст. Возраст испытуемых после “вмешательства” – прослушивания одной из двух песен – определялся по паспортным данным. Статистический анализ показал, что после прослушивания композиции When I’m Sixty-Four группы “Битлз” студенты “омолодились” примерно на полтора года по сравнению с контрольной группой, слушавшей “Калимбу” – музыку для Windows 7 (p < 0,05).
Авторы признаются, что при таком описании эксперимента скрыт ряд ключевых обстоятельств, знание которых полностью объясняет полученный абсурдный эффект. Во-первых, кажущееся омоложение возникает только благодаря статистической обработке, учитывающей отцовский возраст. Причем авторы пробовали включать в модель не только этот параметр, но и материнский возраст, самочувствие, политические предпочтения, степень согласия с утверждением, что “компьютеры – сложные машины”, и многое другое. Просто с возрастом отца результат получился самым заметным. Песен на самом деле было не две, а три, но с одной из них эффекта не наблюдалось. Статистический анализ проводился после добавления в выборку каждых десяти испытуемых. Все это – множественные степени свободы для исследователя, позволяющие получить желаемый результат. Если ученые будут комбинировать такие приемы, то без труда добьются того, что больше половины их исследований дадут ложноположительные результаты (при стандартном критерии p < 0,05).
В доказательной медицине придумали способ, позволяющий частично избежать изложенных проблем. В некоторых странах, если ученые задумывают клиническое исследование, они заранее формулируют, что и как именно будут изучать, и публикуют свой план задолго до получения данных, например, на сайте https://clinicaltrials.gov. Таким образом, все, кто прочитал статью, где сообщается о результатах исследования, включая ее рецензентов, могут сравнить реальные результаты с запланированными, а еще увидеть и проекты, не дошедшие до публикации. Например, на данный момент, когда я пишу эту книгу, из 62 завершенных зарегистрированных исследований с ключевым словом “гомеопатия” в названии выложены результаты только 11.
Увы, и с обычными лекарствами бывают похожие ситуации, затрудняющие оценку эффективности. Но теперь мы хотя бы лучше понимаем масштабы проблемы. Практика пререгистрации исследований пошла бы на пользу и другим областям науки. Любопытно, что сейчас ее начинают перенимать парапсихологи, опережая по методологии своих коллег из многих дисциплин, считающихся более научными. Однако и без подобных баз данных наука была бы честнее, если бы исследователи рассказывали обо всех проведенных экспериментах, а не только об успешных. Увы, для решения проблемы ложноположительных результатов одним ужесточением порогов при статистической обработке не ограничиться.
Другой способ повысить надежность научных исследований – проводить прямые повторные проверки. Эксперименты Бема вроде бы все про одно и то же – предвидение будущего, – однако заметно различаются в деталях. Такие воспроизведения не прямые – и по-прежнему содержат множественные степени свободы. Если же проводить эксперименты, идентичные предыдущим, и перепроверять уже полученные выводы, подогнать гипотезу под данные будет затруднительно.
Я уже упоминал, что многим ученым не удалось воспроизвести результаты экспериментов по предвидению будущего. Однако некоторые все же засвидетельствовали нечто подобное. В 2015 году Бем опубликовал обобщение результатов девяноста экспериментов (метаанализ) с суммарной выборкой свыше двенадцати тысяч человек и заключил, что небольшой эффект предвидения все-таки обнаруживается
[570]. Он заявил, что результат сохраняется, даже если учесть потенциальные недостающие публикации. Также он справедливо заметил, что стоит остерегаться байесовской ловушки: априорная вероятность существования предвидения хоть и мала, но не равняется нулю. Бем полагает, что, даже если полученные им свидетельства недостаточно убедительны, чтобы преодолеть всеобщий скептицизм, нам следует пересмотреть свои оценки вероятности для обнаруженного феномена.
Метаанализ Бема тоже подвергся критике,
[571]. Специалист по статистике и когнитивной психологии Даниэль Лакенс указал, что метаанализу по-прежнему присущи проблемы смещения данных в пользу положительных результатов и что анализировались далеко не все имевшиеся отрицательные результаты{Lakens D.: Why a meta-analysis of 90 precognition studies does not provide convincing evidence of a true effect. 2015. http://daniellakens.blogspot.ru/2015/04/why-meta-analysis-of-90-precognition.html}. Он отмечает, что заявленный эффект предвидения настолько мал, что непонятно, как его вообще обнаружили в исследованиях с малыми выборками. По-хорошему, он мог проявиться только в очень масштабном исследовании, с выборкой больше тысячи трехсот человек. Такое исследование действительно проводилось – и дало отрицательный результат.
Как отметил Молтон, такие исследования, как у Бема, имеют право на существование, но находятся все же на краю науки. Нет ничего плохого в том, что кто-то готов проверять невероятные гипотезы, пусть и, скорее всего, неверные. Главное – относиться к ним только как к предположениям, пока не накопится критическая масса подтверждений.
Я так подробно разобрал пример с исследованиями Бема, чтобы проиллюстрировать, насколько сложной бывает наука. Есть много подводных камней, о которых не всегда подозревают даже весьма уважаемые ученые. Неявные проблемы эксперимента или обобщенного анализа данных легко приводят к искажению результатов. К счастью, не перевелись еще скептики, которые пытаются во всем разобраться и все перепроверить – и находят потенциальные источники ошибок. Некоторые проблемы исследований универсальны, например случайные совпадения, ненадежность личного опыта и субъективных показаний. Другие известны лишь узким специалистам. Возможно, какие-то нам еще только предстоит открыть.