Одно из отличительных преимуществ наличия Р-значения 0,05 в качестве «привратника» для важного наблюдения состоит в том, что оно обеспечивает уровень очевидной объективности для научного наблюдения. Эта объективность возникает независимо от субъективного происхождения значения Р, равного 0,05, поскольку это общепринятый жесткий критерий, которому научное сообщество строго следует. Однако у этого есть и обратная сторона — тенденция к бинарному, черно-белому мышлению. Рассмотрим ситуацию, когда кто-то тестирует новое лекарство и группа пациентов, получающих это лекарство, чувствует себя лучше, чем группа, получающая плацебо (или одобренное в настоящее время лекарство). В этом конкретном примере значение Р для разницы составляет 0,06, что обычно описывается как «статистически незначимое». Для многих ученых и статистиков значение Р, равное 0,06, фактически указывает на отсутствие каких-либо различий между группами. Другими словами, никакой разницы не наблюдалось, и группы можно считать идентичными. Этот тип бинарного мышления значительно упрощает формулировку результатов исследований как «научных фактов» из категории «да» или «нет» и позволяет создавать сети убеждений, которые выглядят прочно стоящими на детерминированном фундаменте, без намека на сомнительную вероятность.
Важность принятого «жесткого ограничения» легитимности (значение Р = 0,05) действительно невозможно переоценить. Это исключает извечное человеческое стремление изменить цель задним числом и признать открытие как значимое (прискорбная и стойкая человеческая склонность)
[205]. Однако в то же время кажется близоруким и невежественным игнорировать все выводы и не принимать во внимание их в своем мышлении лишь потому, что они верны только в 94 % случаев. Другими словами, рассматривать наблюдаемую разницу со значением Р, равным 0,06, как если бы она была такой же, как если бы в данных не было никакой разницы
[206].
На практике при приближении к граничному значению Р = 0,05 возникают вполне реальные опасности. Что касается ошибок типа I, это означает, что до 1 из каждых 20 лекарств, которые мы даем пациентам, неэффективно. Другими словами, приблизительно 1 из каждых 20 лекарств, которые мы проверяем на эффективность, будет признано полезным, хотя на самом деле оно бесполезно. Таким образом, теоретически 5 % (1/20) лекарств, которые вы можете купить, могут вообще не принести пользы. Некоторые люди обвиняют крупные фармацевтические компании в циничном использовании этой проблемы, в том, что, обладая огромными ресурсами и влиянием, они тестируют 20 случайных лекарств для лечения определенной болезни, зная, что как минимум одно из них будет одобрено для клинического использования в силу случайных колебаний факторов, даже если оно бесполезно. Затем компания будет продавать это лекарство на потенциально крупном и прибыльном рынке и продолжать делать это до тех пор, пока не будет проведено новое исследование, которое ставит под сомнение первоначальный результат, — если такое исследование вообще когда-либо проведут. Это пример использования математического преимущества ошибок типа I.
С менее циничной точки зрения, если кто-то 20 раз проведет эксперимент, в котором нет реальной разницы между группами, то с вероятностью P < 0,05 в одной итерации эксперимента он обнаружит несуществующий эффект. Если отдельный ученый (или лаборатория) затем опубликует эту одну итерацию эксперимента и проигнорирует другие 19, это будет, по сути, недопустимым научным мошенничеством. Однако если 20 лабораторий проводят одно и то же общее исследование (без ведома друг друга), одна лаборатория, в силу стечения обстоятельств обнаружившая значительную разницу, наверняка опубликует свои результаты, а другие лаборатории — нет, поскольку им нечем похвастаться. Поскольку читатели научной литературы будут иметь доступ только к описанию эксперимента, в котором «значительный» эффект был обнаружен, это создаст видимость существенного прогресса в генерации знаний, хотя на самом деле это будет просто случайность
[207]. Это может произойти из-за социального явления, которое называется «предвзятостью публикации» или «предвзятостью отчетности». Практикующим ученым хорошо известно, что журналы склонны отдавать предпочтение положительным результатам, а не отрицательным. Поэтому ученые, как правило, не сообщают о неудачных экспериментах, и даже если они это делают, журналы, как правило, не публикуют такие материалы. Таким образом, хотя значение P = 0,05 очень полезно и защищает от серьезных проблем, присущих нормальному человеческому наблюдению, безусловно, оно также может вызвать проблемы.
Предвзятость публикаций и отчетности также может привести к тому, что я называю «уменьшением систематической ошибки повторения». Если первоначальный эксперимент показал разницу между группами со значением P менее 0,05, обычно его повторяют еще несколько раз, чтобы увидеть, была ли разница лишь случайностью с вероятностью 1/20 или она постоянна и воспроизводима с течением времени. Это просто хорошая научная практика. Однако если в первоначальном эксперименте не удается обнаружить существенной разницы, то, как правило, ученые стараются не тратить ресурсы на повторение эксперимента, чтобы исключить, что реальная разница была упущена случайно. Такое поведение мотивировано (отчасти) затруднениями с публикацией отрицательных результатов, но также, вероятно, общей психологической предвзятостью человека — его склонностью придавать особое значение только очевидным положительным результатам. В любом случае, некоторые важные причинные связи в результате теряются из виду, потому что, когда они случайно упущены, второй раз их не ищут.
Существуют различные реальные ситуации, в которых строгое использование учеными P-значений нанесло реальный ущерб. Одним из примеров может служить разработка лечебных протоколов диализа почек. Многие ретроспективные данные свидетельствуют о том, что увеличение продолжительности диализа привело к увеличению продолжительности жизни пациентов с больными почками. Рандомизированное клиническое испытание для сравнения более длительных и более коротких процедур диализа показало разницу, как и предполагалось, но со значением P = 0,06. Как я говорил ранее, с формальной точки зрения такой результат не считается достоверно обнаруженным, поскольку с вероятностью 1/16 мог возникнуть случайно; поэтому экспериментаторы сделали вывод об «отсутствии разницы». Они действительно заметили разницу в своих данных, то есть одно значение отличалось от другого, но данные не соответствовали пороговому значению 0,05.