Полностью отказаться от суррогатных исходов невозможно. Они могут значительно уменьшить количество участников, продолжительность эксперимента, а значит, и его стоимость. Однако полагаться на единичные суррогатные исходы опасно, и к их выбору нужно относиться очень серьезно. Нельзя использовать биомаркер лишь на основании обнаруженной в наблюдательных исследованиях статистической корреляции c важным для пациента исходом и биологически правдоподобной связи между ними. Нужно, чтобы надежность суррогатного исхода подтверждалась и данными многочисленных клинических экспериментов.
P < 0,05
Предложенный Рональдом Фишером критерий статистической значимости p < 0,05
[212] надежно закрепился в качестве порога, разделяющего результаты научных исследований на положительные и отрицательные. Практически во всех медицинских исследованиях используют тот или иной метод расчета p, и в большинстве 0,05 выбрано как пороговое значение. Однако недавно эта практика, которой скоро исполнится уже сто лет, была подвергнута жесткой критике и названа одной из главных причин кризиса воспроизводимости.
В 2017 году несколько ведущих статистиков опубликовали в журнале Nature манифест “Пересмотреть статистическую значимость”, в котором призвали отказаться от критерия p < 0,05 и заменить его на p < 0,005. Авторы пообещали, что этот простой шаг немедленно приведет к улучшению ситуации с воспроизводимостью научных исследований во многих областях. В чем же проблема с проверенным десятилетиями и привычным большинству ученых и врачей p < 0,05?
Многие из тех, кто читает и даже пишет научные статьи, неправильно понимают смысл p-значения. Распространена ошибочная интерпретация p как вероятности ложноположительного результата. А значит, при p < 0,05 вероятность, что нулевая теория верна и отклонена ошибочно, не превышает 5%. Ошибка в том, что p-значение – это не вероятность правильности нулевой теории при условии получения наблюдаемых данных. Это вероятность наблюдать такие данные при условии, что нулевая теория верна. Разница принципиальная. Так, вероятность, что вы беременны, если вы женщина, не равна вероятности того, что вы женщина, если вы беременны. В первом случае она равна 3%
[213], во втором же стремится к 100%.
Так какова же реальная вероятность, что мы ошибочно отклонили нулевую теорию и пришли к выводу о существовании эффекта там, где его нет, если мы ориентируемся на p < 0,05? Предположим, что верны 10% выдвигаемых экспериментаторами гипотез. Судя по доле лекарств, которые доходят от начала клинических испытаний до регистрации, даже эта цифра оптимистична
[214]. Тогда из 1000 экспериментов в 900 будет верна нулевая гипотеза (лекарство не работает), а в 100 – альтернативная (лекарство работает). При пороговом p=0,05 или чуть меньшем нулевая гипотеза будет ошибочно опровергнута в 900 × 0,05=45 случаях из 900.
Чтобы понять, что произойдет с теми 100 экспериментами, где нулевая гипотеза ошибочна, то есть эффект лекарства реально существует, нам нужно учесть статистическую мощность
[215]. По некоторым оценкам, в клинических испытаниях она, как правило, недостаточна и в среднем составляет примерно 50%. А значит, мы обнаружим существующий эффект в 50 случаях из 100.
Итак, будут опубликованы 95 положительных результатов, 45 из которых, то есть почти половина, будут ошибочны. Доля ложноположительных результатов в этом случае 47%, а вовсе не 5%. Соответственно, на более ранних этапах поиска, например при доклинических исследованиях, где доля ошибочных гипотез намного выше, соотношение ошибочных и реальных положительных результатов будет еще больше смещаться в сторону первых. Очевидно, что p < 0,05 абсолютно не пригодно в качестве единственного критерия, разделяющего результаты клинических испытаний на положительные и отрицательные.
Предложение снизить критерий статистической значимости до p < 0,005 встретило бурное сопротивление. Некоторые были против, поскольку такое изменение потребовало бы значительно увеличить количество участников, а значит, и стоимость исследований. Помимо этого, очевидно, что будет поставлена под сомнение реальность невероятного количества найденных ранее эффектов в диапазоне 0,005 < p < 0,05.
Другие критики обратили внимание, что если на практике доля воспроизведенных результатов в интервале p-значения 0,005–0,05 равна 24%, то для p < 0,005 она тоже далека от идеальной и составит 49%. Судя по всему, простое снижение порогового p-значения улучшит ситуацию, но не решит проблему полностью. Причина в том, что кризис воспроизводимости вызван не p < 0,05 самим по себе, а различными приемами, которые исследователи применяют для того, чтобы искусственно протолкнуть результаты своих исследований за столь желанный порог статистической значимости. Такая манипуляция данными в процессе статистического анализа называется p-хакингом.
Как стать p-хакером
В 1980 году группа исследователей провела контролируемый эксперимент, для которого было отобрано 1075 пациентов с заболеваниями сосудов сердца. Их рандомизировали в две группы, назначив каждой определенное лечение, назовем их А и В. Рандомизация была проведена корректно, и исходно группы были похожи по основным параметрам. После лечения выживаемость в обеих группах оказалась одинаковой. Но, разделив группы на несколько подгрупп – по возрасту, количеству пораженных сосудов и некоторым важным симптомам, – исследователи получили интересные результаты. Выживаемость группы А стала статистически значимо выше в подгруппе с поражением трех сосудов сердца и аномальным сокращением левого желудочка (p < 0,025), а в подгруппе с поражением трех сосудов, аномальным сокращением левого желудочка и отсутствием признаков сердечной недостаточности критерий статистической значимости для разницы был еще ниже (p < 0,01).
Отлично, разве не для этого мы проводим рандомизированные клинические исследования? Однако исследователи не спешили рекомендовать лечение А пациентам с поражением трех сосудов, аномальным сокращением левого желудочка и отсутствием признаков сердечной недостаточности. На самом деле в этом эксперименте ни одна из групп не получила никакого лечения. Да и пациентов никаких не было: их роль выполнили истории болезни из базы данных медицинского центра при Университете Дьюка. Они содержали данные о возрасте и поле когда-то лечившихся там пациентов, симптомах болезни, количестве пораженных сосудов и о том, сколько они прожили после лечения. Всех пациентов лечили одним и тем же методом. Статистически значимые различия между группами A и B обнаружили там, где их не должно было быть.