Что же произошло? Авторы исследования-имитации всего лишь задействовали пару приемов, используемых для p-хакинга – преодоления порога статистической значимости в отсутствие реальной разницы между группами. Легко представить, что, будучи примененными в реальном РКИ, эти манипуляции позволят легко обосновать ложный вывод об эффективности бесполезного лекарства.
Масштаб p-хакинга помогает осознать опубликованная в интернете база данных tidypvals, где собрано два с половиной миллиона p-значений из разных областей науки. Ее создатели предположили, что если p-хакинг существует и распространен, то при анализе распределения опубликованных в научных журналах p-значений будет виден “горбик” – заметное увеличение количества p-значений, которые лишь немногим меньше 0,05. Действительно, для большинства областей науки он оказался явно выражен, и медицина – одна из тех, где проблема наиболее наглядна. При этом внутри медицины есть сегменты, например альтернативная медицина, диетология, фармакология и стоматология, где она особенно бросается в глаза.
У p-хакеров богатый инструментарий. Формирование гипотез после того, как получены результаты, называют харкингом (от англ. HARKing
[216], Hypothesizing After the Results are Known – “строить гипотезы, когда результат уже известен”). Представьте стрелка, который делает пять выстрелов в мишень и попадает в две единицы, двойку, семерку и молоко. Не очень меткий стрелок, скажете вы. А если он скажет, что таким и был изначально его план и он точно выполнил его с первого раза? Пользуясь этой методикой, любой может немедленно стать блестящим снайпером: достаточно говорить, в чем состояла задача, уже отстрелявшись. Понятно, что формулировка задачи будет зависеть от случайного результата, который вы перед этим получили.
Харкинг реализуется последовательной проверкой различных гипотез, пока одна из них случайным образом не даст желаемое p < 0,05. При достаточном количестве попыток это рано или поздно произойдет, даже если все гипотезы ошибочны. Другой подход – сделать как можно больше параллельных сравнений, например замерив и сравнив в двух группах все возможные симптомы одновременно. Какие-то сравнения в силу случайных колебаний преодолеют порог статистической значимости. После этого можно объявлять, что именно они и были основным исходом, который изучал эксперимент. А остальные измерения, по которым критерий статистической значимости не достигнут, могут быть вообще не упомянуты в публикации. Сравнение протоколов РКИ и итоговых публикаций показало, что в среднем авторы отчитываются лишь о половине проанализированных исходов.
Распространенная тактика – разделить пациентов на множество подгрупп, например по полу, возрасту и особенностям заболевания, и сравнивать эти подгруппы по отдельности. При достаточном количестве сравнений порог статистической значимости наверняка будет достигнут. Подобный анализ приводил, например, к ошибочным выводам о полезности амлодипина для пациентов с хронической сердечной недостаточностью, вызванной неишемической кардиомиопатией, но не для пациентов с ишемической кардиомиопатией
[217]. Или о том, что аспирин снижает риск сердечно-сосудистых заболеваний у мужчин, но не у женщин. Лекарство и правда может по-разному действовать на разные группы пациентов. Например, не стоит ожидать, что определенный режим физических упражнений будет одинаково полезен для молодых и пожилых. Однако такие гипотезы должны быть немногочисленны и обоснованны, а также сформулированы и зафиксированы до начала эксперимента.
Множественные сравнения увеличивают вероятность ложноположительных результатов и делают получение ничего не значащего p < 0,05 практически неизбежным. Поэтому в таких случаях нужно использовать другие статистические тесты или делать специальные математические поправки на множественное сравнение, например поправку Бонферрони: делим исходный критерий статистической значимости на количество сравнений. Если мы проверяем 20 гипотез одновременно, то пороговое p-значение должно снизиться в 20 раз и стать равным 0,05/20=0,0025.
В погоне за статистической достоверностью исследователи сплошь и рядом забывают применить поправку на множественные сравнения. Иногда это приводит к забавным результатам. В клиническом испытании препарата “Визомитин” для лечения синдрома сухого глаза авторы разбили и так не очень большую роговицу глаза на пять участков (верхний, нижний, центральный, темпоральный, назальный) и отдельно сравнили с контрольной группой изменения на каждом из них. В результате порог p < 0,05 был преодолен лишь для центрального участка, но не для остальных. Но еще дальше пошли сотрудники кафедры детских болезней Первого МГМУ им. И. М. Сеченова. В ходе исследования эффективности гомеопатического препарата “Коризалия” при лечении насморка они измерили симптомы для каждой ноздри отдельно и получили статистически значимый результат для левой, но не для правой ноздри. Ни в том, ни в другом случае поправки на множественное сравнение не делались.
Важно понимать, что такие поправки не исключают риск ложноположительного результата полностью, они просто возвращают его на тот же уровень, что и при единичном сравнении. В описанном выше эксперименте-имитации в Университете Дьюка применение поправки Бонферрони исключило статистическую достоверность лишь для одной из подгрупп, второй “эффект” остался значимым. Это еще раз иллюстрирует, что исходный уровень статистической значимости p < 0,05 не годится в качестве единственного критерия положительного результата.
Заставить вероятности работать на себя можно и раздробив эксперимент на несколько более мелких. Или повторив его столько раз, сколько нужно для получения значимого результата. Или замеряя результаты как можно чаще и остановив эксперимент не когда это планировалось сделать, а ровно в тот момент, когда будет обнаружена статистическая значимость: случайные колебания разницы между группами могут в какой-то момент дать желанный результат. Вывод об эффективности лекарства будет в этом случае так же обоснован, как если вы заявите, что владеете телекинезом, потому что можете заставить все игральные кубики выпасть одной стороной, только получается у вас это когда на девяносто седьмой попытке, а когда на двести четвертой.
Много возможностей открывает перебор существующих инструментов статистического анализа. Есть множество методов, позволяющих получить несколько различающиеся результаты. Сравним, например, две группы, в одной из которых определенный исход наступил с частотой 1/10, а в другой – 6/10. Точный тест Фишера даст статистически незначимый результат p=0,057, но вычисление критерия Mid-P – значимое p=0,030. Расчет критерия хи-квадрат по методу Пирсона тоже дает значимое p=0,019, но рассчитанный с поправкой Ийтса – незначимое p=0,061, а с поправкой Вальда – значимое p=0,035. Конечно, наиболее чувствительны к перебору методов пограничные значения p, близкие к 0,05.