Что можно делать по-другому?
Оставим в стороне рассуждения о том, что полностью решить проблему можно, лишь устранив прямую заинтересованность исследователей и производителей в положительных результатах. Возможно, так оно и есть, но абсолютно непонятно, как добиться этого на практике. Реалистичнее двигаться в сторону большей прозрачности: если все данные клинических экспериментов публичны и могут быть проверены независимыми специалистами, это затруднит p-хакинг.
Уже упомянутое снижение уровня статистической значимости до p < 0,005 тоже будет полезно. Однако важнее перестать ориентироваться на p-значение как на единственный критерий положительного результата. Отбросить нулевую гипотезу можно, только если на ее ошибочность указывают и другие статистические инструменты.
В последнее время звучат предложения перейти от расчета p-значений к байесианским методам анализа. Это направление статистики возникло в середине XVIII века благодаря английскому математику и священнику Томасу Байесу, автору теоремы Байеса. В рамках байесианской статистики был сформулирован альтернативный подход к нулевой гипотезе: использовать в качестве альтернативы p-значению фактор Байеса (BF), который рассчитывается так:
В отличие от p-значения, смысл фактора Байеса интуитивно понятен. Он говорит о том, насколько такие данные вероятнее наблюдать при верной нулевой гипотезе (эффекта нет), чем если при верной альтернативной (эффект есть). Его значение интерпретируют следующим образом: обычно, если BF > 3, мы принимаем нулевую гипотезу, а если BF < 1/3 – альтернативную. Интересно, что во многих ситуациях p-значению в диапазоне 0,03–0,05 соответствует BF > 1. То есть наблюдать такие данные вероятнее, когда никакого эффекта нет. Но при этом p-значение меньше порогового и дает основания считать результат статистически значимым.
Фактор Байеса позволяет легко перейти от вероятности получения наблюдаемых данных к оценке вероятностей самих гипотез. Мы рассчитываем вероятность и нулевой, и альтернативной гипотезы и можем, сравнив их, выбрать из двух гипотез более убедительную. Расчет p-значения ничего не говорит о вероятности альтернативной гипотезы: мы оценим только данные против нулевой, на основе чего отбрасываем или оставляем ее. Здесь преимущество байесианского подхода очевидно: возможны ситуации, когда вероятность нулевой гипотезы невелика, но при этом вероятность альтернативной еще ниже.
Проиллюстрировать это можно тем же примером с беременностью. Примем, что нулевая гипотеза гласит – вы женщина
[218], а альтернативная – вы мужчина. При этом вы беременны. Тогда p-значение, то есть вероятность наблюдать такие данные (беременность) при условии корректности нулевой теории (вы женщина), будет равно 0,03
[219], удовлетворяя распространенному критерию статистической значимости p < 0,05. Соответственно, если вы беременны, мы должны отвергнуть нулевую гипотезу. Руководствуясь этой логикой, вы беременны, значит, вы мужчина. Расчет фактора Байеса приведет нас к более разумному выводу: 0,03, деленное на бесконечно малую вероятность наблюдать беременность у мужчины, даст бесконечно большое значение фактора Байеса и будет сильнейшим аргументом за то, чтобы признать беременную женщиной.
Однако есть и серьезный недостаток. Для расчета фактора Байеса необходимо знать вероятность наблюдения данных при условии, что верна альтернативная гипотеза. В клинических экспериментах ситуации, похожие на пример с беременностью, возникают редко, и мы неизбежно сталкиваемся с необходимостью определять этот параметр на основе предположений. Это вносит в расчеты ту субъективность, за которую критикуют байесианские методы. Пока их применение в медицинских экспериментах ограниченно, а между сторонниками и противниками идут горячие споры
[220].
Какие бы критерии выбора в пользу нулевой или альтернативной теории мы ни использовали, сам факт признания того, что различия между группами не случайны, содержит мало информации для врачей и не дает достаточно оснований применять метод лечения. Как правило, он ничего не говорит о силе эффекта. Поэтому мало отметить, что различия статистически значимы, важно рассчитать такие показатели, как индекс потенциальной пользы
[221], показывающий, сколько человек нужно пролечить, чтобы предотвратить один нежелательный исход (например смерть или инфаркт), и индекс потенциального вреда, с помощью которого можно описать распространенность побочных эффектов. В РКИ эти показатели не менее важны, чем в наблюдательных исследованиях.
Если мы используем расчет p-значений, желательно обозначить разницу между группами не просто одним числом – оно ничего не говорит о степени неопределенности результата, является ли он окончательным или требуется продолжение исследований. Больше информации дает расчет доверительных интервалов (ДИ), ставший в последнее время стандартной частью анализа результатов РКИ. Доверительные интервалы обозначают диапазон, в котором с определенной надежностью
[222] (обычно это 95%) лежит результат. Чем выше выбранная надежность, тем шире будут границы диапазона. Если доверительный интервал разницы между группами включает в себя ноль, мы не можем уверенно говорить ни об отрицательном, ни о положительном результате эксперимента.
Доверительные интервалы записывают следующим образом.
Выживаемость в группе ингибиторов АПФ была на 10,0% выше (95% ДИ 7,0 13,0).
В этом случае 7,0 – это нижняя граница доверительного интервала, 13,0 – верхняя, а 95% – значение надежности, для которого рассчитан ДИ. Это результат A на рисунке ниже.