Книга оказала огромное влияние на подход к проведению контролируемых экспериментов и оценке их результатов. Именно благодаря ей и другим работам Фишера статистика и теория вероятностей стали неотъемлемой частью исследований, в том числе и медицинских.
Объясняя чайный эксперимент, Фишер ввел представление о нулевой гипотезе. Нулевая гипотеза – это предположение, что между изучаемыми явлениями, в данном случае это порядок приготовления чая и ответы дамы, не существует связи, а в контролируемых экспериментах – что отличия между группами носят случайный характер. Она является гипотезой по умолчанию, и только если эксперимент опровергает ее, у нас появляются основания предполагать, что связь все-таки есть.
Для проверки нулевой гипотезы Фишер предложил использовать тест на статистическую значимость
[102]. Он определяет, какова вероятность получить наблюдаемые в ходе эксперимента значения при условии, что нулевая гипотеза верна
[103]. Эту вероятность называют p-значение (пи-значение) или просто p (пи). Фишер предложил считать, что нулевая теория может считаться опровергнутой, если p-значение меньше 0,05.
Фишер рассчитал, что если бы в эксперименте использовалось по три, а не по четыре чашки чая каждого типа, то случайное угадывание всех шести чашек происходило бы в одном случае из двадцати
[104], то есть p как раз было бы равно 0,05, и выбранный критерий не выполнялся бы. Поэтому он предложил использовать минимум восемь чашек, по четыре каждого типа. Тогда при всех правильных ответах значение p равно одному к семидесяти, или 0,014 в десятичных дробях
[105], что меньше выбранного порога. В таком случае результат признается статистически значимым.
Этот подход прочно закрепился в исследовательской практике, в том числе и в медицинских экспериментах. В контролируемых клинических испытаниях нулевая гипотеза гласит, что эффект у изучаемого метода отсутствует, а наблюдаемые различия исходов в сравниваемых группах случайны. В подавляющем большинстве работ вы увидите расчет значения p, и очень часто результат будет считаться статистически значимым, если значение p меньше 0,05.
Важно помнить, что упомянутый Фишером порог p = = 0,05 – условен и был предложен как условие джентльменского соглашения между учеными. Разница между убедительностью результатов с p = 0,04 и с p = 0,06, конечно, гораздо меньше, чем для результатов с p = 0,04 и p = 0,001, хотя первые находятся по разные стороны условной границы, а вторые – по одну. И Фишер, и другие математики подчеркивали, что критерий p < 0,05 недостаточно строг, не годится для медицинских исследований
[106], и рекомендовали другие пороговые значения, 0,01 и 0,001, но исследователи ухватились за наименее строгое, а значит, проще всего достижимое.
Что касается исключения ложноотрицательного результата, Фишер отметил, что чем меньше размер эффекта, то есть чем слабее способность леди угадывать, в какой последовательности были налиты молоко и чай, тем больше чашек чая потребуется для того, чтобы ее выявить.
Для описания вероятности ложноотрицательного результата рассчитывают статистическую мощность эксперимента. Чем выше статистическая мощность, тем меньше вероятность того, что мы ошибочно подтвердили нулевую гипотезу. Статистическая мощность медицинского исследования возрастает с увеличением количества участвующих в нем пациентов. Хотя столь же распространенных, как p < 0,05, стандартов допустимой вероятности ложноотрицательного результата не существует, часто ориентируются на статистическую мощность не менее 0,80.
Таким образом, исследователи находятся между двумя возможными ошибками:
• ложноположительным результатом, когда мы ошибочно отвергаем нулевую гипотезу и думаем, что нашли эффект, хотя на самом деле его нет, – такие ошибки называют ошибками I типа, и они могут приводить к тому, что пациентов лечат бесполезными лекарствами и делают им бессмысленные операции;
• ложноотрицательным результатом, когда мы ошибочно подтверждаем нулевую гипотезу и не замечаем реально существующий эффект, – такие ошибки называют ошибками II типа, и они чреваты незамеченными полезными или вредными эффектами лекарства.
Рандомизация – неслучайная случайность
Ответ на третий вопрос чайного эксперимента тоже имел далеко идущие последствия. Напомню, что Фишер задумался о том, как исключить влияние небольших отличий, которые неизбежно возникнут в процессе подготовки к тесту. В медицинских исследованиях эта проблема еще значимее: найти две группы людей, одинаковых во всех отношениях, куда сложнее, чем приготовить две одинаковые чашки чая.
Сравнимость групп – основа и необходимое условие контролируемого исследования. Пациенты разные, и болезнь у них протекает по-разному. Если в одной группе средний возраст пациентов ниже или болезнь изначально протекает легче, чем в другой, то после лечения состояние пациентов может различаться, даже если лекарство не работает. Возникает риск приписать препарату несуществующий эффект.
☛ Сравнение изначально разных групп может привести к достаточно контринтуитивным последствиям. Так, в 1986 году были опубликованы результаты сравнения эффективности разных методов лечения почечных камней. Авторы пришли к выводу, что чрескожная нефролитотомия
[107] эффективнее, чем открытая: в первом случае успешны были 83% (289 из 350) операций, а во втором – лишь 78% (273 из 350). Однако сравнение результатов удаления небольших (< 2 см) и больших (> 2 см) камней дало неожиданный результат. В обоих случаях открытая оказалась эффективнее. Для маленьких камней открытая была эффективна в 93% случаев против 87%. А для больших – в 73% случаев против 69%.
Этот эффект называется парадоксом Симпсона, хотя никакого парадокса тут на самом деле нет. Причина в том, что удаление маленьких камней (суммарно 88% успешных операций) эффективнее, чем удаление больших (суммарно 72% успеха) при любом из методов. Пациентов распределяли между двумя видами лечения неравномерно: тем, у кого были маленькие камни, чаще назначали операцию с маленьким разрезом, а при больших – открытую. Поэтому среди тех, кого лечили чрескожной нефролитотомией, преобладали пациенты с маленькими камнями, а среди тех, кого лечили открытым методом, – с большими. Это и привело к иллюзии более высокой эффективности чрескожной нефролитотомии.