Устранить эту проблему можно, изначально создавая максимально похожие группы. Например, переместив часть пациентов из одной группы в другую или сразу набирая их так, чтобы все параметры, которые мы считаем важными, были распределены поровну. Можно исключить влияние пола, отбирая в обе группы только женщин. Или следить за тем, чтобы процент женщин в сравниваемых группах был примерно одинаков. Но предложенное Фишером решение намного изящнее и эффективнее. Его преимущество в том, что оно уравновешивает между группами даже факторы, о существовании которых мы не догадываемся.
Фишер впервые применил его, работая на той самой Ротамстедской экспериментальной станции, где проходило знаменитое чаепитие. Его пригласили в Ротамстед, чтобы разобраться с данными, накопленными за девяносто лет сельскохозяйственных экспериментов. Станция занималась сравнительным анализом урожайности сортов и эффективности органических удобрений. Эксперименты заключались в том, что каждый год сотрудники станции засевали поля разными сортами овощей и злаков и применяли разные смеси азотных и фосфатных солей, а когда приходило время урожая, взвешивали и записывали полученный результат. Результаты на разных полях сравнивали и между собой, и с тем, что было собрано на контрольном поле, которое не удобрялось.
Сотрудники станции понимали, что сравниваемые поля изначально отличаются. На одном почва могла быть питательнее, на другом – мог сказываться накопленный эффект примененных в предыдущие годы удобрений, третье могло получать больше влаги во время дождя, четвертое было лучше освещено, а на пятом было меньше насекомых-вредителей. Возникал неизбежный вопрос: если на втором поле собрали на 10% больше картофеля, чем на четвертом, можно ли считать, что дело в сорте картофеля или в удобрении, а не в особенностях поля? И не была бы разница такой же, если бы оба поля засеяли одним сортом и вообще не удобрили?
Для решения этой проблемы были придуманы индексы плодородности, которые высчитывали при помощи сложных формул, делая поправки на разные факторы. Однако каждая из сельскохозяйственных станций Великобритании выработала свои методы расчета и считала их единственно верными. К тому же сделать практические выводы из сложных вычислений было крайне непросто.
Изучив накопленные данные, Фишер предложил полностью изменить дизайн экспериментов. Он рассуждал так. Каждый квадратный фут земли отличается от остальных множеством параметров, которые невозможно точно измерить и учесть, как невозможно найти и два одинаковых поля. А значит, различия между сравниваемыми полями нужно каким-то образом уравновесить. Фишер предложил разбить все поля на множество маленьких участков и относить их к одной из групп эксперимента случайным образом. Например, решать, каким сортом картофеля будет засеян каждый из участков для сравнительного теста урожайности двух сортов картофеля, подбрасывая монетку. Результат будет выглядеть примерно так.
Плодородность разных частей поля может заметно отличаться. Но, поскольку мы сравниваем не две половины поля, а общий урожай на всех случайно разбросанных по полю участках, их плюсы и минусы достанутся каждому из двух сортов картофеля примерно поровну.
Чем больше количество участков, на которые мы делим поле, тем меньше различаются стартовые условия. При малом их количестве различия могут быть заметны, но даже в этом случае, объяснял Фишер, случайное распределение даст лучший результат, чем попытка сделать ручную поправку на множество факторов, в том числе неизвестных. Кроме того, случайное распределение создает математическую основу для дальнейших расчетов и позволяет определить размер возможной ошибки.
Метод случайного распределения по группам, названный рандомизацией (от англ. random – “случайный”), быстро прижился в сельском хозяйстве. Экспериментальные станции оценили его преимущества и охотно приняли на вооружение. Вскоре идеи Фишера пришли и в медицину.
Рандомизация в медицинских экспериментах
Сравнимость групп в медицинском эксперименте очень сильно зависит от способа, которым их создают. Худший из подходов – оставить распределение на усмотрение экспериментатора: это дает слишком много возможностей манипулировать результатами. Что мешает, например, отправить молодых пациентов в экспериментальную группу, а пожилых в контрольную? Это обеспечит и более быстрое выздоровление, и меньшую смертность в первой даже при абсолютно бесполезном лечении.
Когда группы создают таким образом, они часто отличаются по возрасту, полу, серьезности болезни и общему состоянию пациентов. Оценка эффективности лечения в подобных экспериментах завышена в среднем на 30–40%. Хотя исследователи могут быть напрямую заинтересованы в положительном результате и манипулировать составом групп осознанно, возможно и невольное влияние – скажем, если из сострадания к пациентам исследователь включает в экспериментальную группу тех, кому лечение нужнее, или тех, кому оно скорее поможет.
Сделать распределение пациентов не зависящим от экспериментатора пытались еще в XIX веке. Так, в 1809 году военный хирург Александр Гамильтон, проверяя эффективность кровопускания, поочередно принимал солдат сам или направлял к другим врачам, которые, в отличие от него, активно применяли этот метод. Примечательно, что смертность пациентов Гамильтона оказалась почти на порядок меньше, чем у его коллег.
Впоследствии экспериментаторы распределяли пациентов поочередно по списку, делили по первой букве имени, по месяцу или дате рождения. К началу XX века такой способ получил довольно широкое распространение и стал называться методом чередования. Хотя у него есть определенные преимущества – при достаточном количестве пациентов группы наверняка сравнимы
[108], – по-настоящему надежен он лишь при условии, что врач строжайше придерживается процедуры.
Если же исследователь не является образцом кристальной честности или слишком сердоболен, метод чередования оставляет много возможностей влиять на состав групп. В первую очередь потому, что не все откликнувшиеся на предложение участвовать в эксперименте пациенты становятся в результате его участниками. Пациента сначала обследуют, чтобы подтвердить, что он соответствует критериям включения. Затем он беседует с врачом, который рассказывает об исследовании и возможных последствиях для здоровья, положительных и отрицательных. И лишь после этого, при условии согласия и самого пациента, и врача, пациент становится частью эксперимента. Если использовать метод чередования, врач всегда знает, в какой из групп окажется следующий участник. Ничто не мешает влиять на их состав, отказывая пациентам с более тяжелым течением болезни, чтобы включить в группу следующего, с более легким. Или повлиять в ходе беседы на готовность пациента принять участие. Единственный способ исключить подобные манипуляции – сделать распределение случайным и скрыть от исследователя его последовательность.