Рис. 7.1. а) пунктиром отмечен объект тестирования; б) и в) сплошные ребра активны, пунктирные неактивны
Выборочный контролируемый эксперимент
Манипулирование единственным объектом таким идеальным путем, как показано выше, затруднительно; выборочные (рандомизированные) контролируемые эксперименты (ВКЭ, РКЭ) лишь частично решают проблему. В подобного рода экспериментах участники выборочно распределяются по двум или более группам, при этом различие в воздействии между этими группами предположительно единственное. Если исходы отличаются, это объясняется воздействием, поскольку распределение всех других свойств одинаково. На самом деле это не идеализированное вмешательство, когда можно напрямую изменить один параметр (к примеру, повысить потребление соли, не меняя объема жидкости). Но такой подход ближе всех к идеальному.
Однако этот жесткий протокол также становится ограничением, когда дело доходит до использования результатов ВКЭ. Здесь оценивается только один фактор, но в реальном мире результаты необязательно используются именно так. К примеру, мы можем решить, что лекарство эффективно и не имеет побочных эффектов в рамках ВКЭ, но в жизни, возможно, его часто принимают со вторым препаратом, и они интенсивно взаимодействуют. Как это случалось много раз, такое взаимовлияние трудно предположить, пока лекарство не выйдет на рынок.
ВКЭ обычно рассматривается в медицинском контексте, но это просто разновидность экспериментальных исследований, которая может применяться во многих других сферах. Как известно, Google использовал данные по кликам, чтобы сделать выбор из 41 оттенка синего для своего логотипа
[269], а пользовательские предпочтения можно протестировать, рандомизируя визиты или пользователей по конкретным оттенкам или текущей цветовой гамме и сравнивая количество кликов. В политических кампаниях также применяют выборочные эксперименты, чтобы определить, какое послание обнародовать и каким образом
[270]. Вместо того чтобы искать корреляции между поведением избирателей и демографическими данными или разрабатывать теории о способах голосования, политические гуру пользуются обширными списками рассылки электронных писем и детализированными персональными данными, чтобы тестировать эффективность различных вмешательств. К примеру, в рамках кампании можно рандомизировать группу лиц с конкретными характеристиками по различным текстам электронных сообщений или скриптам телефонных звонков с просьбой о благотворительности. Тут есть четкий результат (количество пожертвованных денег), и при достаточно большой выборке можно протестировать множество сообщений для разнообразных групп. Во время кампании Обамы 2012 года было сделано именно это: на небольшой группе сторонников тестировались адресные строки сообщений, предполагаемые суммы пожертвований и даже формат электронных писем
[271].
Приобретенные таким образом знания могут изменяться со временем (если сообщение однажды сработало, как будет во второй раз?), но ВКЭ используются во многих сферах помимо медицинской, например в экономике и образовании. Даже если вы никогда не проводили собственный ВКЭ, важно уметь оценивать результаты экспериментов для принятия решений.
Почему рандомизация
В XVIII веке Джеймс Линд задокументировал то, что считается первым в истории контролируемым экспериментом, – выяснил, что цитрусовые быстро излечивают цингу. На судне с экипажем, страдавшим от цинги, он прописал шести парам моряков с аналогичными симптомами шесть различных видов лечения. Помимо тестируемых Линдом средств, в число которых входили уксус, морская вода и, конечно же, лимоны и апельсины, моряки питались одинаково
[272]. Линд обнаружил, что те, кто ел цитрусовые, поправлялись очень быстро в сравнении с остальными, что привело его к заключению об эффективности такого лечения.
Но Линд назначил каждой паре только одно из средств, вместо того чтобы задействовать рандомизацию. Действительно, он отмечал, что пациенты, пившие морскую воду, болели сильнее остальных
[273]. Известно, что его результаты на самом деле оказались верными, но, если бы лечение выбиралось по степени заболевания, такое смещение могло исказить результаты (например, если пациентам с легкой формой цинги, которые и так чувствовали себя лучше, были бы прописаны цитрусовые) или привести к ситуации наподобие парадокса Симпсона (например, если бы пациенты, получавшие цитрусовые, были неизлечимы). Рандомизация в ВКЭ очень важна, чтобы избежать смещения в назначении воздействия.
Свойственное подобным исследованиям ограничение выбора – когда действовать и действовать ли вообще – может исказить наблюдаемые зависимости. К примеру, трудно проверить, действительно ли любовь к жестоким видеоиграм формирует жестокость в поведении. Поскольку не проводилось выборочного исследования детей по группам определенных видеоигр, даже если тут вообще присутствует корреляция, мы не можем знать, видеоигры формируют склонность к насилию или же склонность к насилию определяет любовь к соответствующим увлечениям, а может, причиной обеих переменных оказывается некий третий фактор.
Точно так же в исследовании здоровья медсестер: то, что женщины выбирали ГЗТ, зависит от их риск-факторов заболеваний сердца и склонности заботиться о своем состоянии. ГЗТ могла вообще никак не влиять на болезни сердца, но женщины, выбравшие этот вид лечения, делали какие-то другие вещи, снижавшие риск, и именно предоставление информации об этом сделало ГЗТ индикатором прогнозирования лучших исходов. Аналогичный пример – «слепое» использование препаратов для лечения пациентов, на которых другие средства не подействовали.
Это делает факт получения больными вмешательства и, следовательно, соответствующего результата зависимым от серьезности заболевания, качества медицинского обслуживания и так далее. Остаточные эффекты многих препаратов, которые принимались ранее, могут усилить искажения наблюдений, затрудняя возможность выяснить, почему лекарство не дало результата.
Основное преимущество рандомизации – придание жесткости ребру между выбором вмешательства и исходом.
Скажем, мы рандомизируем тринадцатилетних учащихся одной школы: одни получили СМС, убеждающие по 30 минут в день заниматься физкультурой, другие – сообщения с прогнозом погоды. Поскольку обе группы контактируют, мы не можем быть уверены, что школьники не поделились содержанием посланий и что те, кто получил текст о пользе спорта, не пригласят друзей присоединиться. Еще один пример «перемешивания» участников – совместный прием лекарств в клинических экспериментах, когда пациенты из команды вмешательства делятся препаратами с контрольной группой
[274].