Например, в исследовании, в котором реальное лечение сравнивается с плацебо (как бы лечением), побочные эффекты более вероятны при реальном лечении, поскольку плацебо по определению не имеет активного терапевтического компонента. Это может означать, что выбывшие будут чаще появляться в группе лечения. И что еще хуже, после выбывания людей, которые не ощущают пользы от лечения или даже замечают ухудшения, в исследовании наметится перекос в сторону тех, кто эту пользу ощущает. Если мы каким-либо образом не помешаем выбыванию, то можем получить весьма искаженное представление об эффективности лечения. Это еще один пример ошибки выжившего – те, кто «выживают» или продолжают лечение до конца исследования, не являются репрезентативной выборкой для всей группы.
Все усугубляется необходимостью этичного поведения при клинических испытаниях (на благо пациентов!). Пункт 9 Нюрнбергского кодекса, принятого после Второй мировой войны, требует, чтобы участники клинических исследований имели возможность в любой момент выйти из них: вы не можете заставить людей остаться.
Реальные исследования часто бывают куда сложнее, чем наш пример с двумя группами. Они могут проходить на базе нескольких клиник, включать в себя более двух групп и при этом сравнивать несколько видов лечения. На рис. 4 приведены данные клинического испытания будесонида на пациентах с астмой
[31]. В этом исследовании участвовали пять групп пациентов, одна из которых получала плацебо (нулевая доза), а другие по 200, 400, 800 или 1600 мкг будесонида соответственно. Измерения функций легких проводились в самом начале, а затем через 2, 4, 8 и 12 недель после начала исследования. Кривые на графике показывают количество пациентов, остававшихся в исследовании на момент очередного измерения. Тенденция выбывания участников прослеживается четко, а ее уровень впечатляет – лишь 75 % пациентов, начавших исследование, дошли до конца. Еще более тревожным является то, что показатели выбывания различаются для разных групп. В частности, выбыло только 10 из 98 человек, получавших самую высокую дозу препарата, тогда как среди принимавших плацебо выбыло 58 человек, что составляет почти две трети этой группы. На основании этого, конечно, можно предположить, что препарат эффективен, но мы видим, что со временем в исследовании остаются только те, кто ощущает пользу лечения, поэтому это только предположение. Безусловно, отсутствующие данные усложняют анализ и интерпретацию происходящего, что может привести к ошибкам, если выводы будут основаны исключительно на имеющихся данных.
Я проиллюстрировал рандомизированные исследования на примерах из сферы медицины, но они также широко используются и в других областях, в том числе в социальной и государственной политике, образовании и в сфере профилактики преступности. Проведение рандомизированных исследований в социальной и государственной политике тоже имеет свою историю, хотя и не столь давнюю, как в медицине. Например, в 1968–1982 гг. исследователи в Соединенных Штатах использовали такие методы, чтобы выяснить, как скажется на отношении к работе тот факт, что людям будет гарантирован некий минимальный доход, равный прожиточному минимуму. (Оказалось, что этот доход сокращает время, в течение которого люди работают, но очень незначительно
[32].)
Интересным примером рандомизированного исследования в сфере образования была оценка влияния телевизионного шоу «Улица Сезам» на словарный запас и когнитивные навыки детей. Это исследование выявило проблему, присущую социологическим рандомизированным исследованиям: если не брать в расчет прямой запрет некоторым детям смотреть шоу, то невозможно гарантировать, что они его не посмотрят. Исследователи наконец-то обошли эту проблему, найдя города, где шоу было доступно только по кабелю, и предоставив кабельное телевидение случайно выбранной группе домохозяйств. В результате было установлено, что просмотр «Улицы Сезам» расширяет словарный запас детской аудитории. Эндрю Лэй описывает это и многие другие рандомизированные исследования для двух групп в своей превосходной книге «Рандомисты: Как радикальные исследователи меняют наш мир» (Randomistas: How radical researchers are changing our world)
[33]. В ней он также рассказывает, как организовал рандомизированное исследование, чтобы найти наиболее удачное название для книги. До того, как книга была опубликована, 12 вариантов названия представили группе из 4000 человек, причем каждый из ее представителей видел лишь одно случайно выбранное название. Их отклик измерялся как доля перешедших по ссылке на сайт издателя для получения дополнительной информации.
Что касается преступности, хорошо известно, что общественное восприятие рисков совершения преступлений часто бывает гипертрофированным: из-за незнания ситуация может казаться хуже, чем на самом деле (еще один аспект темных данных). Национальное агентство по совершенствованию работы полиции в Великобритании провело исследование реакции общественности на открытие информации о правонарушениях и охране правопорядка: усилит ли это страх в обществе или, напротив, будет воспринято позитивно
[34]. Четыре группы участников исследования были ознакомлены с разной информацией о преступлениях и охране правопорядка, которая отличалась насыщенностью темными данными. Одна группа получила карты, показывающие уровень преступности в районах проживания ее участников, другая – информацию о полицейских участках в районах проживания, третья группа – и то и другое, а четвертая не получила вообще никакой информации. Эта последняя группа была полностью погружена в область темных данных. Выводы, опубликованные в отчете, оказались весьма позитивными: «Исследование смогло опровергнуть миф о том, что информирование общественности увеличивает страх перед преступностью. Фактически было установлено, что информация улучшает восприятие людьми своего окружения и местной полиции».