Теперь посмотрим, как оценить влияние приема препарата. Сначала рассмотрим наихудший сценарий: никому из непослушных испытуемых не стало бы лучше, даже если бы они принимали препарат. В этом случае все люди, которые теоретически, принимая препарат, могли бы улучшить свое состояние, уже сосредоточены в той группе в 47,3 %, в которой испытуемые реально принимали его и реально улучшили свое здоровье.
Но нам нужно скорректировать эту оценку по эффекту плацебо, данные по которому в третьем ряду таблицы. Из людей, которым назначили плацебо и которые его принимали, показатели улучшились у 8,1 %. Таким образом, чистые показатели, выходящие за уровень плацебо, составляют 47,3–8,1 = 39,2 %.
Теперь рассмотрим наилучший сценарий, при котором все люди, не принимавшие назначенный им препарат, снизили бы холестерин, если бы послушались. В этом случае мы прибавляем к 31,5 % непослушных 7,3 и к этому только что подсчитанный нижний порог в 39,2, получая сумму в 78,0 %.
Таким образом, даже при наихудшем сценарии, в котором конфаундеры действуют полностью противоположно эффекту препарата, мы все же вправе сказать, что этот препарат улучшает уровень холестерина для 39 % популяции. В наилучшем сценарии, когда конфаундер действует «на руку» препарату, улучшение будет наблюдаться для 78 % популяции.
Таблица 11. Данные эксперимента с холестирамином
Даже несмотря на то, что границы довольно далеко отстоят друг от друга из-за большого числа испытуемых, не подчинившихся условиям эксперимента, исследователи могут категорически утверждать, что препарат эффективно достигает своей цели.
Эта стратегия рассмотрения наихудшего и наилучшего сценариев обычно дает нам некоторый диапазон оценок. Очевидно, что желательно было бы получить точечную оценку, как в случае линейных зависимостей. Существуют способы при необходимости сузить этот диапазон, а в некоторых случаях даже добиться точечных оценок. Так, если вас интересует только «послушная» часть популяции (те, кто будет принимать X тогда и только тогда, когда его им назначат), вы можете вывести точечную оценку, известную как локальный средний эффект лечения (LATE). В любом случае я надеюсь, этот пример покажет, что наши руки ничто не связывает, даже если мы покидаем мир линейных моделей.
Методы инструментальных переменных продолжали развиваться с 1984 года, и одна конкретная версия стала очень популярной: менделева рандомизация. Вот вам доказательство. Хотя влияние ЛПНП, или «плохого» холестерина, сегодня хорошо известно, далеко не все однозначно понятно в случае «хорошего» холестерина — липопротеина высокой плотности, ЛПВП. Ранние исследования на основе наблюдений, скажем Фрамингемские исследования сердца в конце 70-х годов ХХ века, предположили, что ЛПВП обладают защитными свойствами, предохраняя от инфаркта. Однако ЛПВП обычно встречается вместе с ЛПНП, так как же нам узнать, какой из липидов на самом деле является каузальным агентом?
Чтобы ответить на этот вопрос, предположим, что нам известен ген, на уровень ЛПНП не влияющий, но благодаря которому у людей выше уровень ЛПВП. Тогда нам удастся нарисовать каузальную диаграмму, как на рис. 52, где я изобразил переменную образ жизни как потенциальный конфаундер. Вспомним, что всегда лучше, как в примере доктора Сноу, использовать инструментальную переменную, которая рандомизирована. В таком случае к ней не идут каузальные стрелки. По этой причине ген — отличная инструментальная переменная. Наши гены рандомизированы в момент зачатия так, словно Грегор Мендель дотянулся рукой с небес и случайно назначил одним людям ген высокого риска, а другим — ген низкого риска инфаркта. Отсюда возник термин «менделева рандомизация».
Может ли здесь быть стрелка, идущая в обратном направлении, от гена ЛПВП к образу жизни? Здесь нам снова требуется «расследование на подметках ботинок» и каузальное мышление. Ген ЛПВП мог бы влиять на образ жизни людей только в том случае, если бы они изначально знали, какая версия гена им досталась — с высоким уровнем ЛПВП или с низким. Но до 2008 года такие гены были неизвестны, да и сегодня у людей обычно нет доступа к подобной информации о себе. Поэтому весьма вероятно, что такой стрелки не существует.
По крайней мере два исследования холестеринового вопроса использовали этот подход менделевой рандомизации. В 2012 году масштабное совместное исследование, возглавляемое Секаром Катиресаном из Массачусетской больницы общего профиля, показало, что никаких преимуществ от более высокого уровня ЛПВП не наблюдается. Правда, эти исследователи обнаружили, что ЛПНП очень значительно влияет на риск инфаркта. Согласно их результатам, сокращение уровня ЛПНП на 34 мг/дл сокращает ваши шансы получить инфаркт на 50 %. Поэтому снижение «плохого» холестерина, будь то при помощи диеты, физических упражнений или статинов, — это хорошая идея. Тем не менее повышение уровня «хорошего» холестерина, что бы вам там ни говорили производители рыбьего жира, похоже, никак не влияет на риск получить инфаркт.
Рис. 52. Каузальная диаграмма для примера с менделевой рандомизацией
Как обычно, к вышесказанному есть и оговорка. Второе исследование, опубликованное в том же году, отметило, что у людей с менее опасным вариантом гена ЛПНП низкий уровень холестерина сохраняется в течение всей их жизни. Менделева рандомизация говорит нам, что, сокращая ваш уровень ЛПНП на 34 % в течение всей вашей жизни, снижает ваш риск умереть от инфаркта наполовину. Но статины не способны снижать ваш уровень «плохого» холестерина подобным образом — они действуют только с того дня, с которого вы начали их принимать. Если вам 60 лет, у ваших артерий уже 60 лет износа. По этой причине весьма вероятно, что менделева рандомизация переоценивает истинную пользу статинов.
Однако, начав снижать уровень холестерина смолоду — посредством диеты, или физкультуры, или даже статинов, — вы спустя время добьетесь значительных результатов.
С точки зрения каузального анализа вышесказанное преподает нам хороший урок: в любом исследовании интервенций нам следует выяснить, действительно ли та переменная, которой мы реально манипулируем (например, уровень ЛПНП в течение жизни), — это та же самая переменная, про которую мы думаем, что манипулируем ей (уровень ЛПНП в настоящий момент). Это входит в «искусный допрос природы».
Подытожим: инструментальные переменные — важный инструмент, они помогают нам выявить каузальную информацию, выходящую за пределы do-исчисления. Последнее настаивает на точечных оценках, а не на неравенствах и не работает в случаях вроде приведенного на рис. 52, в котором все, что нам удается получить, — это неравенства. Кроме того, важно понимать, что do-исчисление намного более гибко, чем метод инструментальных переменных. В do-исчислении нам не нужно делать никаких допущений относительно природы функций в каузальных моделях. Но если мы способны научно обосновать допущение о монотонности или линейности такой функции, тогда такой более специализированный инструмент, как инструментальные переменные, стоит принять к рассмотрению.