Критерий парадного входа
Дебаты о каузальном воздействии курения происходили по крайней мере за два поколения до того, как каузальные диаграммы могли бы в них поучаствовать. Мы уже рассмотрели, как неравенство Корнфилда помогло уверить исследователей, что ген курильщика, или конституциональная гипотеза, — очень неправдоподобное предположение. Однако более радикальный подход с использованием каузальных диаграмм пролил бы больше света на гипотетический ген и, вероятно, полностью исключил его из дальнейшего обсуждения.
Рис. 41. Гипотетическая каузальная диаграмма для связи курения и рака легких, подходящая для поправок парадного входа
Предположим, что исследователи прошлого смогли измерить отложения смол в легких курильщиков. Еще в 1950-х это называлось в качестве одной из промежуточных стадий в развитии рака легких. Предположим также, что мы, совсем как министр здравоохранения, хотим исключить гипотезу Р. Э. Фишера о том, что ген курильщика является конфаундером по отношению к привычке курить и раку легких. Тогда ситуацию выше описывает каузальная диаграмма на рис. 41.
Рисунок 41 включает два очень важных допущения, которые будут важны для целей нашего примера. Первое: ген курильщика не оказывает никакого воздействия на формирование отложений смол, которые зависят исключительно от физического действия сигаретного дыма (это допущение отражено на схеме отсутствием стрелки между геном курильщика и смолой; оно, однако, не исключает случайные факторы, не имеющие отношения к гену курильщика). Второе значительное допущение состоит в том, что курение ведет к раку только через накопления отложений смол. Таким образом, на схеме нет прямой стрелки от курения к раку и нет также других непрямых путей.
Допустим, что мы выполняем исследование на основе наблюдаемых данных и собрали информацию по курению, смоле и раку для каждого из участников. Нам, к сожалению, недоступны данные по гену курильщика, потому что неизвестно, существует ли такой ген. Поскольку таким образом у нас отсутствуют сведения по переменной-конфаундеру, мы не в состоянии заблокировать путь через черный ход курение ← ген курильщика → рак. Таким образом, мы не можем и использовать поправки черного хода для устранения воздействия конфаундера. Поэтому нам придется искать другие способы. Вместо перемещения черным ходом мы пойдем через парадный вход! В приведенном случае это прямой каузальный путь курение → смола → рак, для которого у нас есть данные по всем трем переменным. Интуитивно мы рассуждаем следующим образом. Прежде всего, мы в состоянии оценить средний каузальный эффект влияния курения на смолу, потому что на схеме нет незаблокированных путей через черный ход от курения к раку — путь курение ← ген курильщика → рак ← смола уже заблокирован схождением у переменной рак. Поскольку этот путь уже заблокирован, нам даже не нужна поправка черного хода. Мы просто наблюдаем вероятности P (смола | привычка курить) и P (смола | отсутствие привычки курить), а разница между ними и будет средним каузальным воздействием курения на смолу. Аналогично диаграмма позволяет нам оценить среднее каузальное воздействие смолы на рак. Чтобы сделать это, мы заблокируем путь черного хода от смолы к раку: смола ← курение ← ген курильщика → рак, введя поправки по курению. Здесь пригодятся уроки главы 4: нам нужны только данные по минимальному достаточному набору переменных, снимающих осложнения (здесь — курение). Тогда формула поправки черного хода даст нам вероятности P (рак | do (смола)) и P (рак | do (отсутствие смолы)). Разница между этими двумя вероятностями и будет средним каузальным воздействием смолы на рак.
Теперь нам известно среднее увеличение вероятности отложения смол благодаря курению и среднее увеличение вероятности заболеть раком из-за отложения смол. Можем ли мы как-либо объединить эти вероятности, чтобы получить средний рост заболеваемости раком из-за курения? Да, можем. Рассуждаем мы при этом таким образом: рак возникает двумя путями: при отложении смол и без отложения смол. Если мы заставим кого-либо курить, вероятности этих двух состояний будут соответственно P (смола | do (курение)) и P (отсутствие смолы | do (отсутствие курения)). Однако, если возникнет состояние отсутствия смолы, вероятность рака будет P (рак | do (отсутствие смолы)). Оценив оба сценария по их относительным вероятностям при do (курение), получится рассчитать общую вероятность возникновения рака по причине курения. Те же аргументы действуют, если мы не даем кому-либо курить, — do (отсутствие курения). Разница между результатами дает нам среднее каузальное воздействие курения по сравнению с воздержанием от него на возникновение рака. Как я только что объяснил, мы оцениваем каждую из двух do-вероятностей, обсужденных выше, прямо из данных, т. е. записываем их математически в терминах вероятностей, не использующих оператор do. Таким образом, математика делает для нас то, чего не могли добиться десятилетия споров и свидетельств конгрессов, — количественно оценить каузальное воздействие курения на рак, конечно, при условии, что наши предположения верны.
Процесс, который я только что представил, описывающий вероятность P (рак | (курение)) в терминах вероятностей, исключающих оператор do, называется поправкой парадного входа. От поправки черного хода он отличается тем, что мы вносим поправки для двух переменных (курение и смола) вместо одной, и эти переменные лежат на прямом пути от курения к раку, а не на пути через черный ход. Для читателей, знакомых с математическим языком, я покажу эту формулу, которой нет в обычных учебниках статистики. Здесь X — это курение, Y — рак, Z — смола, а U (которое подозрительно отсутствует в формуле) — это ненаблюдаемая переменная, ген курильщика:
P(Y|do(X)) = ∑Z P(Z = Z,X) ∑Z P(Y|X = X,Z = Z) P(X = X). (2)
Читателям со вкусом к математике будет интересно сравнить эту формулу с формулой для поправки черного хода, которая записывается так:
P(Y|do(X)) = ∑Z P(Y|X, Z = Z) P(Z = Z). (3)
Даже для читателей, совсем не владеющих математическим языком, можно сделать несколько интересных замечаний об уравнении (2). Первое и самое важное: в нем нигде нет переменной U (ген курильщика). Весь ее смысл как раз в этом. Мы успешно сняли осложнения по U, не обладая никакими данными по ней. Для любого статистика поколения Фишера это выглядело бы как самое настоящее чудо. Во-вторых, в самом начале, во введении, я рассказывал про эстиманд как способ вычислить интересующую нас величину в рамках данного вопроса. Уравнения (2) и (3) — самые сложные и интересные эстиманды в этой книге. Левая сторона представляет вопрос «Каково воздействие X на Y?» Правая сторона — это эстиманд, способ ответа на заданный вопрос. Обратите внимание, что эстиманд не содержит никаких do, только see, представленные вертикальными чертами, и это означает, что его можно рассчитать по имеющимся данным.