Таблица 4
В идеале у каждого человека на лбу должна быть этикета, сообщающая, к какой группе он принадлежит. Взаимозаменяемость предполагает, что процент людей с каждым типом этикетки (процент О, процент К, процент П и процент И соответственно) должен быть одинаков и в контрольной, и в опытной группе. Равенство этих пропорций гарантирует, что исход будет тем же самым, если мы поменяем местами опыт и контроль. В противном случае опытная и контрольная группа неодинаковы и наши оценки эффективности вакцины окажутся смещенными. Обратите внимание, что две группы могут различаться по самым разным параметрам: по возрасту, полу, состоянию здоровья и ряду других характеристик. Только наличие равенства по процентному соотношению О, К, П и И определяет, взаимозаменяемы они или нет. Таким образом, взаимозаменяемость сводится к равенству между двумя наборами из четырех пропорций, что намного проще альтернативы — учета бесчисленных факторов, по которым популяции могут различаться.
Используя это определение конфаундеров, опирающееся на здравый смысл, Гренланд и Робинс показали, что статистические определения, как декларативные, так и процедурные, дают неверные ответы. Переменная может удовлетворять трехчастному тесту эпидемиологов и все-таки усиливать смещение оценки, если вносить в нее поправку.
Определение Гренланда и Робинса было огромным достижением, потому что оно позволило им привести ясные примеры, наглядно демонстрирующие, что предыдущие определения были неадекватны. Тем не менее эту дефиницию нельзя перевести в практическую плоскость. Проще говоря, таких удобных этикеток на лбу не бывает. Мы даже не можем подсчитать процент О, К, П и И. Это как раз та информация, которую хит-рый джинн природы прячет от всех внутри своей волшебной лампы. Без этой информации исследователю остается только полагаться на интуицию, решая, взаимозаменяемы опытная и контрольная группа или нет.
Надеюсь, к этому моменту мне удалось разжечь ваше любопытство. Каким образом каузальные диаграммы превращают головную боль конфаундеров в веселую игру? Секрет лежит в операционном тесте на конфаундеры, называемом критерием черного хода. Этот критерий превращает проблему определения конфаундеров, их поиска и ввода поправок по ним в рутинную задачу, ничуть не более сложную, чем решение журнальной головоломки. Он привел столетнюю, упорную проблему к благополучному разрешению.
Оператор Do и критерий черного хода
Чтобы понять, как работает критерий черного хода, лучше сначала интуитивно представить себе, как двигается информация в каузальной диаграмме. Мне нравится представлять связи как трубы, по которым информация распространяется от стартовой точки X до финиша Y. Не забывайте, что распространение информации идет одновременно по двум направлениям — по каузальному и некаузальному, как мы видели в главе 3.
На самом деле некаузальные пути как раз и являются источником конфаундеров. Вспомним, что я определяю их как все, что вынуждает P (Y | do (X)) отличаться от P (Y | X). Оператор do стирает все стрелки, которые входят в X и предотвращает движение информации от X в некаузальном направлении. Таким же эффектом обладает рандомизация. Наконец, к тому же самому приводит введение статистических поправок, если правильно выбрать переменные, по которым эти поправки следует вводить.
В предыдущей главе мы рассмотрели три правила, которые рассказывают нам, как остановить поток информации по любому отдельно взятому соединению. Я повторю их, чтобы подчеркнуть:
а) в соединении типа «цепочка» A → B → C введение поправок по B предотвращает движение информации об А к C и наоборот;
б) в вилке, или вмешивающемся соединении A ← B → C поправки по B также предотвращают движение информации об А к C и наоборот;
в) в коллайдере A → B ← C действуют прямо противоположные правила. Переменные A и C изначально независимы, поэтому информация об А ничего не говорит о C. Но если вы вводите поправки по B, информация начинает распространяться по «трубе», благодаря эффекту объяснения. Мы должны также держать в уме еще одно фундаментальное правило:
г) выравнивание по нисходящей или опосредованной переменной подобно частичному выравниванию по исследуемой переменной. Выравнивание по переменной, нисходящей по отношению к медиатору, частично закрывает трубу; выравнивание по переменной, нисходящей по отношению к точке схождения, частично открывает трубу.
А что же будет в случае более длинных труб с большим числом соединений, вроде такой: A ← B ← C → D ← E → F → → G → H ← I ← J?
Ответ очень прост: если хоть одна связь окажется заблокирована, то J ничего не сможет «узнать» про A по этому пути. Таким образом, у нас множество вариантов прервать сообщение между A и J: вводить поправки по B, по С, не вводить поправки по D (потому что это коллайдер), вводить по E и т. д. Достаточно любого из этих вариантов.
Вот почему обычная статистическая процедура выравнивания по всем параметрам, которые только можно измерить, так ошибочна. На самом деле приведенный выше путь заблокирован даже в том случае, если мы не вводим никаких поправок! Коллайдеры к D и G закрывают путь без посторонней помощи. Введение поправок по D и G откроет этот путь и позволит J «услышать» A.
Итак, чтобы устранить конфаундеры между X и Y, нам необходимо только заблокировать все некаузальные пути между ними, не блокируя и не нарушая каузальные пути. Выражаясь точнее, путь черного хода — это любой путь от X до Y, который начинается со стрелки, входящей в Х. Конфаундеры между X и Y будут устранены, если мы закроем все черные ходы (потому что такие пути допускают ложную корреляцию между X и Y). Если мы делаем это, выравнивая выборку по некоторому набору переменных Z, следует также убедиться, что ни один фактор из Z не является нисходящей переменной по отношению к X на каузальном пути, иначе этот путь полностью или частично закроется.
Вот и все! С этими правилами устранение конфаундеров становится настолько элементарным делом, что можно воспринимать его как игру. Я предлагаю вам несколько примеров, чтобы войти во вкус и увидеть, как это просто. Если вам все еще кажется, что это сложно, будьте уверены, что существуют алгоритмы, решающие все эти задачи в течение наносекунд. В каждом случае цель игры — определить набор переменных, которые устранят конфаундеры между X и Y. Другими словами, они не должны исходить от X и они должны блокировать все черные ходы.