Одна группа получала чистую воду; другая получала воду, загрязненную канализационными стоками.
Рис. 47. Каузальная диаграмма для холеры (до открытия холерного вибриона)
Наблюдения Сноу добавили к каузальной диаграмме еще одну переменную, и теперь она выглядит как рис. 48. Рискованное детективное исследование доктора Сноу привело к двум важным открытиям: 1) нет стрелки между миазмами и водопроводной компанией (эти две переменные независимы) и 2) есть стрелка между водопроводной компанией и чистотой воды. Третье обстоятельство не было упомянуто доктором Сноу, но не менее важно: 3) отсутствие прямой стрелки от водопроводной компании к холере, что сегодня для нас вполне очевидно, потому что теперь мы знаем, что водопроводные компании не доставляли холеру в дома своих клиентов каким-либо другим путем.
Переменная, которая удовлетворяет таким трем условиям, сегодня называется инструментальной переменной. Совершенно ясно, что Сноу воспринимал эту переменную как подбрасывание монеты, которое симулирует переменную без входящих стрелок. Поскольку во взаимоотношениях между переменными водопроводная компания и холера нет конфаундеров, любая наблюдаемая между ними связь должна быть причинно-следственной. Аналогично, поскольку воздействие водопроводной компании на холеру осуществляется через чистоту воды, мы (как и когда-то Сноу) заключаем, что наблюдаемая ассоциация между чистотой воды и холерой тоже должна быть причинно-следственной. Свой вывод Сноу вынес в недвусмысленных терминах: если компания «Саутворк и Воксхол» перенесет водозабор выше по течению, это спасет тысячи жизней.
В то время на выводы доктора Сноу обратили внимание лишь немногие. Свои результаты он опубликовал в брошюре, изданной за его собственный счет: по рукам разошлись только 56 экземпляров этой брошюры. В наше время эпидемиологи рассматривают ее как основополагающий документ для всей своей дисциплины. Она показала, что старомодное расследование «на подметках ботинок» (эту фразу я позаимствовал у Дэвида Фридмана) вместе с применением каузальных рассуждений позволяют вычислить убийцу.
Хотя теория миазмов в наше время полностью развенчана, бедность в этом примере, несомненно, являлась конфаундером, как, впрочем, и местоположение. Однако, даже не собирая данные по этим переменным (так далеко опросы доктора Сноу не заходили), а используя лишь инструментальную переменную, мы способны вычислить, сколько жизней было бы спасено благодаря чистой воде.
Рис. 48. Диаграмма для холеры после введения инструментальной переменной
Вот как это работает. Для простоты мы вернемся к именам Z, X, Y и U для наших переменных и перерисуем диаграмму рис. 48 так, как на рис. 49. Я добавил путевые коэффициенты (a, b, c, d), отражающие силу каузальных воздействий. Мы, таким образом, предполагаем, что наши переменные исчислимы, а функции, описывающие их, линейны. Вспомним, что путевой коэффициент a означает, что интервенция по увеличению Z на одну стандартную единицу увеличит X на a стандартных единиц (здесь я опущу технические подробности о том, что такое «стандартная единица»).
Поскольку Z и X ничем не осложнены, каузальное воздействие Z на X (т. е. a) можно оценить по наклону rXZ линии регрессии X на Z. Аналогично переменные Z и Y не осложнены, потому что путь Z → X ← U → Y блокируется схождением по X. Следовательно, наклон линии регрессии Z на Y (rZY) будет равен каузальному воздействию на прямом пути Z → X → Y, которое представляет собой произведение путевых коэффициентов: ab. Итак, получаем два уравнения: ab = rZY и a = rZX. Если мы разделим первое уравнение на второе, то получим каузальное воздействие X на Y: b = rZY / rZX.
Вот так инструментальные переменные позволяют выполнить тот же волшебный фокус, который нам удавался с помощью поправок парадного входа: мы нашли воздействие X на Y, даже не будучи в состоянии контролировать осложнитель U или получить по нему данные.
Рис. 49. Общая схема для инструментальных переменных
В итоге мы предоставили лицам, принимающим решения, убедительные аргументы о том, что водозабор надо передвинуть вверх по течению, даже если лица, принимающие решения, продолжают верить в теорию миазмов. Обратите также внимание, что мы добыли информацию со второго уровня Лестницы Причинности (b) из информации с первого уровня (корреляции rZY и rZX). Мы смогли это сделать, потому что допущения, воплощенные в путевой диаграмме, каузальны по своей природе, особенно критически важное допущение, что между переменными U и Z стрелки нет. Если бы каузальная диаграмма была иной, например если бы Z была конфаундером связи X и Y, формула b = rZY / rZX не давала бы верной оценки воздействия Х на Y. На самом деле эти две модели невозможно различить никакими чисто статистическими методами, как бы велики ни были массивы данных.
Инструментальные переменные были известны до Революции Причинности, но каузальные диаграммы привнесли новую ясность в то, как они работают. Сноу воспользовался инструментальной переменной имплицитно, хотя у него и не было количественной формулы. Сьюалл Райт, несомненно, понимал пользу путевых диаграмм в этом случае; формула b = rZY / rZX может быть напрямую выведена из его метода путевых коэффициентов.
Похоже, что первым ученым помимо самого Сьюалла Райта, кто сознательно воспользовался инструментальными переменными, был не кто иной, как… его собственный отец Филип Райт!
Вспомним, что Филип Райт был экономистом, работавшим в организации, которая впоследствии станет Брукингским институтом. Его интересовало, как объем производства некоего товара изменится, если будет введена пошлина, которая поднимет на товар цену и предположительно увеличит объем производства. На экономическом языке его интересовала эластичность предложения.
В 1928 году Райт написал объемную монографию, посвященную подсчетам эластичности предложения для льняного масла. В замечательном приложении к этой работе он анализирует вопрос с помощью путевых диаграмм. Это был смелый ход: вспомним, что ни один экономист в мире тогда не видел и не слышал ничего подобного (на самом деле Райт-старший подстраховался и подтвердил свои подсчеты также и с помощью более традиционных методов).