Философы изо всех сил старались исправить это определение — они учли в нем так называемые фоновые факторы (еще одно название для осложняющих факторов) и привлекли критерий P (Y | X, K = k) > P (Y | K = k), где K обозначает некие фоновые переменные. Более того, этот критерий работает для нашего примера с мороженым, если считать температуру фоновой переменной. Скажем, если мы рассмотрим только дни, когда температура достигает 30 °C (K = 30), то не найдем остаточных связей между мороженым и преступлениями. Иллюзия, что вероятность повышается, возникнет, только если мы сравним дни, когда было +30 °C, с днями, когда был 0 °C.
И все же ни один философ не смог дать убедительный общий ответ на вопрос: какие переменные необходимо включить в набор общих переменных K и сделать условием задачи? Проблема очевидна: осложняющие переменные — это тоже понятие из сферы причинности, поэтому они не поддаются описанию с точки зрения вероятности. В 1983 году Нэнси Картрайт вышла из тупика и обогатила описание фонового контекста элементами причинности. Она предложила учитывать только факторы, «причинно релевантные» для следствия. Позаимствовав это понятие со второго уровня Лестницы Причинности, она, по сути дела, отказалась от идеи определять причины на основе исключительно вероятности. Это был прогресс, но критики получили возможность утверждать, что мы определяем причину через нее саму.
Философские споры по поводу подобающего содержания K продолжались более 20 лет и зашли в тупик. Замечу, что мы увидим верный критерий в главе 4 и я не буду портить здесь сюрприз. На данный момент достаточно сказать, что это критерий практически нереально сформулировать без диаграмм причинности.
Обобщая, следует сказать, что вероятностная причинность всегда сталкивалась с осложняющими переменными. Каждый раз, когда приверженцы вероятностной причинности пытаются починить корабль, снабдив его новым корпусом, он натыкается на тот же подводный камень и получает очередную протечку. Но, если выразить «рост вероятности» на языке условных вероятностей, как ни подлатывай корпус, на следующий уровень Лестницы не попадешь. Как бы странно это ни звучало, понятие повышения вероятности нельзя объяснить в терминах вероятностей.
Верный способ спасти идею повышения вероятности — использовать оператор do: можно сказать, что X вызывает Y, если P (Y | do (X)) > P (Y). Поскольку интервенция — понятие второго уровня, это определение способно отразить причинную интерпретацию повышения вероятности, а еще оно будет работать на диаграммах причинности. Другими словами, если у нас на руках диаграмма причинности и данные, и исследователь спрашивает, действительно ли P (Y | do (X)) > P (Y), мы в состоянии дать связный алгоритмический ответ и таким образом решить, является ли X причиной Y в плане повышения вероятности.
Обычно я обращаю много внимания на то, что философы хотят сказать о скользких понятиях, таких как причинность, индукция или логика научных рассуждений. У философов есть преимущество: они стоят в стороне от оживленных научных дебатов и от реалий взаимодействия с данными на практике. Они в меньшей степени, чем другие ученые, заражены антипричинными предубеждениями статистики.
Они могут привлечь традицию восприятия причинности, которая восходит к Аристотелю, и говорить о причинности, не краснея и не пряча ее за этикеткой «ассоциации».
Однако, стараясь перевести понятие причинности на язык математики, что само по себе идея, достойная похвалы, философы слишком быстро прибегли к единственному известному им языку, который может описать неопределенность, — к языку вероятности. За последний десяток лет они в основном преодолели это заблуждение, но, к несчастью, похожие идеи сейчас рассматриваются в эконометрике под названиями вроде «причинность по Грэнджеру» и «векторная автокорреляция».
И сейчас я сделаю признание: я совершил ту же ошибку. Я не всегда ставил причинность на первое место, а вероятность — на второе. Наоборот! Когда я стал работать над искусственным интеллектом в начале 1980-х годов, я думал, что неопределенность — самая важная вещь, которой не хватает ИИ. Более того, я настаивал на том, чтобы неопределенность была представлена с помощью вероятностей. Таким образом, как я объясняю в главе 3, я разработал подход к рассуждениям в условиях неопределенности под названием «байесовские сети», который имитирует, как идеализированный, децентрализованный мозг может включить вероятности в принятие решений. Если мы видим определенные факты, байесовские сети способны быстро вычислить вероятность верности или неверности определенных фактов. Неудивительно, что байе-совские сети сразу обрели популярность в сообществе ИИ и даже сегодня считаются ведущей парадигмой в искусственном интеллекте для рассуждений при неопределенности.
Хотя продолжающийся успех байесовских сетей чрезвычайно радует меня, они не смогли закрыть зазор между искусственным и человеческим интеллектом. Я уверен, что вам понятно, какой составляющей не хватает — причинности. Да, призраки причинности в изобилии витали рядом. Стрелки неизменно вели от причин к следствиям, и практики часто замечали, что диагностические системы становятся неуправляемыми, если направление стрелок меняется в обратную сторону. Но по большей части мы думали, что эта культурная привычка — артефакт былых сценариев мышления, а не центральный аспект разумного поведения.
В то время меня так опьянила сила вероятностей, что я счел причинность второстепенным понятием — просто удобством или ментальной скорописью для выражения вероятностных зависимостей и отделения релевантных переменных от нерелевантных.
В своей книге 1988 года «Вероятностные рассуждения в интеллектуальных системах» (Probabilistic Reasoning in Intelligent Systems) я писал: «Причинность — язык, на котором мы можем эффективно обсуждать определенные структуры в отношениях релевантности». Я смущаюсь, вспоминая эти слова сегодня, потому что релевантность — очевидно, понятие первого уровня. Еще ко времени, когда книга была напечатана, в глубине души я знал, что был неправ. Для моих коллег — специалистов по компьютерным наукам книга стала библией вероятностных рассуждений в условиях неопределенности, но я уже чувствовал себя еретиком.
Байесовские сети существуют в мире, где все вопросы сводятся к вероятностям или (в терминах этой главы) степеням связи между переменными; они не могли подняться на второй или третий уровни Лестницы Причинности. К счастью, потребовалось всего два небольших изменения, чтобы забраться наверх. Сначала, в 1991 году, благодаря идее сделать графику «хирургическую операцию», получилось применить его и к наблюдениям, и к интервенциям. Еще один поворот, в 1994 году, вывел их на третий уровень — они стали применимы к контрфактивным суждениям. Но все это заслуживает обсуждения ниже. Главное в следующем: в то время как вероятности кодируют наши представления о статичном мире, причинность говорит нам, как вероятности меняются (и меняются ли) в статичном мире, будь то посредством интервенции или воображения.
Глава 2. От государственных пиратов до морских свинок: становление причинного вывода