Повторное применение этих двух правил к каждому узлу в сети называется распространением степени уверенности. В ретроспективе видно, что в этих правилах нет ничего произвольного или выдуманного; они находятся в строгом соответствии с правилом Байеса. Настоящий вызов состоял в том, чтобы гарантировать удобное равновесие в конце — независимо от того, в каком порядке отправляются эти сообщения; более того, окончательное равновесие должно представлять «правильное» отражение веры в переменные. Под «правильным» я имею в виду такой же результат, как если бы мы проводили вычисления с помощью методов из учебника, а не путем передачи сообщений.
Это задача заняла меня и моих студентов, а также моих коллег на несколько лет. Но к концу 1980-х годов мы преуспели до такой степени, что байесовские сети стали практической схемой машинного обучения. За следующие 10 лет сфера их применения, например, для фильтрации спама и распознавания голоса, постоянно расширялась. Однако к тому времени я уже пытался подняться по Лестнице Причинности, передав вероятностную сторону байесовских сетей в другие надежные руки.
Байесовские сети: что причины говорят о данных
Хотя Байес этого не знал, его правило обратной вероятности представляет собой простейшую байесовскую сеть. Мы уже видели ее в нескольких обличиях: чай → пирожные, болезнь → анализ и, в более общем контексте, гипотеза → подтверждения. В отличие от диаграмм причинности, с которыми мы будем иметь дело в течение всей книги, байесовские сети не подразумевают, что стрелки обозначают причинно-следственные связи. Стрелка просто значит, что нам известна «прямая» вероятность: P (пирожные | чай) or P (тест| болезнь). Правило Байеса показывает нам, как развернуть процедуру обратно, в частности, путем умножения априорной вероятности на отношение правдоподобия.
Формально распространение уверенности осуществляется абсолютно одинаково, и неважно, обозначают ли стрелки причинно-следственные связи. Тем не менее у вас может появиться интуитивное ощущение, что во втором случае мы сделали нечто более осмысленное. Это потому, что наши мозги оснащены специальным аппаратом для понимания причинно-следственных связей (например, между раком и маммографией). Для чистых ассоциаций (скажем, между чаем и пирожными) это не работает.
Следующий этап после сети из двух узлов с одной связью — конечно же, сеть из трех узлов с двумя связями, которую я буду называть связкой. Это строительные блоки во всех байесовских (и причинно-следственных) сетях. Существуют три основных типа связок, с помощью которых мы можем описать любое использование стрелок в сети.
1. A → B → C. Эта связка — самый простой образец цепочки или медиации. В науке В часто считают механизмом или посредником, который передает действие А на С. Знакомый пример — огонь → дым → тревога. Хотя мы называем это «пожарной сигнализацией», на самом деле она реагирует на дым. Огонь как таковой не запускает сигнализацию, поэтому стрелки между огнем и тревогой нет. Также огонь не запускает сигнализацию ни через какую другую переменную вроде температуры. Сигнализация реагирует только на молекулы дыма в воздухе. Если отменить это звено в цепочке, скажем отсосав все молекулы дыма с помощью вытяжки, то тревоги не будет.
Это наблюдение приводит к важному концептуальному выводу о цепочках: посредник B «отсеивает» информацию об A, не давая ей доступа к C, и наоборот (впервые на это указал Ханс Рейхенбах, немецко-американский философ науки). Так, если мы уже знаем о присутствии или отсутствии дыма, информация об огне не может дать нам оснований, чтобы в большей или меньшей степени верить сигнализации. Эта стабильность веры — понятие первого уровня; следовательно, можно ожидать, что мы будем наблюдать его и в данных, если они доступны. Предположим, у нас есть база данных обо всех случаях возгорания, дыма или срабатывания сигнализации. Если бы мы смотрели только на те строки, где дым = 1, то ожидали бы, что тревога = 1 всякий раз, независимо от того, огонь = 0 или огонь = 1. Этот эффект отсеивания действует, если следствие не является детерминированным. Представьте себе неисправную систему сигнализации, которая не срабатывает правильно в 5 % случаев. Если посмотреть только на строки, где дым = 1, окажется: вероятность, что тревога = 1, одинакова (95 %), и неважно, огонь = 0 или огонь = 1.
Просмотр только тех строк в таблице, где дым = 1, называется ограничением по переменной. Подобным образом мы говорим, что огонь и тревога ограниченно независимы, учитывая значение дыма. Это важно знать, если вы программируете машину, чтобы обновить ее убеждения; ограниченная независимость дает машине право сосредоточиться на значимой информации и игнорировать всю остальную. Всем нам необходимо такое право для повседневной мыслительной деятельности, иначе мы будем постоянно гоняться за ложными сигналами. Но как же решить, какую информацию игнорировать, если каждый новый ее фрагмент меняет границу между значимым и неважным? К людям это понимание приходит естественным путем. Даже трехлетние малыши понимают эффект отсеивания, хотя у них нет для него названия. Их инстинкт, вероятно, основан на некой репрезентации в уме, возможно напоминающей причинную диаграмму. Но у машин нет такого инстинкта, и это одно из обстоятельств, по которым мы снабжаем их причинными диаграммами.
2. A ← B → C. Этот тип связки называется «вилка», и В часто считают общей причиной или общим осложнителем для А и С. Осложняющая переменная обеспечивает статистическую корреляцию между А и С, хотя между ними нет прямой причинной связи. Вот хороший пример (от Дэвида Фридмана): размер обуви ← возраст ребенка → навыки чтения. Дети, у которых больше размер обуви, обычно лучше читают. Но это не причинно-следственные отношения. Если дать ребенку обувь большего размера, он не станет от этого лучше читать! Напротив, обе переменных объясняются третьей — возрастом ребенка. У более старших детей обувь большего размера, и одновременно они более продвинутые читатели.
Мы можем избавиться от этой ложной корреляции, как называли ее Карл Пирсон и Джордж Удни Юл, ограничив нашу выборку возрастом ребенка. Так, если взять только семилетних детей, мы не будем ожидать какой-либо зависимости между размером обуви и умением читать. Как и в случае с цепочкой, А и С условно независимы, если дано В.
Прежде чем перейти к третьей связке, необходимо кое-что прояснить. Условная независимость, которую я только что упомянул, проявляется всякий раз, когда мы смотрим на эти связки в изоляции. Если их окружают дополнительные причинные связи, последние необходимо принять во внимание. Чудо байесовских сетей состоит в том факте, что три вида связок, которые мы описываем в изоляции, достаточны, чтобы увидеть любую независимость, подразумеваемую байесовской сетью, какой бы сложной она ни была.
3. A → B ← C. Это самая интересная связка под названием «коллайдер». Феликс Элверт и Крис Уиншип проиллюстрировали ее, используя три характеристики голливудских актеров: талант → известность ← красота. Здесь мы утверждаем, что и талант, и красота способствуют успеху актера, но красота и талант совершенно не связаны друг с другом у людей в целом.