Книга Думай «почему?». Причина и следствие как ключ к мышлению, страница 76. Автор книги Джудиа Перл, Дана Маккензи

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Думай «почему?». Причина и следствие как ключ к мышлению»

Cтраница 76

До этого момента в книге я использовал весьма неформальное слово «слушание», чтобы показать, что я имею в виду под стрелками на диаграмме причинности. Но теперь пришло время добавить немного математической плоти к этой концепции. Именно здесь структурные причинно-следственные модели отличаются от байесовских сетей или регрессионных моделей. Когда я говорю, что зарплата слушает образование и стаж, я имею в виду, что такова математическая функция этих переменных: S = fS (EX, ED). Но нам нужно учитывать индивидуальные вариации, поэтому мы расширяем эту функцию и записываем ее как S = fS (EX, ED, US), где US означает ненаблюдаемые переменные, которые влияют на заработную плату. Мы знаем, что эти переменные существуют (например, Элис дружит с президентом компании), но они слишком разнообразны и многочисленны, чтобы явно включить их в нашу модель.


Думай «почему?». Причина и следствие как ключ к мышлению

Рис. 53. Диаграмма причинности, показывающая эффект воздействия образования (ED) и стажа (EX) на зарплату (S)


Давайте посмотрим, как это отразится на нашем примере образования / стажа / заработной платы, предполагая во всем линейные функции. Мы используем те же статистические методы, что и раньше, с целью найти наиболее подходящее линейное уравнение. Результат будет выглядеть так же, как уравнение (4), но с одним небольшим отличием:

S = $65 000 + 2 500 ¥ EX + 5 000 ¥ ED + US (5)

Однако формальное сходство между уравнениями (4) и (5) глубоко обманчиво; их интерпретации различаются как день и ночь. Тот факт, что мы решили регрессировать S по ED и EX в уравнении (4), никоим образом не означает, что S слушает ED и EX в реальном мире. Это был исключительно наш выбор, и наши данные никак не помешали бы нам регрессировать EX по ED и S или следовать любому другому порядку. (вспомните открытие Фрэнсиса Гальтона, описанное в главе 2, о том, что регрессия не видит причины). Мы теряем эту свободу, когда объявляем уравнение структурным. Другими словами, автор уравнения (5) должен взять на себя обязательство составлять выражения, отражающие его представления о том, кто кого слушает в реальном мире. В нашем случае он считает, что S действительно слушает EX и ED. Что еще более важно, отсутствие уравнения ED = fED (EX, S, UED) в модели означает, что ED предположительно не учитывает изменения в EX или S. Это различие в обязательствах дает структурным уравнениям возможность поддерживать контрфактивность, что нереально для уравнений регрессии.

В соответствии с рис. 53 у нас также должно быть структурное уравнение для EX, но теперь мы установим коэффициент при S как равный нулю, чтобы отразить отсутствие стрелки от S к EX. После того как мы оценим коэффициенты на основе имеющихся данных, уравнение будет выглядеть примерно так:

EX = 10 — 4ED + UEX (6)

Это уравнение говорит о том, что средний стаж для людей без степени магистра составляет десять лет и что каждая ступень образования (до двух) снижает EX в среднем на четыре года. Кроме того, обратите внимание на ключевое различие между структурными уравнениями и уравнениями регрессии: переменная S не входит в уравнение (6), несмотря на то, что S и EX, вероятно, сильно коррелированы. Это отражает уверенность аналитика в том, что на стаж EX, приобретенный любым человеком, никак не влияет его текущая зарплата.

Теперь давайте продемонстрируем, как выводить контрфактивные суждения из структурной модели. Чтобы оценить зарплату Элис, если бы у нее было высшее образование, мы сделаем три шага.

1. Абдукция: используйте данные об Элис и других сотрудниках, чтобы оценить ее специфические факторы: US (Элис) и UEX (Элис).

2. Действие: используйте оператор do, меняя модель так, чтобы она отражала контрфактивное допущение — в данном случае о наличии у нее высшего образования: ED (Элис) = 1.

3. Прогноз: рассчитайте новую зарплату Элис, используя модифицированную модель и обновленную информацию об экзогенных переменных: US (Элис), UEX (Элис) и ED (Элис). Эта рассчитанная заново зарплата равна SED = 1 (Элис).


Для шага 1 мы извлекаем из наших данных сведения, что EX (Элис) = 6 и ED (Элис) = 0. Мы подставляем эти значения в уравнения (5) и (6). Затем уравнения сообщают нам специфические для Элис факторы: US (Элис) = $1 000 и UEX (Элис) = –4. Они представляют все уникальное, особенное и чудесное, что есть в Элис. Что бы это ни было, оно добавляет 1 000 долларов к ее прогнозируемой зарплате.

Шаг 2 велит нам использовать do-оператор, чтобы стереть стрелки, указывающие на переменную, для которой установлено контрфактивное значение (образование), и присвоить Элис диплом бакалавра (образование = 1). В этом примере шаг 2 тривиален, потому что нет стрелок, указывающих на образование, и, следовательно, нет стрелок, которые нужно стереть. Однако в более сложных моделях удаление стрелок нельзя пропустить, потому что оно влияет на вычисления в шаге 3. Переменным, которые могли повлиять на результат через промежуточную переменную, больше не разрешается это делать.

Наконец, шаг 3 предполагает обновление модели с целью отразить новую информацию: US = $1 000, UEX = –4 и ED = 1. Сначала мы используем уравнение (6), чтобы пересчитать, каким был бы стаж Элис, если бы она училась в колледже: EXED = 1 (Элис) = 10 — 4–4 = 2 года. Затем мы используем уравнение (5), чтобы пересчитать ее потенциальную зарплату:

SED = 1 (Элис) = $65 000 + 2 500 ¥ 2 + 5 000 ¥ 1 + 1 000 = $76 000.

Наш результат S1 (Элис) = $76 000 — это действительная оценка потенциальной зарплаты Элис; т. е. совпадение возможно, если допущения модели верны. Поскольку в примере используется очень простая причинно-следственная модель и элементарные (линейные) функции, различия между ней и методом регрессии на основе данных могут показаться незначительными. Но незначительные различия на поверхности отражают огромные различия в глубине. Какой бы контрфактивный (потенциальный) результат мы ни получили от структурного метода, он логически следует из допущений, отраженных в модели. В то же время результат, полученный с помощью метода, основанного на данных, будет так же своеобразен, как и ложные корреляции, поскольку он оставляет эти допущения неучтенными.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация