Книга Думай «почему?». Причина и следствие как ключ к мышлению, страница 60. Автор книги Джудиа Перл, Дана Маккензи

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Думай «почему?». Причина и следствие как ключ к мышлению»

Cтраница 60

Статистики изобрели хитроумные методы избавления от этой проблемы «проклятья множественных измерений». В большинстве из них в том или ином виде применяется экстраполяция, когда для данных подбирается соответствующая им гладкая функция, с помощью которой закрываются дыры, оставленные пустыми стратами.

Наиболее часто из всех гладких функций используется, конечно, линейное аппроксимирование; все ХХ столетие оно честно служило рабочей лошадкой в большей части работ, связанных с количественным исчислением, в науках об обществе и поведении. Мы уже видели, как Сьюалл Райт погрузил свои путевые диаграммы в контекст линейных уравнений, и отметили одно преимущество, которое дает это погружение: каждое каузальное воздействие может быть представлено одним числом (путевым коэффициентом). Второе и не менее важное преимущество линейных аппроксимаций — невероятная простота подсчета поправочной формулы. Ранее мы познакомились с изобретенной Фрэнсисом Гальтоном линией регрессии, когда берется облако точек данных и через это облако интерполируется прямая, наиболее соответствующая их распределению. В случае одной экспериментальной (независимой) переменной (X) и одной зависимой (Y) уравнение для линии регрессии выглядит так: Y = aX + b. Параметр a (часто обозначаемый как rYX, коэффициент регрессии Y на X) рассказывает нам о наблюдаемой в среднем тенденции: увеличение Х на 1 приведет в среднем к увеличению Y на a единиц. Если у Х и Y нет конфаундеров, мы можем использовать это выражение как нашу оценку интервенции по увеличению X на 1. Но что же происходит, если имеется конфаундер, Z? В этом случае коэффициент корреляции rYX не сообщает нам средний каузальный эффект: он передает нам только среднюю наблюдаемую тенденцию. В этом была загвоздка у Райта в случае проблемы веса морских свинок при рождении, обсужденной в главе 2: очевидная прибавка в весе (5,66 грамма) за дополнительный день беременности была смещенной оценкой, потому что осложнялась эффектом меньшего размера помета. Но выход все же есть: разместить все данные по трем переменным так, чтобы каждое значение (X, Y, Z) соответствовало одной точке в пространстве в одной системе координат. В этом случае данные образуют облако точек в XYZ-пространстве. Аналогом линии регрессии здесь будет плоскость регрессии, описываемая уравнением Y = aX + bZ + c. Мы с легкостью вычислим a, b и c из этих данных. В этот момент происходит нечто замечательное, о чем Гальтон не догадывался, а Карл Пирсон и Джордж Удни Юл знали точно. Коэффициент а теперь дает нам коэффициент регрессии Y на X уже с поправкой по Z (он называется коэффициентом частичной регрессии и записывается как rYX.Z). Таким образом, мы можем избежать трудоемкой процедуры подсчета регрессии Y на X для каждого уровня Z и исчисления среднего взвешенного для этих коэффициентов регрессии. Природа сама все усредняет за нас! Нам нужно только рассчитать плоскость, лучше всего описывающую наши данные. Статистические пакеты справляются с этим моментально. Коэффициент а в уравнении этой плоскости, Y = aX + bZ + c, автоматически вносит поправку в наблюдаемый тренд Y на X по конфаундеру Z. Если Z — единственный конфаундер, то а — это среднее каузальное воздействие X на Y. Поистине чудесное упрощение!

Эта процедура также легко расширяется для работы со многими переменными. Если набор переменных Z удовлетворяет критерию черного хода, тогда коэффициент при X в уравнении регрессии а оказывается не чем иным, как средним каузальным воздействием X на Y.

По этой причине поколения исследователей верили, что коэффициенты регрессии после введения поправок (иначе — коэффициенты частичной регрессии) каким-то образом наделены каузальной информацией, которой нет в коэффициентах регрессии без поправок. Ничего не может быть дальше от истины. Коэффициенты регрессии, с поправками или без, — это только статистические тенденции, и в них самих по себе каузальная информация не содержится. Коэффициент rYX.Z представляет собой каузальное воздействие X на Y, а rYX — нет исключительно потому, что у нас есть диаграмма, показывающая, что Z — это конфаундер для X и Y.

Короче говоря, иногда коэффициент регрессии представляет собой каузальное воздействие, иногда нет, но для того, чтобы понять разницу, недостаточно одних только данных. Для вооружения rYX.Z причинностной легитимностью нужны еще два ингредиента. Во-первых, путевая диаграмма должна представлять собой правдоподобную картину реальности, и во-вторых, переменные, по которым вводятся поправки, должны соответствовать критерию черного хода.

Вот поэтому проводимое Сьюаллом Райтом разграничение между путевыми коэффициентами (представляющими собой каузальные воздействия) и коэффициентами регрессии (представляющими собой тенденции в распределении данных) было таким принципиальным. Путевые коэффициенты отличаются от коэффициентов регрессии фундаментальным образом, хотя первые часто выводятся из последних. Ни Райту, однако, ни всем, кто занимался эконометрией и путевым анализом после него, не довелось узнать, что его вычисления были неоправданно сложны. Он мог бы получить путевые коэффициенты из коэффициентов частичной корреляции, если бы только знал, что правильный набор переменных, по которым нужна поправка, легко вывести из самой путевой диаграммы.

Следует помнить также, что поправки, основанные на регрессии, работают только для линейных моделей, что означает значительные допущения при выборе модели. В случае линейных моделей мы теряем возможность передавать нелинейные взаимодействия, например, когда воздействие X на Y зависит от уровня Z. В свою очередь, поправки черного хода нормально работают даже тогда, когда мы не представляем, какие функции стоят за стрелочками на диаграмме. Однако в этом так называемом непараметрическом случае, нам придется применять другие методы экстраполяции, для того чтобы избавиться от проклятья многомерности.

Подводя итоги, отметим, что формула поправок черного хода и критерий черного хода как две стороны одной монеты. Критерий черного хода сообщает нам, какие переменные следует использовать, чтобы снять осложнения. Формула поправок непосредственно снимает их. В простейшем случае линейной регрессии коэффициенты частичной регрессии осуществляют поправку черного хода имплицитно. В непараметрических случаях нам придется выполнять поправки эксплицитно либо с помощью формулы поправок черного хода прямо с исходными данными, либо с какой-либо их экстраполированной версией.

Вы могли подумать, что наше восхождение на гору Интервенцию на этом закончилось полнейшим успехом. Однако, к сожалению, поправки не работают совсем, если имеется путь через черный ход, который мы не в состоянии заблокировать, потому что у нас нет требующихся для этого данных. Однако даже в этом случае мы можем использовать определенные приемы. Далее я расскажу вам об одном из моих любимых методов, называемом поправкой парадного входа. Хотя он был описан более 20 лет назад, только горстка исследователей за это время воспользовалась этой короткой дорогой на гору Интервенцию, и я убежден, что его потенциал еще предстоит раскрыть.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация