Книга Почему. Руководство по поиску причин и принятию решений, страница 49. Автор книги Саманта Клейнберг

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Почему. Руководство по поиску причин и принятию решений»

Cтраница 49

На практике, однако, можно не измерять переменную напрямую. Возможно, мы не можем узнать точно, сколько часов люди работают, но мы в курсе, сколько времени они проводят в офисе. Некоторые из сотрудников на рабочем месте могут затягивать обеденный перерыв или тратить время на личную переписку и видеоигры. Используя только показатель офисных часов, не получится провести различие между этой категорией и теми, кто находится на месте меньше, но работает продуктивнее. С учетом этого обстоятельства такой индикатор рабочих часов не будет идеально экранировать следствия.

Подобный пример сродни тем, в которых мы изучали репрезентативность переменных (комбинации факторов против каждого отдельного) и ее влияние на результаты выводов о причинности. Итак, нам может понадобиться не только набор переменных для верного отделения причин от следствий. Также следует ожидать, что по этой и другим причинам (упущенные данные, ошибки измерений и т. д.) может иметь место некая вероятностная связь между переменными в отсутствие причинной зависимости, и придется выяснять, как с ними работать.

Если мы говорим, что отпуск – причина производительности, то имеем в виду, что факт отпуска важен для производительности. Если это действительно сильная причина, а требование эффективности не предъявляется ни к какому другому фактору (скажем, достаточный уровень дохода, чтобы отпуск не повлиял на финансы), то, независимо от значения других переменных (например, количества отработанных часов), производительность после отпуска должна повышаться.

И это не будет истинным для всех ситуаций, поскольку многие причины могут иметь как положительные, так и отрицательные следствия: к примеру, ремни безопасности в целом предотвращают летальные исходы дорожных происшествий, но иногда вызывают их, не давая выбраться из затонувшего автомобиля. Мы, однако, по-прежнему можем допустить, что даже если ремни безопасности иногда становятся причиной смерти, в среднем те, кто ими пользуется, имеют более низкие шансы погибнуть в автокатастрофе, чем остальные.

Чтобы квантифицировать (то есть выразить в численном виде) важность причин, можно в среднем вычислить, какое значение имеет причина с точки зрения вероятности ее следствий. Фактически идея заключается в том, чтобы выяснить, насколько изменяется вероятность следствия при отсутствии или наличии причины, если все остальное постоянно. Обстоятельства можно взвесить по критерию их вероятности; если причина значительно повышает вероятность следствия в часто повторяющемся сценарии, это значит больше, чем повышение вероятности в редких случаях.

Возьмем каузальную структуру на рис. 6.8, где партийная поддержка и идеология влияют на голосование политиков, но не предпочтения их избирателей. Если это истинный набор взаимоотношений, тогда в зависимости от того, поддерживают избиратели законопроект или нет, вероятность голосования «за» будет в точности такой же, хотя будут наблюдаться изменения при смене идеологии и партийных предпочтений.


Почему. Руководство по поиску причин и принятию решений

Рис. 6.8. Средняя значимость избирателей для голосования будет стремиться к нулю. Обратите внимание, что графы без обведенных кружками узлов не представляют байесовские сети


Один из методов расчета причинной значимости – сразу зафиксировать значения всех переменных [256] и взглянуть на различия в следствии для каждого заданного значения. Партия может выступать за или против законопроекта, идеологические предпочтения могут совпадать с ним или нет, равно как и избиратели. Итак, мы можем взять каждую комбинацию и посмотреть, какое значение оказывает одобрение электората для любого соединения партийной поддержки и идеологических переменных. Поскольку эти две переменные полностью определяют исход голосований, разницы не будет никакой.

Однако при добавлении переменных каждый из возможных сценариев будет отмечен не слишком часто, и мы, возможно, не увидим достаточно примеров, чтобы вывести статистически значимые заключения. Более практичная мера значимости, чем разработанная мной, предусматривает наличие одновременно только одной константы, при этом для усреднения различий причина либо вводится, либо нет [257]. Для расчета этой меры причинной значимости εavg мы выясним, какое значение оказывают избиратели, взяв константой партийную поддержку законопроекта, а потом сделаем то же самое для идеологии и так далее, в итоге сведя все отличия воедино, чтобы получить средний показатель для значимости избирателей.

По большей части в методах, основанных на вероятностях (например, как этот), берется набор данных и высчитывается число, обозначающее причинную значимость одной переменной по сравнению с другой. Это значение может находиться в диапазоне от – 1 до 1, где –1 – сильная отрицательная причина, мешающая следствию произойти, а 1 – сильная положительная причина следствия.

Поскольку обязательно будут помехи, ошибки и упущенные данные, нельзя сделать допущение, что нечто, не оказывающееся причиной, всегда будет иметь нулевое значение. Вместо этого, как правило, необходимо определить, какие значения меры причинной значимости будут статистически значимыми (вспомним разговор о p-значениях и тестирование множественных гипотез в главе 3) [258].

К примеру, когда мы рассчитываем среднюю причинную значимость большого количества потенциальных причин, при этом нет истинных причинных взаимосвязей, распределение рейтингов значимости (значений εavg) будет выглядеть как колоколообразная (гауссова) кривая, или как светло-серые столбцы на рис. 6.9. Если в тестируемом наборе присутствуют некоторые истинные причинные взаимосвязи, их рейтинги значимости будут основаны на других распределениях (черные столбцы на том же рисунке). Можно применить это различие между наблюдаемым и ожидаемым, чтобы выяснить, какие значения меры могут считаться каузальными [259].


Почему. Руководство по поиску причин и принятию решений

Рис. 6.9. Гистограмма рейтингов значимости для набора причинных зависимостей. Область светло-серого цвета (со средним значением 0, обозначающим незначимость) представляет ложные зависимости, черные столбцы – истинные причины. Из-за помех и иных факторов не все непричины будут иметь значимость 0, но будут распределены вокруг этой центральной области

Вход
Поиск по сайту
Ищем:
Календарь
Навигация