Думай «почему?». Причина и следствие как ключ к мышлению – страница 55 | Джудиа Перл, Дана Маккензи

Таблица 8. Вымышленные данные, иллюстрирующие парадокс Симпсона

Иллюстрация к книге — Думай «почему?». Причина и следствие как ключ к мышлению [i_049.jpg]

Но теперь посмотрите на третью строку таблицы. В контрольной группе сердечный приступ был у 22 %, а в группе принявших лекарства — у 18 %. Итак, если судить по итогам эксперимента, препарат D, похоже, снижает риск сердечного приступа у населения в целом. Добро пожаловать в загадочный мир парадокса Симпсона!

Почти 20 лет я пытаюсь убедить научное сообщество в том, что парадокс Симпсона ставит нас в тупик из-за неправильного применения законов причинности к статистическим соотношениям. Если использовать причинно-следственные обозначения и диаграммы, то можно четко и однозначно решить, предотвращает ли препарат D сердечные приступы или вызывает их. По сути, парадокс Симпсона — это загадка, связанная с конфаундерами, и ее реально решить теми же методами, которые мы уже использовали в похожем случае. Любопытно, что авторы трех из четырех работ 2016 года, о которых я упомянул, продолжают сопротивляться этому решению.

Любая попытка разрешить парадокс (особенно если ему уже несколько десятилетий) должна соответствовать базовым критериям. Во-первых, как я сказал выше в связи с парадоксом Монти Холла, ей следует объяснить, почему люди находят парадокс удивительным или невероятным. Во-вторых, ей нужно показать тип сценариев, в которых возможно его появление. В-третьих, когда парадокс все-таки возникает, и нам надо сделать выбор между двумя правдоподобными, но противоречивыми утверждениями, важно указать, какое из утверждений является правильным.

Давайте начнем с вопроса, почему парадокс Симпсона вызывает удивление. Чтобы ответить на него, надо провести различие между двумя вещами — инверсией Симпсона и парадоксом Симпсона.

Инверсия Симпсона — это чисто числовое явление: как видно из табл. 7, это изменение относительной частоты какого-то события в двух или более различных выборках при объединении выборок. В нашем примере мы увидели, что 3/40 > 1/20 (частота сердечных приступов среди женщин, принимавших и не принимавших лекарство D) и 8/20 > 12/40 (частота среди мужчин). Тем не менее, когда мы объединили показатели женщин и мужчин, неравенство изменило направление на противоположное: (3 + 8) / (40 + 20) < (1 + 12) / (20 + 40). Если вы считали такой поворот математически невозможным, то, скорее всего, неверно применяли или неверно запомнили свойства дробей. Многие люди, кажется, считают, что если A/B > a/b и C/D > c/d, то (A + C) / (B + D) > (a + c) / (b + d). Но это общее представление ошибочно. Только что приведенный нами пример его опровергает.

Инверсию Симпсона можно обнаружить в наборах данных из реальной жизни. Вот прекрасный образец для фанатов бейсбола, касающийся двух звездных бейсболистов — Дэвида Джастиса и Дерека Джитера. В 1995 году у Джастиса был более высокий средний показатель: 0,253 против 0,250. В 1996 году у Джастиса снова был более высокий средний показатель 0,321 против 0,314. А в 1997 году он набрал больше очков, чем Баттер, третий сезон подряд: 0,329 против 0,291. Тем не менее за три сезона вместе взятых больше очков оказалось у Джитера! Табл. 8 демонстрирует расчеты для читателей, которые хотели бы их проверить.

Как один игрок может быть хуже, чем другой, в 1995, 1996 и 1997 годах, но лучше в течение трехлетнего периода? Эта инверсия напоминает о лекарстве из нашего примера. На самом деле это невозможно; все дело в том, что мы использовали слишком простое слово («лучше») для описания сложного процесса усреднения по разным сезонам. Обратите внимание, что выходы на биту (знаменатели) не распределяются равномерно по годам. В 1995 году у Джитера было их очень мало, поэтому его довольно низкий средний показатель в этом году мало повлиял на общий средний показатель. Однако у Джастиса было намного больше выходов на биту в его наименее продуктивном году, 1995-м, и это привело к снижению общего среднего показателя. Как только вы поймете, что «лучший нападающий» определяется соперничеством лицом к лицу, а средневзвешенным значением, которое учитывает, как часто играл каждый из них, думаю, все это будет уже не так удивительно.

Таблица 8. Данные (невымышленные), иллюстрирующие инверсию Симпсона

Иллюстрация к книге — Думай «почему?». Причина и следствие как ключ к мышлению [i_050.jpg]

Инверсия Симпсона, конечно же, удивляет некоторых людей и даже фанатов бейсбола. Каждый год у меня появляются студенты, которые сначала не могут поверить в такие вещи. Но потом они идут домой, работают над подобными примерами и утрачивают сомнения. Просто они начинают по-новому, немного глубже понимать, как работают числа (и особенно агрегированные показатели). Я не называю инверсию Симпсона парадоксом, потому что это по большому счету вопрос исправления ошибочных представлений о том, как ведут себя средние значения. Парадокс — нечто большее: он должен повлечь за собой конфликт между двумя глубоко укоренившимися убеждениями.

У профессиональных статистиков, которые работают с числами каждый день своей жизни, еще меньше оснований считать инверсию Симпсона парадоксом. Простое арифметическое неравенство не могло бы озадачить и увлечь их до такой степени, чтобы они продолжали писать о нем статьи 60 лет спустя.

Вернемся теперь к нашему основному примеру — парадоксу с лекарством. Я объяснил, почему три утверждения («вредно для мужчин», «вредно для женщин» и «полезно для людей), интерпретируемые как увеличение и уменьшение пропорций, не противоречат друг другу математически. И все же вам может показаться, что это физически невозможно. Странно, что лекарство способно вызвать одновременно у меня и у вас сердечный приступ, но в то же время предотвратить сердечный приступ у нас обоих. Это интуитивное чувство универсально; оно появляется у нас в двухлетнем возрасте, задолго до того, как мы начинаем изучать числа и дроби. Поэтому я думаю, вы испытаете облегчение, узнав, что не нужно отказываться от интуиции. Лекарства с такими свойствами пока не изобрели и не изобретут никогда, что мы можем доказать математически.

Первым внимание к этому интуитивно очевидному принципу привлек статистик Леонард Сэвидж. В работе 1954 года он назвал его «верное дело». Он писал: «Бизнесмен задумывается о покупке определенного объекта недвижимости. При этом он учитывает исход следующих президентских выборов. Чтобы прояснить этот вопрос, он спрашивает себя, купил бы он этот объект, если бы знал, что выиграет кандидат-демократ, и приходит к выводу, что да. Потом он задает тот же вопрос о кандидате-республиканце и приходит к такому же выводу. Осознав, что покупка состоялась бы в любом случае, он решается на нее, несмотря на то, что не знает, кто победит. Очень редко решение может быть принято на основе этого принципа, но… Я не знаю другого экстралогического принципа, управляющего решениями, который было бы так легко принять».

Книга Думай «почему?». Причина и следствие как ключ к мышлению, страница 55 – Джудиа Перл, Дана Маккензи

Онлайн книга «Думай «почему?». Причина и следствие как ключ к мышлению»