Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных, страница 23. Автор книги Дэвид Хэнд

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»

Cтраница 23

Итак, теперь мы видим корни проблемы – это разные доли старших и младших в наших группах. В группе получавших препарат А было всего 10 % младших, а в группе получавших препарат Б младших было 90 %. Если бы обе группы имели равные доли младших и старших, то проблемы бы не возникло. Поскольку клинические испытания относятся к экспериментальным исследованиям, в которых мы контролируем число пациентов, получающих каждый из препаратов, проблему устранить возможно, сбалансировав доли младших и старших и сделав их одинаковыми в каждой группе.

Такой метод работает, если мы контролируем состав и численность групп. Но в случае с «Титаником» это невозможно: пассажиры были пассажирами, члены экипажа – членами экипажа, и этого изменить мы никак не можем.

Ниже приведен еще один пример, в котором мы не контролируем, кто в какую группу входит.

По данным исследования 1991 г. о взаимосвязи расовой принадлежности и вынесении смертных приговоров по обвинениям в убийстве на территории Флориды, 53 из 483 подсудимых европеоидной расы и 15 из 191 подсудимых афроамериканцев были приговорены к смертной казни [47]. В процентном отношении приговоренных белых (11,0 %) было больше, чем афроамериканцев (7,9 %), как это показано в табл. 4, а.

Но если мы примем во внимание не только расу обвиняемого, но и расу жертвы, то получится несколько иная и вновь обескураживающая картина.

Данные в табл. 4, б показывают, что в случаях, когда жертва принадлежала к белому населению, к смертной казни было приговорено 53 из 467 (11,3 %) белых подсудимых и 11 из 48 афроамериканцев (22,9 %). А в случаях, когда жертвой был афроамериканец, суд приговорил к казни 0 из 16 (0 %) белых подсудимых и 4 из 143 афроамериканцев (2,8 %). Таким образом, среди приговоренных к смертной казни за убийство белого человека доля афроамериканцев выше (22,9 % против 11,3 %); и среди приговоренных к казни за убийство афроамериканца доля обвиняемых той же расы снова оказывается выше (2,9 % против 0 %). Однако в целом при этом к смертной казни за убийство в процентном отношении приговорили меньше афроамериканцев, чем белых (7,9 % против 11,0 %).


Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Как и прежде, объяснение заключается в диспропорциях между группами. Общая доля приговоренных белых (11,0 %) вычисляется путем усреднения результатов по 467 белым жертвам и 16 чернокожим; общая доля приговоренных афроамериканцев (7,9 %) – усреднением результатов по 48 белым жертвам и 143 чернокожим. Эти два отношения, 467/16 и 48/143, являются обратными, что неизбежно искажает общие средние значения.

И снова вы можете справедливо заметить: «Хорошо, разные подходы дают разные результаты, и мы понимаем, почему так происходит. Но при этом оба кажутся разумными, так какие из значений правильные?»

Ответ на этот вопрос зависит от того, что именно вы хотите узнать. В частности, вы хотите задать вопрос о совокупности в целом с указанием размеров ее относительных групп или же провести сравнение внутри этих групп? Если первое, то игнорировать расщепляющую переменную – это нормально. Если второе, то, очевидно, ее необходимо включить в расчет.

Обратите внимание, что пример с клиническим испытанием препарата немного отличается от двух других. В нем не было ничего неизменного и предопределенного в отношении числа младших и старших в каждой группе: эти числа были выбраны экспериментатором. Напротив, в примерах с «Титаником» и смертной казнью цифры были в точности такими, какими они остались в истории. Поэтому в этих двух примерах имеет смысл говорить обо всей совокупности, в то время как при клинических испытаниях, когда экспериментатор сам определяет пропорции возрастов и может их менять, вероятно, нет смысла этого делать. (Возможны исключения, когда цель состоит в том, чтобы увидеть, насколько эффективным является лечение для населения в целом, с воспроизведением пропорций возрастных групп реальной популяции.)

Таким образом, необходимо понимать две вещи: то, какой вопрос вы задаете, и, то, что наличие темных данных зависит от этого вопроса. Как ни банально это прозвучит, но данные, которые вам предстоит собрать, анализ, который вы проведете, и ответ, который получите, зависят от того, что именно вы хотите узнать.

Между или внутри групп?

Проблемы, подобные парадоксу Симпсона, встречаются и в других обличьях. Например, экологическая ошибка возникает, когда по факту корреляции двух групп делается вывод о корреляции между составляющими эти группы объектами. Классический пример был описан в 1950 г. социологом Уильямом Робинсоном [48]. Корреляция между процентом иммигрантов в первом поколении и процентом грамотных в 48 штатах США в 1930 г. составляла 0,53. Это означает, что в штатах с более высокой долей «понаехавших» также и более высокий уровень грамотности (во всяком случае больше людей способны читать на американском английском). На первый взгляд, эти цифры говорят о том, что рожденные за пределами Соединенных Штатов более склонны к обучению. Но анализ внутри штатов продемонстрировал иную картину: средняя корреляция составила –0,11. Отрицательное значение показывает, что иммигранты в первом поколении менее предрасположены к освоению грамотности. Если бы информация по каждому из штатов была недоступна и находилась в области темных данных, то можно было бы сделать неверный вывод о прямой зависимости уровня грамотности от страны рождения.

Родственная этой проблема, известная как смещение вследствие пропущенных переменных, возникает в более сложных статистических методах. Множественная регрессия – это статистический инструмент, который увязывает множество независимых переменных (предикторов) с зависимой от них переменной. Хотя есть особые случаи, для которых это неприменимо, в целом можно сказать, что пропуск любого предиктора ведет к появлению мнимых связей между другими предикторами и зависимой переменной. И, как и в предыдущем примере, поскольку мы не можем включить все возможные предикторы, пропуск некоторых из них неизбежен. Риск, который несут такие темные данные, заключается в том, что выводы могут оказаться неверными. Конечно, статистики, зная об этих проблемах, разрабатывают инструменты для смягчения их воздействия.

Скрининг

В начале своей статистической карьеры я участвовал в проекте по выявлению предрасположенности к остеопорозу у женщин. Остеопороз – это патология, при которой кости теряют массу, становятся хрупкими и с большей вероятностью могут сломаться. По этой причине падения для пожилых людей могут быть особо опасными. Способы измерения плотности костей, например центральная двухэнергетическая рентгеновская абсорбциометрия (центральная DXA), существуют, но они, как правило, очень сложны и недешевы. Это означает, что нужен процесс, позволяющий идентифицировать людей, которые могут страдать от этого состояния. Цель проекта состояла в разработке простой анкеты, которая позволяет получить оценку вероятности возникновения остеопороза на основе известных факторов риска. При этом анкета должна была заполняться респондентом самостоятельно без необходимости присутствия специалиста.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация