Книга Искусство статистики. Как находить ответы в данных, страница 48. Автор книги Дэвид Шпигельхалтер

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Искусство статистики. Как находить ответы в данных»

Cтраница 48

Вероятностное распределение наблюдаемой доли левшей в случайных выборках по 1, 2, 5, 10 и 1000 человек, где истинная доля левшей в генеральной совокупности равна 0,2. Вероятность получения не менее 30 % левшей в выборке вычисляется путем сложения вероятностей для всех значений справа от 0,3


Если мы выберем случайным образом двух человек, то доля левшей может быть 0 (оба правши), 0,5 (один левша и один правша) или 1 (оба левши). Вероятность таких событий равна 0,64, 0,32 и 0,04 соответственно [168], и это распределение показано на рис. 9.1(b). Аналогично с помощью теории вероятностей мы можем найти распределение для наблюдаемых долей левшей в выборках по 5, 10, 100 и 1000 человек (рис. 9.1). Такое распределение известно как биномиальное, а часть диаграммы, лежащая правее какого-либо значения, называется его хвостом.

Среднее значение случайной величины также известно как математическое ожидание, и в наших выборках мы можем ожидать долю левшей 0,2, или 20 %: все распределения, представленные на рис. 9.1, имеют среднее 0,2. Среднеквадратичное отклонение для каждого из них зависит от параметров распределения (в нашем случае 0,2) и размера выборки. Обратите внимание, что стандартное отклонение какой-то статистики обычно называют стандартной ошибкой, чтобы отличить от стандартного (среднеквадратичного) отклонения в распределении, из которого взяты данные.

Рис. 9.1 демонстрирует некоторые отличительные особенности. Во-первых, по мере увеличения выборки форма распределения становится более правильной и симметричной (так же как мы наблюдали при использовании бутстрэппинга), во-вторых, распределения сужаются. В следующем примере показано, как простое применение этих идей позволяет быстро определить, насколько статистическое утверждение обоснованно.

Действительно ли в некоторых регионах Великобритании смертность от колоректального рака в три раза выше?

Заголовок на уважаемом новостном сайте «Би-би-си» в сентябре 2011 года настораживал: «Трехкратное различие в уровне смертности от колоректального рака в Великобритании». Далее в статье объяснялось, что в различных округах страны показатели смертности от рака толстой кишки значительно разнятся, а комментатор добавлял, что «местным органам здравоохранения крайне важно изучить эту информацию и использовать ее для оповещения о потенциальных изменениях в оказании услуг».

«Трехкратное различие» звучит необычайно драматично. Но когда блогер Пол Барден наткнулся на эту статью, он задался вопросом: «Неужели люди в разных частях страны действительно сталкиваются со столь значительной разницей рисков умереть от рака? Чем объяснить такое расхождение?» Он счел это настолько неправдоподобным, что решил заняться этой темой. К счастью, все данные были в открытом доступе в интернете, и Барден обнаружил, что они подтверждают заявление «Би-би-си»: ежегодные показатели смертности от этого вида рака действительно отличались в три раза между разными регионами страны – от 9 случаев на 100 тысяч человек в районе Россендейл (Ланкашир) до 31 на 100 тысяч в округе Глазго-Сити [169].

Однако расследование на этом не закончилось. Барден построил диаграмму смертности населения в каждом округе, что дало картину, представленную на рис. 9.2. Видно, что точки (за исключением экстремального случая с Глазго-Сити) расположены в форме воронки, причем чем население округов меньше, тем разброс больше. Затем Пол добавил контрольные граничные значения, которые показывают, куда могли бы попасть точки, если бы разница между наблюдаемыми уровнями определялась исключительно естественной неизбежной изменчивостью числа людей, ежегодно умирающих от рака толстой кишки, а не какими-то систематическими отклонениями в рисках для различных округов. Эти предельные значения получены из предположения, что число смертей – это наблюдение, взятое из выборки с биномиальным распределением, размер которой равен количеству взрослого населения округа: вероятность того, что любой конкретный человек умрет от рака в течение года, составляет 0,000176 (это средний риск смерти по всей стране). Граничные значения включают 95 % и 99,8 % всех наблюдений соответственно. График такого типа называется воронкообразным и широко используется при работе с несколькими медицинскими организациями или учреждениями, поскольку позволяет отобразить выбросы, не создавая упорядоченных таблиц.


Искусство статистики. Как находить ответы в данных

Рис. 9.2

Ежегодные показатели смертности от колоректального рака на 100 тысяч человек в 380 округах Великобритании в зависимости от численности населения округа. Две пары пунктирных линий, полученные исходя из предположения о биномиальном распределении, обозначают области, куда должны были бы попасть 95 % и 99,8 % округов, если бы между ними не было никакой разницы в рисках. Только Глазго демонстрирует риск, отличный от среднего. Такой способ представления данных называется воронкообразным графиком


Данные достаточно хорошо укладываются в указанные пределы, а значит, различия между округами как раз такие, как мы бы ожидали в результате случайной изменчивости. В маленьких округах меньше случаев заболевания, поэтому они более уязвимы к случайным отклонениям и поэтому их показатели рассеяны сильнее: в Россендейле зафиксировано всего семь смертей, поэтому один лишний случай сильно изменяет уровень смертности. Следовательно, несмотря на драматический заголовок «Би-би-си», никаких сверхоткрытий здесь нет – трехкратное различие в уровне смертности мы могли бы ожидать даже в случае, если бы вероятность заболеть была бы в точности одинаковой во всех округах.

Этот простой пример преподает нам важный урок. Даже в эпоху открытых данных, науки о данных и журналистики данных нам по-прежнему нужны базовые статистические принципы, чтобы нас не ввели в заблуждение видимые закономерности в числах.

Наша диаграмма показывает, что единственное наблюдение, требующее внимания, – это точка, соответствующая Глазго. Неужели колоректальный рак – это, некий шотландский феномен? Действительно ли верно это наблюдение? Более поздние данные за 2009–2011 годы показывают, что уровень смертности от колоректального рака в Большом Глазго [170] составлял 20,5 на 100 тысяч человек, в Шотландии в целом – 19,6, а в Англии – 16,4: эти результаты ставят под сомнение вышеуказанное наблюдение для Глазго, но демонстрируют, что в Шотландии уровень смертности выше, чем в Англии. Как правило, заключения, сделанные после одного цикла решения задачи, поднимают новые вопросы и цикл начинается заново.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация