Книга Искусство статистики. Как находить ответы в данных, страница 12 – Дэвид Шпигельхалтер

Авторы: А Б В Г Д Е Ж З И Й К Л М Н О П Р С Т У Ф Х Ч Ш Ы Э Ю Я
Книги: А Б В Г Д Е Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ы Э Ю Я
Бесплатная онлайн библиотека LoveRead.me

Онлайн книга «Искусство статистики. Как находить ответы в данных»

📃 Cтраница 12

Такая разница может вызвать у нас подозрения в отношении данных. В замкнутой генеральной совокупности (популяции) с одинаковым количеством мужчин и женщин и примерно одинаковым возрастным профилем среднее (в смысле среднее арифметическое) число партнеров противоположного пола у мужчин и женщин должно быть практически равнозначным! [53] Так почему же мужчины в возрастной группе от 35 до 44 лет сообщают о значительно большем количестве партнеров, чем женщины? Отчасти это может объясняться наличием у мужчин более молодых партнерш, которые не попадают в этот возрастной диапазон, а отчасти существованием систематического расхождения между тем, как мужчины и женщины учитывают свою сексуальную историю. Похоже, мужчины склонны преувеличивать число партнеров, а женщины – преуменьшать, или верно и то и другое.

На рис. 2.4 показано реальное распределение, которое подтверждает мнение о тяжелых правых хвостах, сложившееся на основании параметров, представленных в таблице. Кроме того, при взгляде на диаграмму видны и другие важные детали, такие как склонность мужчин и женщин указывать округленные числа при наличии десяти и больше партнеров (за исключением одного педантичного мужчины, возможно, статистика, который точно указал: сорок семь). Конечно, вы можете задуматься о достоверности таких сведений, а возможные искажения в них мы обсудим в следующей главе.

Иллюстрация к книге — Искусство статистики. Как находить ответы в данных [i_015.jpg]

Рис. 2.4

Данные, предоставленные Natsal-3 на основе опроса 2010–2012 годов. Из-за экономии места ограничены числом 50, однако общее количество и у мужчин, и у женщин достигало 500. Обратите внимание на склонность мужчин называть большее число партнеров, чем женщины, и указывать круглые числа в случае 10 и более партнеров представителями обоих полов


Большие совокупности данных обычно характеризуются несколькими параметрами положения и разброса, а пример с сексуальными партнерами доказал, что эти параметры позволяют существенно продвинуться в понимании общей картины. Однако ничто не заменит простого внимательного просмотра данных, и следующий пример показывает, что хорошая визуализация особенно полезна при намерении уловить закономерности в большом и сложном наборе чисел.


Взаимосвязи между переменными

Выше ли показатели выживаемости в более загруженных больницах?

Отмечается значительный интерес к так называемому эффекту масштаба в хирургии – утверждению, что в более загруженных больницах показатели выживаемости лучше, возможно, потому, что там выше эффективность и врачи имеют шанс приобрести больше опыта. На рис. 2.5 отображены показатели выживаемости детей в течение 30 дней после операций на сердце в больницах Великобритании в зависимости от количества прооперированных детей. На диаграмме 2.5(a) отображены данные о детях до 1 года за 1991–1995 годы (об этом периоде рассказывалось в начале предыдущей главы), поскольку именно эта возрастная группа отличается повышенным риском и находилась в центре внимания бристольского расследования. На диаграмме 2.5(b) представлены данные обо всех детях до 16 лет за 2012–2015 годы (также указаны в табл. 1.1); данных о детях до 1 года за этот период нет. По горизонтальной оси откладывается количество операций, а по вертикальной – уровень выживаемости [54].

Иллюстрация к книге — Искусство статистики. Как находить ответы в данных [i_016.jpg]

Рис. 2.5

Диаграммы рассеяния показателей выживаемости в зависимости от количества операций на сердце у детей. Для (a) коэффициент корреляции Пирсона равен 0,59, а ранговый коэффициент корреляции – 0,85. Для (b) коэффициент корреляции Пирсона равен 0,17, а ранговый коэффициент корреляции –0,03


Данные за 1991–1995 годы на диаграмме 2.5(a) демонстрируют явный выброс – небольшую больницу с низким показателем выживаемости в 71 %. Это Бристольская больница, низкие показатели которой и последующее расследование мы обсуждали в главе 1. Однако если данные об этой больнице убрать (попробуйте закрыть эту точку пальцем), то вид данных за 1991–1995 годы подтверждает предположение о более высоком уровне выживаемости в больницах, где проводят больше операций.

Прямую или обратную зависимость между величинами на диаграмме рассеяния удобно выражать одним числом. Чаще всего для этого используется коэффициент корреляции Пирсона – идея, изначально предложенная Фрэнсисом Гальтоном, но официально закрепленная в работе Карла Пирсона, одного из основоположников современной статистики, в 1895 году [55].

Коэффициент корреляции Пирсона принимает значения от – 1 до 1 и показывает, насколько близко к прямой расположены точки на диаграмме. Коэффициент равен 1, если все точки лежат на прямой с положительным наклоном (чем больше одна величина, тем больше другая), и – 1, если все точки лежат на прямой с отрицательным наклоном (чем больше одна величина, тем меньше другая). Корреляция, близкая к 0, может свидетельствовать о случайном разбросе точек или о какой-либо иной зависимости, при которой отсутствует устойчивый возрастающий или убывающий тренд. Примеры таких случаев приведены на рис. 2.6.

Иллюстрация к книге — Искусство статистики. Как находить ответы в данных [i_017.jpg]

Рис. 2.6

Два набора (вымышленных) данных, для которых коэффициент корреляции Пирсона будет примерно равен 0. Совершенно ясно, что это не говорит об отсутствии зависимости между двумя величинами. Из чудесной подборки диаграмм [56] Альберто Каиро [57]

Реклама
Вход
Поиск по сайту
Ищем:
Календарь