Книга Искусство статистики. Как находить ответы в данных, страница 20. Автор книги Дэвид Шпигельхалтер

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Искусство статистики. Как находить ответы в данных»

Cтраница 20

Возможно, самый важный урок, извлеченный из этого примера, состоит в том, что темно-серая закрашенная область на рис. 3.2(d) выполняет две функции:


1. Отображает долю детей с низкой массой тела при рождении в генеральной совокупности.

2. Демонстрирует вероятность того, что вес случайно выбранного ребенка, родившегося в 2013 году, будет меньше 2500 граммов.


Таким образом, генеральную совокупность можно рассматривать не только как группу реальных людей, но и как представление вероятностного распределения для случайных наблюдений. Эта двойная интерпретация будет иметь фундаментальное значение, когда мы перейдем к более формальным статистическим заключениям.

Конечно, в этом случае мы знаем форму и параметры генеральной совокупности, поэтому можем что-то сказать и о долях, и о вероятностях различных событий, которые могут наступать при случайных наблюдениях. Но суть этой главы в том, что мы, как правило, не знаем параметры генеральной совокупности, а потому хотим с помощью индукции переходить от данных выборки ко всей совокупности. Мы видели, что стандартные измерения выборочного среднего, медианы, моды и так далее, которые мы создали для выборки, распространяются на всю генеральную совокупность. Но разница в том, что мы не знаем, что это такое. Именно с этой проблемой мы и столкнемся в следующей главе.


Что такое генеральная совокупность?

Рассмотренные выше индуктивные этапы хорошо работают с плановыми исследованиями, однако значительная часть статистических анализов не так легко вписывается в эту структуру. Мы видели, что иногда (например, при использовании полицейской документации о преступлениях) у нас могут быть все доступные данные. И хотя это не выборка, идея лежащей в их основе какой-то генеральной совокупности все же имеет ценность.

Вернемся к данным об операциях на сердце у детей из главы 1. Мы сделали довольно смелое предположение, что проблем с измерениями не было – иными словами, что у нас есть полный набор операций и всех выживших детей в течение 30 дней во всех больницах, то есть идеальное знание выборки (этап 2).

Но что такое изучаемая совокупность? Мы располагаем данными обо всех больницах и всех детях, поэтому нет большей группы, из которой они могут быть взяты. Хотя идея генеральной совокупности обычно вводится в курсах статистики довольно буднично и вскользь, наш пример показывает, что это сложное и запутанное понятие, требующее подробного изучения, поскольку на нем основаны многие важные идеи.

Существуют три вида генеральных совокупностей, из которых мы можем делать выборки – вне зависимости от того, являются ли источниками данных люди, сделки, деревья или что-либо другое.


• Буквальная совокупность. Это идентифицируемая группа, откуда мы, к примеру, выбираем случайным образом человека при опросе. Или группа людей, для которых можно провести измерения, и, хотя мы на самом деле не выбираем наугад, у нас есть данные от добровольцев. Например, мы можем рассматривать людей, угадавших число драже в банке, как выборку из совокупности всех любителей математики, которые смотрят видеоролики на YouTube.

• Виртуальная совокупность. Мы часто проводим измерения с помощью каких-либо устройств, скажем, измеряем кровяное давление или уровень загрязнения воздуха. Мы знаем, что всегда можем сделать еще несколько измерений и получить немного другие результаты – вам это прекрасно известно, если вы когда-нибудь повторно измеряли артериальное давление. Близость полученных результатов зависит от точности прибора и неизменности обстановки. Мы могли бы думать об этом как о получении наблюдений из некой виртуальной совокупности всех измерений, которые могли бы сделать, если бы имели достаточно времени.

Метафорическая совокупность. В этом случае никакой большей совокупности нет вообще. Это необычное понятие. Мы действуем так, будто наши данные получены случайным образом из какой-то большей совокупности, хотя это не так. Например, в случае детей, перенесших операцию на сердце, у нас не было никакой выборки, а были полные данные, и ничего сверх них мы собрать уже не могли. Подумайте о количестве ежегодно совершаемых убийств, результатах экзаменов для определенного класса или данных обо всех странах мира – ни в одном из этих случаев мы не можем считать имеющиеся данные выборкой из какой-то фактической совокупности.


Идея метафорической совокупности требует осмысления: возможно, предпочтительнее думать, что наши наблюдения берутся из некоего воображаемого пространства возможностей. Например, мировая история такая, какая есть, но мы можем представить, что она развивалась по совершенно иному сценарию, а мы просто оказались в одном из ее возможных состояний. Это множество альтернативных историй можно считать метафорической совокупностью. А если конкретнее, то, когда мы рассматривали детские операции в Соединенном Королевстве за 2012–2015 годы, у нас были полные данные о детях за этот период: мы знали и число смертей, и число выживших. Однако мы можем себе представить гипотетические истории, в которых выжили бы другие дети вследствие непредвиденных обстоятельств, которые мы склонны именовать «случайностью».

Должно быть очевидно, что в статистике выборка редко составляется буквально наугад и что более распространены ситуации, когда потенциально доступны полные данные. Тем не менее крайне полезно придерживаться концепции воображаемой генеральной совокупности, из которой взята наша «выборка», поскольку в этом случае мы можем использовать все математические методы, разработанные для составления выборок из реальных генеральных совокупностей.

Лично мне больше нравится действовать так, будто происходящее вокруг – результат случайного выбора из всех вероятных сценариев. От нас зависит, будем ли мы верить, что это действительно случайность, или воля Божья или богов, или какая-то иная теория причинности: для математики разницы нет. Это всего лишь одно из расширяющих кругозор требований при работе с данными.

Выводы

• Для перехода от данных к выборке, а затем к изучаемой и далее к целевой совокупности требуются индуктивные умозаключения.

• На каждом из этапов могут возникать ошибки и проблемы.

• Лучший способ перейти от выборки к исследуемой совокупности – обеспечить случайность выборки.

• Генеральную совокупность можно представлять и как группу объектов, и как отображение вероятностного распределения для случайного наблюдения, полученного из этой совокупности.

• Описывать совокупности можно с помощью тех же характеристик, что и выборки.

• Часто данные не являются выборкой из буквальной совокупности. Когда в выборку входят все данные, мы можем вообразить, что они взяты из метафорической совокупности событий, которые могли бы случиться, но не произошли.

Глава 4. Причины и следствия

Повышает ли поступление в университет риск развития опухоли мозга?

Вход
Поиск по сайту
Ищем:
Календарь
Навигация