Книга Искусство статистики. Как находить ответы в данных, страница 67. Автор книги Дэвид Шпигельхалтер

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Искусство статистики. Как находить ответы в данных»

Cтраница 67

Байес использовал метафору бильярдного стола [226], который от вас скрыт. Предположим, на стол случайно брошен белый шар; его положение на столе отмечается линией, после чего белый шар убирают. Затем на стол случайным образом бросают несколько красных шаров, но вам сообщают только их число слева и справа от линии. Как думаете, где может проходить линия и чему, по-вашему, равна вероятность того, что следующий красный шар будет слева от линии?

Допустим, после того как было брошено пять красных шаров, вам сказали, что три шара приземлились слева от линии, где лежал белый шар, а три – справа, как на рис. 11.4(a). Байес показал, что наше представление о положении линии должно описываться вероятностным распределением, представленным на рис. 11.4(b), – математические рассуждения тут довольно сложные и приведены в примечании [227]. Оценка положения пунктирной линии, указывающей, куда упал белый шар, – 3/7 длины стола, что является средним (математическим ожиданием) для этого распределения.


Искусство статистики. Как находить ответы в данных

Рис. 11.4

«Бильярдный» стол Байеса. (a) На стол бросают белый шар и его конечное положение отмечают пунктирной линией. Затем на стол бросают пять красных шаров – их положение обозначено темными точками. (b) Наблюдатель не видит стола, но ему говорят, что два красных шара приземлились слева от линии, а три – справа. Кривая отображает вероятностное распределение положения пунктирной линии (белого шара) для наблюдателя, наложенное на стол. Среднее значение кривой равно 3/7, и это также текущая вероятность для наблюдателя, что следующий красный шар окажется слева от линии


Значение 3/7 может показаться странным, поскольку интуитивная оценка – 2/5 (доля красных шаров, оказавшихся слева от линии) [228]. Однако Байес показал, что в такой ситуации следует оценивать положение по формуле

количество красных шаров, лежащих слева, +1 / общее количество красных шаров +2.

Это, в частности, означает, что, перед тем как бросать красные шары, мы можем оценить положение белого шара как (0 + 1) / (0 + 2) = 1/2, в то время как интуитивный подход подсказывает, что нельзя дать никакого ответа, так как пока нет никаких данных. В сущности, Байес использует информацию о том, как изначально была проведена линия, ведь мы знаем, что она определялась случайным броском белого шара. Эта первоначальная информация играет ту же роль, что и известная частотность случаев, используемая при маммографии или проверке на допинг, – она называется априорной информацией и влияет на наши окончательные выводы. Фактически, учитывая, что вышеприведенная формула добавляет один шар к числу красных шаров слева от линии и два шара к общему числу красных шаров, мы можем считать это эквивалентным тому, что вы уже бросили два «воображаемых» красных шара – по одному с каждой стороны от пунктирной линии.

Обратите внимание, что если ни один из пяти шаров не попадает слева от пунктирной линии, то мы оцениваем его положение не как 0/5, а как 1/7, что выглядит более осмысленно. Байесовская оценка не может быть 0 или 1, она всегда ближе к 1/2, чем простая доля: при таком «сжатии» оценки всегда стягиваются к центру исходного распределения, в нашем случае к 1/2.

Байесовский анализ берет знание о положении пунктирной линии, чтобы определить его априорное распределение, добавляет новые факты, используя понятие правдоподобия, и делает заключение об апостериорном распределении, выражающем наши текущие знания об этой неизвестной величине. Например, с помощью компьютера можно вычислить, что промежуток от 0,12 до 0,78 содержит 95 % вероятности на рис. 11.4(b), поэтому мы можем с 95-процентной уверенностью сказать, что линия, отмечающая положение белого шара, лежит между этими граничными значениями. Чем больше красных шаров будут бросать на стол и сообщать об их положении относительно пунктирной линии, тем уже будет такой доверительный интервал, постепенно сходясь к правильному ответу.

Основное расхождение в отношении байесовского анализа – источник априорного распределения. В примере со столом белый шар бросается наугад, поэтому любой согласится, что априорное распределение – это равномерное распределение от 0 до 1. Когда знание такого рода недоступно, предположения об априорном распределении приходится делать с помощью субъективных суждений, исторических данных или определения объективного априорного распределения, чтобы данные могли говорить сами за себя без добавления субъективных суждений.

Пожалуй, в этом заключена самая важная идея – что не существует никакого «истинного» априорного распределения и любой анализ должен включать анализ чувствительности к ряду альтернативных гипотез, охватывающих целый ряд возможных мнений.

Как лучше анализировать предвыборные опросы?

Мы видели, как байесовский анализ обеспечивает формальный механизм использования имеющихся знаний для более реалистичных выводов о конкретной, стоящей перед нами задаче. Эти идеи можно (буквально) перенести на другой уровень, поскольку многоуровневое, или иерархическое, моделирование одновременно анализирует различные отдельные величины: мощность таких моделей отражена в успехах предвыборных опросов.

Мы знаем, что в идеале опросы должны основываться на больших случайных репрезентативных выборках, однако их формирование обходится все дороже, а люди все чаще отказываются участвовать в опросах. Поэтому сегодня компании, занимающиеся опросами, по большей части полагаются на онлайн-панели [229]. Поскольку, как известно, они не являются репрезентативными группами, впоследствии используется сложное статистическое моделирование, которое выясняет, какими могли бы быть ответы, если бы компании обеспечили надлежащую случайную выборку. Здесь на ум может прийти старое предупреждение о невозможности сделать шелковый кошелек из свиного уха [230].

Вход
Поиск по сайту
Ищем:
Календарь
Навигация