Голая статистика. Самая интересная книга о самой скучной науке – страница 61 | Чарльз Уилан

Ответ очевиден: это результат опросов общественного мнения. К тому же в приведенном выше примере их проводили The New York Times и CBS News. (То обстоятельство, что две конкурирующие новостные организации совместно реализовывали проект, подобный этому, является первым указанием на то, что такие исследования довольно затратны.) Я не сомневаюсь, что вы знакомы с результатами этих опросов. Возможно, не столь явно выраженным кажется тот факт, что методология их проведения представляет собой всего лишь еще одну форму статистического вывода. Опрос общественного мнения – это получение выводов о настроениях определенной совокупности людей, основанных на мнениях, высказанных некоторой выборкой, сформированной из генеральной совокупности.

Эффективность опросов обусловливается использованием того же источника, что и в предыдущих примерах с выборками, – центральной предельной теоремы. Если мы опрашиваем достаточно большую репрезентативную выборку избирателей (или любую другую группу), то у нас есть все основания полагать, что она будет очень похожа на совокупность, из которой извлечена. Если ровно половина взрослых американцев не одобряют однополые браки, то мы вполне можем рассчитывать, что в репрезентативной выборке из 1000 американцев примерно половина ее членов также выступят против однополых браков.

И наоборот (что гораздо важнее для проведения опросов общественного мнения), если в репрезентативной выборке из 1000 американцев удалось выявить определенные настроения, например 46 % недовольны деятельностью Обамы на посту президента США, то это дает веский повод думать, что среди населения в целом – примерно в такой же пропорции – также присутствуют подобные настроения. Вообще говоря, мы можем рассчитать вероятность того, что результаты, полученные с помощью нашей выборки, будут значительно отклоняться от доминирующих настроений в обществе. Когда вы читаете, что статистическая погрешность составляет ±3 %, в действительности речь идет о том же 95 %-ном доверительном интервале, который мы вычисляли в предыдущей главе. Наш «95 %-ный доверительный интервал» означает, что если бы мы провели 100 разных опросов общественного мнения в выборках, сформированных из одной и той же совокупности, то, предположительно, полученные ответы в 95 из 100 опросов отличались бы (в ту или другую сторону) от истинных настроений этой совокупности не более чем на 3 %. В контексте вопроса об оценке деятельности Обамы на посту президента США, фигурировавшего в опросе, проводившемся The New York Times и CBS News, мы могли на 95 % быть уверены, что истинная доля американцев, не одобряющих его деятельность, находится в диапазоне 46 ± 3 %, то есть от 43 % до 49 %. Если вы прочитаете сопроводительный текст к опросу, набранный мелким шрифтом (между прочим, я бы настоятельно рекомендовал вам всегда это делать), то увидите, что его смысл заключается в следующем: «Теоретически в 19 случаях из 20 результаты, базирующиеся на таких выборках, будут отличаться не более чем на 3 % (в ту или другую сторону) от результатов, которые были бы получены в ходе опроса всех взрослых американцев».

Одно из фундаментальных отличий опросов общественного мнения от других форм использования метода выборки состоит в том, что интересующим нас статистическим показателем выборки будет не среднее значение (например, 187 фунтов веса), а некий процент или доля (например, 47 % избирателей, или 0,47). В остальном же процессы идентичны. При наличии крупной репрезентативной выборки (опрос общественного мнения) можно ожидать, что доля респондентов, охваченных определенными настроениями (например, 9 % респондентов в этой выборке одобряют деятельность Конгресса США), примерно равна доле американских избирателей в целом, испытывающих аналогичные настроения. Это в принципе ничем не отличается от предположения о том, что средний вес выборки из 1000 мужчин-американцев должен примерно равняться среднему весу всех мужчин-американцев. Тем не менее мы допускаем вероятность какого-то разброса от выборки к выборке доли тех, кто одобряет деятельность Конгресса США, точно так же как у нас есть все основания ожидать какого-то разброса в средних значениях веса при использовании разных произвольных выборок из 1000 мужчин-американцев. Если бы The New York Times и CBS News провели еще один опрос – задавая те же вопросы другой выборке из 1000 взрослых американцев, – то очень маловероятно, что его результаты полностью бы совпали с результатами первого опроса. С другой стороны, можно ожидать, что ответы, полученные в ходе первого и второго опросов, будут незначительно отличаться между собой. (Воспользуюсь метафорой, к которой уже прибегал в этой книге: если вы попробуете ложку супа из кастрюли, затем хорошенько перемешаете суп и попробуете ложку супа еще раз, то его вкус, скорее всего, покажется вам примерно таким же) Стандартная ошибка – вот что указывает на то, какого разброса результатов от выборки к выборке (в данном случае от опроса к опросу) мы можем ожидать.

Формула расчета стандартной ошибки в случае, когда речь идет о процентной величине или доле, несколько отличается от формулы, с которой вы уже познакомились; впрочем, интуитивные соображения остаются такими же. Для любой произвольной выборки, сформированной надлежащим образом, стандартная ошибка равняется √(p(1 − p)/n), где p – доля респондентов, выражающих определенную точку зрения, (1 − p) – доля респондентов, имеющих противоположную точку зрения, а n – общее количество респондентов в выборке. Обратите внимание, что стандартная ошибка будет уменьшаться с увеличением размера выборки, поскольку n находится в знаменателе. Стандартная ошибка также будет уменьшаться с увеличением разности между p и (1 − p). Например, стандартная ошибка будет меньше в случае опроса, в ходе которого 95 % респондентов выражают определенную точку зрения, чем в случае опроса, в котором мнения респондентов разделяются примерно 50 на 50. Это чисто математический результат, поскольку 0,05×0,95 = 0,047, тогда как 0,5×0,5 = 0,25; меньшая величина в числителе формулы ведет к уменьшению стандартной ошибки.

Допустим, что в результате проведения простого экзитпола репрезентативной выборки из 500 избирателей выяснилось, что 53 % проголосовали за кандидата от республиканцев, 45 % – за кандидата от демократов и 2 % поддержали независимого кандидата. Если использовать кандидата от республиканцев как интересующую нас долю, то стандартная ошибка для этого экзитпола составит: √[(0,53)(1–0,53)/500] = √[(0,53)(0,47)/500] = √[0,25/500] = √0,0005 = 0,02236

Для упрощения округлим стандартную ошибку для этого экзитпола до 0,02. Пока это всего лишь некое число. Подумаем, почему оно так важно для нас. Предположим, избирательные участки только что закрылись, и вашему работодателю (коим является некая телекомпания) не терпится объявить победителя выборов еще до того, как станут известны официальные результаты. Вам как человеку, уже прочитавшему две трети этой книги, поручено заниматься обработкой данных, полученных в ходе экзитпола. Ваш начальник желает знать, можно ли на их основании назвать победителя выборов.

Вы объясняете, что ответ на этот вопрос зависит от того, насколько уверенной хочет быть телекомпания в правильности своего заявления – или, точнее говоря, какой риск она готова принять на себя, если оно окажется ошибочным. Вспомните: стандартная ошибка дает нам представление о том, как часто можно ожидать, что доля в выборке (экзитпол) окажется достаточно близкой к истинной доле в совокупности (результат голосования). Нам известно, что примерно в 68 % случаев мы можем ожидать, что доля в выборке – в данном случае 53 % избирателей, которые утверждают, что проголосовали за кандидата от республиканцев, – отстоит от истинного окончательного результата голосования не более чем на одну стандартную ошибку. Таким образом, вы говорите начальнику «с 68 %-ной уверенностью», что ваша выборка, которая показывает, что кандидат от республиканцев получил голоса 53 % избирателей ± 2 %, то есть между 51 и 55 %, соответствует истинному достигнутому им результату. Между тем, согласно тому же экзитполу, за кандидата от демократов отдали голоса 45 % избирателей. Если предположить, что итог голосования за кандидата от демократов имеет ту же стандартную ошибку (упрощение, суть которого я объясню ниже), то с 68 %-ной уверенностью можно утверждать, что наша выборка (экзитпол), которая показывает, что за кандидата от демократов проголосовали 45 % избирателей ± 2 %, то есть между 43 и 47 %, заключает в себе истинный результат этого кандидата. Согласно этому подсчету, победителем становится кандидат от республиканцев.

Книга Голая статистика. Самая интересная книга о самой скучной науке, страница 61 – Чарльз Уилан

Онлайн книга «Голая статистика. Самая интересная книга о самой скучной науке»