Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных, страница 13. Автор книги Дэвид Хэнд

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»

Cтраница 13

Запись с пробелами сразу показывает, что чего-то не хватает (DD-тип 1: данные, о которых мы знаем, что они отсутствуют). Однако, когда люди вообще отказываются отвечать на вопросы, мы имеем иной результат – DD-тип 4: самоотбор. Люди могут быть слишком заняты, могут воспринять опрос как вторжение в частную жизнь или просто не выходить на контакт (например, если их нет в городе на момент проведения исследования). Это тоже известные неизвестные в том смысле, что мы знаем, кто эти люди, поскольку они есть в списке выборки, а также знаем, что они могли бы дать ответы, если бы были готовы и имели возможность. Но, поскольку у нас нет их ответов, мы вынуждены находиться в неведении.

Один из ярких примеров такого рода проблем дают президентские выборы 1936 г. в США. На основе опросов популярный журнал The Literary Digest много раз успешно определял победителей выборов, и в 1936 г. он предсказал, что победит кандидат от республиканцев Альфред Лэндон, а голоса разделятся в соотношении 3∕2. Тем не менее Франклин Рузвельт, кандидат от демократов, одержал уверенную победу, набрав 523 из 531 голоса коллегии выборщиков, 62 % голосов избирателей и получив большинство в 46 из 48 штатов.

Результаты этих выборов и ошибочный прогноз The Literary Digest часто связывают с темными данными, полученными в ходе опроса. На этот счет есть разные теории, но все они сводятся к одной мысли: не стоило в качестве рамки выборки использовать телефонные справочники. В то время телефоны были чем-то вроде предметов роскоши и в основном принадлежали состоятельным людям, среди которых было больше сторонников республиканцев. Таким образом, в выборке была завышена доля людей, которые планировали голосовать против Рузвельта.

Подобно попытке оценить средний возраст населения страны на основе выборок, сделанных в ночных клубах или домах престарелых, это объяснение ошибочного прогноза предполагает, что причина появления темных данных кроется вовсе не в отказе людей отвечать на вопросы, а в неправильном определении первоначального списка респондентов.

Однако подробный анализ статистика Мориса Брайсона показывает, что этот упрощенческий подход является в корне неверным [22]. С одной стороны, он недооценивает те меры, которые предпринимали опросчики The Literary Digest, чтобы обеспечить репрезентативность выборки потенциальных избирателей. Они хорошо понимали факторы, которые могли привести к искажению этой выборки. С другой стороны, хотя в то время лишь около 40 % домохозяев имели телефоны, эти же 40 % представляли наиболее активную часть избирателей. Сей факт означает, что, несмотря на возможность появления темных данных в масштабе всего населения, их влияние было куда менее серьезным, если рассматривать владельцев телефонов как долю голосующего населения, что, конечно, имеет значение для выборов. Значение, которое может оказаться решающим: на референдуме 2016 г. о том, следует ли Великобритании покинуть Евросоюз, проголосовало 43 % тех, кто до этого заявлял, что «не интересуется политикой», в то время как на всеобщих британских выборах 2015 г. проголосовало лишь 30 % таких людей. Тот, кто утверждает, что будет голосовать за Х, должен реально проголосовать за Х, чтобы его утверждение стало верным.

Что касается опроса избирателей на выборах Лэндон/Рузвельт, похоже, что популярная «телефонная» теория неверна. Тогда чем же объяснить провал опроса?

Ответ по-прежнему лежит в области темных данных, но данных другого типа – куда более знакомых и понятных нам, живущим в эпоху сетевых опросов. Дело в том, что, хотя было разослано 10 млн анкет, лишь около четверти тех, кто их получил, то есть около 2,3 млн человек, потрудились ответить. Более трех четвертей опрошенных просто проигнорировали анкеты – их политические взгляды стали темными данными. Последствия очевидны. Если республиканские избиратели были более заинтересованы в выборах, чем сторонники Рузвельта (а все указывает на то, что это именно так), то они с большей вероятностью откликались на опрос. Это и создало впечатление большинства в пользу Лэндона – искаженное представление, которое обмануло The Literary Digest. Искажение самоотбора было устранено, когда состоялись настоящие выборы.

Таким образом, это неожиданное расхождение прогноза и результатов выборов было следствием темных данных, но не из-за ошибок при составлении выборки, а по причине разной вероятности того, что республиканские и демократические избиратели вообще откликнутся на опрос. Причиной стала добровольность ответа (DD-тип 4: самоотбор).

Поскольку рамка выборки на основе сложного анализа была определена правильно (то есть опросчики точно знали, кто имеет право голосовать), то можно было бы настроить ее, как это описано в главе 9. Но там, где рамка выборки определена неверно, такая настройка будет куда сложнее или даже попросту невозможна. В этом случае мы покидаем область DD-типа 1: данные, о которых мы знаем, что они отсутствуют, и перемещаемся в область DD-типа 2: данные, о которых мы не знаем, что они отсутствуют. Веб-опросы (о них мы поговорим чуть позже) особенно уязвимы для этого сценария.

Надо признать, что ситуации, когда часть людей не отвечает на вопросы, как в примере с Лэндоном/Рузвельтом, бывают довольно сложными. Те, кто отказывается отвечать, могут существенно отличаться от тех, кто решил ответить: сам факт их неучастия в опросе уже показывает, что они в чем-то отличаются. Возможно, более склонными пройти опрос будут люди, проявляющие особый интерес к его теме, как в случае с Лэндоном/Рузвельтом. А может быть, это будут те, кто просто лучше информирован по данной теме. В Нидерландах проводилось исследование жилищных условий, которое показало, что более нуждающиеся люди чаще откликаются на опрос, поэтому может сложиться ложная общая картина [23]. В опросах на тему виктимизации так называемые серийные события, например домашнее насилие, которое не имеет конкретного начала и конца, могут не выявляться в ходе опросов, посвященных отдельным инцидентам. Кроме того, люди зачастую отказываются от участия, если им кажется, что на опрос уйдет слишком много времени. В целом, что касается опросов и не только, самоотбор служит наиболее опасным источником темных данных.

Электоральные опросы, конечно, полезны, но, поскольку и государство, и бизнес все шире используют опросы как инструмент сбора информации, все больше становится и неадекватных ответов. Да и показатель отклика во всем мире падает. Проиллюстрируем это на примере обследования трудовых ресурсов Великобритании [24]. На рис. 2 показана доля тех, кто соглашался пройти опрос, по отношению ко всем, кому это было предложено, за каждый квартал с марта 2003 г. по сентябрь 2017 г. Эта доля снизилась за указанный период с более чем 65 % до 45 % и даже ниже. Такая однозначно нисходящая тенденция не способствует большой уверенности в выводах, которые будут сделаны на основе опросов в дальнейшем, если, конечно, не принять соответствующих мер.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация