Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных, страница 14. Автор книги Дэвид Хэнд

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»

Cтраница 14

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Это явление не ограничивается обследованием трудовых ресурсов Великобритании, оно затрагивает все виды опросов во всем мире. Общенациональные опросы потребителей в США – это телефонные опросы на тему расходов и экономии. Уровень участия в них снизился с 79 % в 1979 г. до 60 % в 1996 г. и до 48 % в 2003 г. Множество других примеров приведено в отчете Национальной академии США за 2013 г. под редакцией Роджера Туранжо и Томаса Пльюиса, в котором говорится: «Уровень отклика домохозяйств на опросы государственных организаций и частных компаний, которые являются ценными источниками данных для исследований в области социальных наук, падают во всех наиболее богатых странах мира» [25]. На рис. 3 показан уровень отклика в период 1997–2011 гг. для домохозяйств в рамках Национальной программы анкетирования по вопросам здоровья США. Хотя, возможно, и не такая яркая, как в предыдущем примере, но тенденция к снижению существует.


Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Снижение уровня отклика ясно прослеживается и в медицинских эпидемиологических исследованиях. Опрос Национальной системы надзора за поведенческими факторами риска проводится в Соединенных Штатах для изучения собственно факторов риска, скрининга (массового профилактического обследования населения с целью выявления болезней на ранней стадии) и доступа к медицинскому обслуживанию. Средний показатель участия в этом опросе снизился с 71 % в 1993 г. до 51 % в 2005 г.

Ключевой вопрос заключается в том, в какой момент уровень отклика становится слишком низким для того, чтобы можно было считать опрос полезным? В какой момент доля темных данных становится слишком высокой для того, чтобы результаты опроса можно было экстраполировать на все население? Достаточно ли 90 %-ного уровня отклика для получения надежных результатов? А 80 %-, 50 %-, 20 %-ного? И насколько эффективны методы корректировки результатов (подобные тем, которые описаны в главе 8), если отсутствуют ответы?

К сожалению, общего решения этой проблемы не существует. Все зависит от темы опроса, отдельных заданных вопросов, а также от того, как и почему появились отсутствующие данные. В некоторых случаях даже небольшая их доля может означать, что имеющиеся данные не являются репрезентативными для всего населения. Опрос всего населения для выяснения отношения к операциям по смене пола, в котором какой-нибудь вопрос покажется трансгендерам настолько оскорбительным, что все они откажутся на него отвечать, в то время как другие группы ответят, может привести к искажению результатов, даже если у опроса будет высокий уровень отклика. В других случаях, напротив, даже большой процент отсутствующих записей может оказать лишь незначительное влияние на выводы. Фактически из нашего предыдущего обсуждения важности размера выборки и случайности отбора следует, что если те, кто не откликнулся, не объединены каким-то важным общим свойством, то высокий уровень отклика может вообще не иметь значения.

В любом случае, как показывают примеры, объем темных данных в форме отсутствия ответа все возрастает, и, хотя они не всегда оказывают негативное влияние на выводы, когда это все-таки происходит, такое влияние может быть очень серьезным. Если бы вы управляли страной или крупной корпорацией, хотели бы вы полагаться на пустые поля опросов?

Одно из замечательных свойств интернета заключается в том, что он дает возможность проводить недорогие опросы, способные охватывать широкую аудиторию и, следовательно, формировать выборки огромных размеров. Но есть и ограничения. В частности, вы не можете контролировать, кто именно отвечает на ваши вопросы. В основном респонденты сами решают, принять им участие в опросе или скрыться за пологом темных данных. Очевидно, что это может пагубно влиять на любой опрос, поскольку означает, что выводы будут напрямую зависеть от того, кто на него откликнется, а кто нет. (Вспомните гипотетический опрос из главы 1, в котором был единственный вопрос: «Отвечаете ли вы на журнальные опросы?») И основная неопределенность возникает в отношении того, кто в принципе видит вашу веб-страницу с анкетой.

В то же время люди зачастую имеют возможность пройти веб-опрос несколько раз. Или еще хуже: недавно я встретил человека, который сказал, что всякий раз, когда ему предлагают пройти опрос по мобильному телефону, он передает его для ответов своему пятилетнему сыну. К тому же фундаментальная проблема заключается в том, что не у всех есть доступ к интернету – сравните это с ролью телефонов на выборах Лэндон/Рузвельт. В отчете 2013 г. из Нидерландов, опубликованном в International Journal of Internet Science, сообщалось, что «пожилые люди, незападные иммигранты и домохозяйства, состоящие из одного человека, часто не имеют доступа к интернету» [26]. Впрочем, эта проблема, вероятно, будет решена с течением времени по мере развития технологий.

Почему же люди все меньше склонны отвечать на опросы? Туранжо и Пльюис изучили эту проблему и выяснили, что сами причины отсутствия отклика не сильно изменились с течением времени [27]. Прежде всего потенциальный респондент просто недостаточно заинтересован в участии, слишком занят или не хочет тратить на опрос много времени. Среди других причин можно выделить проблемы конфиденциальности, непонимание вопросов, а также негативные эмоциональные реакции – раздражение, «хлопанье дверью», недружелюбное или даже угрожающее поведение. Рискованное это дело, быть интервьюером! На основе исследования было высказано предположение, что люди просто пресыщены опросами – их слишком много, а бесконечными вопросами можно вывести из себя кого угодно. Ситуация усугубляется рекламными кампаниями, маскирующимися под опросы. Но главной причиной всего этого является самоотбор, когда респонденты сами решают, принимать им участие или нет.

Однако отсутствие отклика необязательно связано с респондентом. Бывает, что сам интервьюер не прикладывает достаточных усилий, чтобы выйти на связь с людьми. Действительно, для нечестных интервьюеров есть даже отдельный тип темных данных (DD-тип 14: фальшивые и синтетические данные). Именно такой случай показывает известная карикатура, где вместо того, чтобы задавать вопросы людям, переписчик сидит на бордюре и вписывает цифры «от фонаря» [28]. Однако, если вы переписчик, имейте в виду, что сложные статистические методы могут обнаружить этот обман, как и другие виды мошенничества с данными. Стоит также упомянуть языковые барьеры и простую потерю данных, которые также могут привести к отсутствию значений.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация