Нет ничего удивительного в том, что далеко не каждый из нас может позволить себе покупку Ferrari. Исследовательским эквивалентом этой машины является так называемый «поперечный срез», то есть совокупность данных, собранных в какой-то определенный момент времени. Если, например, эпидемиологи пытаются выявить причину какого-либо нового заболевания (или вспышки старого), они могут собрать данные обо всех, кто им страдает, в надежде получить картину, которая приведет к его источнику. Может быть, причина в том, что они едят? Или эти люди побывали в какой-то местности и заболели в результате этого? Что еще общего между людьми, страдающими этой болезнью? Кроме того, исследователи могут собрать данные о здоровых людях, чтобы выявить разницу между двумя группами.
На самом деле все эти оживленные дискуссии вокруг данных «поперечного среза» напоминают мне неделю перед моей свадьбой, когда я стал частью некой совокупности данных. В то время я работал в Катманду (столице Непала) и занемог желудком в результате малопонятной болезни под названием «сине-зеленые водоросли» (это заболевание было выявлено лишь в двух местах в мире). Ученым удалось выделить патоген, который был причиной болезни, но они все еще не были уверены, что собой представляет этот организм, поскольку на то время он еще не был известен науке. Когда я позвонил домой, чтобы рассказать невесте о моем диагнозе, я был вынужден признать, что это не самая приятная новость. Неизвестно, каким путем эта болезнь передается от человека к человеку и как ее лечить, к тому же она могла вызывать сильное утомление и прочие малоприятные побочные эффекты в период от нескольких дней до многих месяцев
[36]. Учитывая, что до свадьбы оставалась всего неделя, это могло оказаться серьезной проблемой. Следовало ли мне держать себя в руках, когда я бродил по супермаркету? Пожалуй, да.
Но затем я попытался сосредоточиться на позитивной информации. Во-первых, «сине-зеленые водоросли» не считались смертным приговором. И во-вторых, специалисты по тропическим болезням из Бангкока (далековато!) проявили особый интерес к моему случаю. Тебя не знобит? (К тому же мне приходилось постоянно возвращать дискуссию к вопросу, волновавшему меня в тот момент больше всего, – к планированию предстоящей свадьбы: «Хватит о моей неизлечимой болезни. Поговорим лучше о цветах».)
Свои последние часы в Катманду я провел, заполняя тридцатистраничную анкету, которая касалась буквально каждого аспекта моей жизни. Где я обедал и ужинал? Что именно я ел? Готовлю ли я дома, а если готовлю, то как? Приходилось ли мне плавать? Где и как часто? Все, у кого была обнаружена эта болезнь, заполняли точно такую же анкету. В конце концов патоген был выявлен: им оказались водные цианобактерии (Cyanobacteria). (Эти синие бактерии представляют собой единственный вид бактерий, получающих энергию из фотосинтеза; отсюда первоначальное описание заболевания как «сине-зеленые водоросли».) Оказалось, что эту болезнь можно лечить традиционными антибиотиками (но как ни странно, некоторые из новейших антибиотиков не действовали). Однако все эти открытия уже не могли мне помочь, потому что и без них я поправился достаточно быстро. Ко дню свадьбы моя пищеварительная система практически полностью восстановилась.
За каждым важным экспериментом кроются полезные данные, без которых он был бы невозможен. А за каждым неудачным… Одним словом, вам и так все понятно. Люди зачастую говорят о «лжи с помощью статистики». Я готов утверждать, что некоторые из самых вопиющих статистических ошибок обусловлены ложью с помощью данных; статистический анализ выполнен правильно, но данные, на основе которых он делался, неправильны или неуместны. Ниже приведено несколько типичных примеров из категории «мусор на входе – мусор на выходе».
Систематическая ошибка выбора. Говорят, что Паулина Кейл, кинокритик и давний сотрудник еженедельника The New Yorker, после того как Ричард Никсон стал президентом США, сказала: «Никсон не мог победить. Я не знаю ни одного человека, который бы за него проголосовал». Очень сомневаюсь, что Паулина Кейл могла такое сказать, но однако это весьма показательный пример того, как ничтожная выборка (группа либерально настроенных приятелей некоего человека) способна создать ложное представление о гораздо большем числе людей (всех американских избирателях). Отсюда вопрос, который всегда нас должен интересовать: как была сформирована выборка (или выборки) для оценивания? Если каждому члену генеральной совокупности не предоставлены равные шансы на включение в выборку, у нас наверняка возникнут проблемы с результатами, полученными на ее основе. Одним из ритуалов, связанных с проведением президентских выборов в Соединенных Штатах, является неофициальный, выборочный опрос общественного мнения (так называемый соломенный опрос) в штате Айова. За год до президентских выборов, в августе, кандидаты от Республиканской партии собираются в городке Эймис штата Айова, чтобы набрать участников опроса. Каждый из желающих в нем участвовать должен заплатить 30 долларов. «Соломенный опрос» в штате Айова ничего не скажет нам наверняка о политическом будущем кандидатов от Республиканской партии. (Этот опрос точно предсказал лишь трех из последних пяти республиканских «номинантов».) В чем тут причина? Дело в том, что жители штата Айова, заплатившие 30 долларов, отличаются от других сторонников Республиканской партии в этом штате, не говоря уже о том, что ее сторонники в штате Айова отличаются от сторонников Республиканской партии в целом по стране.
Систематическая ошибка выбора может возникнуть при различных обстоятельствах. Опрос потребителей в аэропорту искажается тем фактом, что любители летать самолетами, как правило, более состоятельные люди, чем население в целом; в случае проведения опроса на площадке для отдыха возле автомагистрали Interstate 90 может сложиться противоположная ситуация. На результаты обоих опросов наверняка повлияет и то, что люди, готовые в них участвовать, отличаются от людей, предпочитающих не отвлекаться на подобные вещи. Если вы попросите 100 человек в каком-либо общественном месте заполнить совсем небольшую анкету, то те 60, которые согласятся это сделать, наверняка будут существенно отличаться от остальных 40, которые вас проигнорируют.
Один из самых известных статистических просчетов – опрос, проведенный еженедельником Literary Digest в 1936 году, – был обусловлен неправильно сформированной выборкой. В том году губернатор штата Канзас республиканец Алф Лэндон сражался за президентский пост с действующим президентом США Франклином Рузвельтом (демократом). Еженедельник Literary Digest, в то время весьма влиятельное издание, провел по почте опрос среди своих подписчиков, а также среди владельцев автомобилей и домашних телефонов, адреса которых редакции Literary Digest удалось заполучить из открытых источников. Опрос Literary Digest охватил 10 миллионов потенциальных избирателей, что представляло собой выборку поистине астрономического масштаба. При увеличении размера правильно сформированной выборки точность опроса повышается, поскольку сужается допустимый предел погрешности. Когда же увеличивается размер неправильно сформированной выборки, высота мусорной кучи также увеличивается, а вонь от нее становится сильнее. Согласно прогнозу Literary Digest, победу на президентских выборах должен был одержать Алф Лэндон, получив 57 % голосов избирателей. На самом же деле выиграл Франклин Рузвельт, получив 60 % голосов избирателей, причем его победа была зафиксирована в сорока шести из сорока восьми штатов. Выборка, сформированная Literary Digest, оказалась пресловутым «мусором на входе»: подписчики еженедельника были более состоятельными людьми, чем средний американец, и, следовательно, были в большей степени склонны голосовать за республиканцев; то же самое можно сказать и о владельцах автомобилей и домашних телефонов (напомню, что выборы проводились в 1936 году)
{52}.