Так же, как телефонные опросы в 1930-е и 1940-е смещали выборку в сторону состоятельных людей, в этот раз выборка сместилась в сторону более пожилых респондентов. Опрос по телефону основан на том, что те, у кого есть телефоны, хорошо отображают мнение всего населения в целом. Однако это не обязательно: многие сотрудники Кремниевой долины используют для общения интернет-приложения, поэтому телефонная выборка может попросту не учитывать тех, кто пользуется высокими технологиями.
Если вы хотите схитрить с помощью статистики и замести следы, находите средний рост, опрашивая людей рядом с баскетбольным полем, узнавайте средний доход, проводя опросы возле центра занятости, оценивайте заболеваемость раком в стране, делая выборку рядом с плавильным заводом. Если вы сами не расскажете, как именно отбирали данные для анализа, никто и не узнает.
Смещение выборки из-за отказа участников
Те, кто хочет поучаствовать в исследовании, и те, кто не выражает особого желания, различаются по многим другим аспектам, например по политическим взглядам, характеру, достатку. Схожим образом те, кто откликается на объявление о наборе добровольцев для участия в эксперименте, могут иметь предвзятое мнение относительно того предмета, который вас интересует. Если вы стараетесь привлечь для исследования «среднего» человека, то можете сместить выборку, сообщив заранее тему опроса. Скажем, исследование сексуальной ориентации будет иметь смещение скорее в сторону тех, кто готов рассказать об этом открыто, нежели тех, кто скромен и придерживается пуританских взглядов. При изучении мнений, касающихся политики, выборка будет смещена в сторону респондентов, расположенных поговорить на эту тему. Поэтому многие опросники, анкеты и исследования никогда не объявляют заранее тему опроса либо просто камуфлируют истинную цель исследования несколькими незначительными вопросами, в ответе на которые исследователь совсем не заинтересован.
Те, кто отвечают на все вопросы до конца, сильно отличаются от тех, кто останавливается раньше времени. Некоторые респонденты попросту не хотят ничего отвечать. Это может создать необъективную картину, когда типы тех людей, которые отвечают, и тех, кто не желает, отличаются. В результате возникает особый тип смещения выборки, который называется ошибкой пропущенных данных.
Допустим, вы работаете в Гарвардском университете и хотите показать, что выпускники вашего учебного заведения, как правило, получают большие зарплаты уже через два года после окончания вуза. Вы рассылаете анкету выпускникам. И уже на этой стадии возникают сложности: те, кто переехал куда-то, не известив об этом университет, те, кто сейчас в тюрьме, или те, кто стал бездомным, попросту не получат ваши вопросы. А среди тех, кто на них ответит, большую часть, скорее всего, составят успешные люди, благодарные университету за то, что он для них сделал, а не те, кто в итоге потерял работу и теперь обижен на жизнь. Те, чьего мнения вы не учитываете, вносят свою лепту в ошибку пропущенных данных. Иногда данные при этом искажаются систематически.
Если ваша цель — показать, что образование, полученное в стенах Гарварда, напрямую обуславливает последующую высокую зарплату, то такое исследование поможет вам убедить большинство. Но критическое мышление, присущее отдельным людям, подскажет им, что тех, кто учится в Гарварде, ни в коем случае нельзя назвать средними представителями: это, как правило, выходцы из семей с высоким доходом, а данный показатель коррелирует с зарплатой выпускника. Студенты Гарварда отличаются предприимчивостью и энергией. Они могли бы заработать столько же и в том случае, если бы посещали колледж с репутацией похуже или вовсе бы не получили образования (Марк Цукерберг, Мэтт Деймон и Билл Гейтс — финансово успешные люди, которые когда-то вылетели из Гарварда).
Если вы просто не можете охватить какой-то сегмент совокупности, например военных, расквартированных за рубежом, бездомных или тех, кто находится в больнице или ином лечебном учреждении, смещение выборки будет называться ошибкой неполного охвата, потому что некоторые члены совокупности из которой вы намеревались сделать выборку, находятся вне зоны досягаемости, и поэтому их нельзя выбрать. Если вы пытаетесь подсчитать, сколько в банке мармеладных конфет красного, оранжевого или желтого цветов, то, возможно, не сумеете добраться до дна
[71]. Биопсия некоторых органов часто ограничена тем местом, где хирург может сделать забор материала, а оно, возможно, не репрезентативно относительно всей совокупности клеток. В психологических исследованиях подопытными часто становятся студенты последнего курса, хотя, строго говоря, они не могут быть репрезентативны относительно общей совокупности. В США наблюдается огромное разнообразие представителей разных систем ценностей, мнений и политических взглядов, люди различаются жизненным опытом и образом жизни. И хотя было бы ошибкой заявить, что все студенты одинаковы, такой же ошибкой было бы сказать, что они точно соответствуют остальной части совокупности.
Смещение выборки из-за ответов
Иногда во время опроса люди могут откровенно лгать. Выпускница Гарварда может преувеличить сведения о своих доходах, просто чтобы выглядеть более успешной или сообщить о том, сколько она должна была заработать, если бы не обстоятельства. Точно так же она может и преуменьшить цифры, и тогда Ассоциация выпускников Гарварда не будет ждать от нее больших пожертвований. Подобные хитрости могут смещать выборку, а могут и никак на нее не влиять. Среднее арифметическое, которое мы получаем в итоге в нашем исследовании относительно зарплат выпускников Гарварда, — это всего лишь среднее значение, выведенное из тех сведений, которые они предоставили, а не из их реальной зарплаты. У богачей вообще может не быть четкого представления о своем ежегодном доходе, потому что он не ограничивается зарплатой — тут еще много других источников дохода, которые разнятся от года к году, например доход от вложений, дивиденды, бонусы, роялти и пр.
Представьте, что вы спрашиваете у своих респондентов, списывали ли они на экзамене или пытались ли когда-нибудь уйти от налогов. Они могут не поверить, что ваше исследование абсолютно конфиденциально, и не захотят говорить откровенно. (Подобная проблема существует в США и с иммигрантами: невозможно оценить, сколько из них нуждаются в медицинском обслуживании или стали жертвами преступлений. Многие из них боятся обращаться в больницу или в полицию, так как опасаются, что за ними придут иммиграционные службы.)
Вот еще пример: вы хотите узнать, какого рода журналы читают люди
[72]. Можно просто спросить их об этом. Но ведь может быть и так, что они захотят произвести на вас хорошее впечатление. Или станут приписывать себе более тонкий вкус, которым в действительности не обладают. Вы можете обнаружить, что людей, заявляющих, будто они читают New Yorker или The Atlantic, намного больше, нежели вы предполагали исходя из продаж. А тех, кто читает Us Weekly и The National Enquirer, намного меньше. Респонденты не всегда честны во время опросов. И вы, выходит, изучаете не то, что люди читают, а их снобизм.