•
Та же логика парадокса дней рождения свидетельствует, что к интерпретации ДНК-доказательств, которые так распространены во многих современных уголовных процессах (как было показано в предыдущей главе), следует относиться с изрядной осторожностью. В 2001 году во время поиска в базе данных ДНК штата Аризона, состоящей из 65 493 образцов, ученый обнаружил частичное совпадение между двумя несвязанными профилями. Девять из тринадцати локусов совпали между собой. Для того чтобы оценить масштаб случившегося, стоит учесть, что ожидаемая частота совпадений такого уровня для двух несвязанных лиц составляет примерно 1 на 31 миллион обследованных профилей. Этот громкий случай спровоцировал масштабный поиск других возможных совпадений. Обработав базу данных полностью, эксперты обнаружили 122 пары профилей, совпадающих по девяти и более локусам.
Результаты этого исследования
[111] заставили юристов усомниться в уникальности ДНК-идентификаторов; они потребовали провести аналогичные сравнения в других базах данных ДНК по всей территории США, в том числе в национальной базе профилей ДНК, содержащей 11 миллионов образцов. Если в базе данных Аризоны обнаружилось 122 совпадения профилей ДНК всего на 65 тысяч образцов, то можно ли полагаться на ДНК как уникальный идентификатор подозреваемых в стране с населением в 300 миллионов человек?
[112] Ведь если вероятностные заключения по результатам анализов ДНК были некорректными, это подрывало достоверность судебных решений, вынесенных на их основаниях по всей стране. Некоторые юристы были настолько в этом уверены, что начали ставить под сомнение достоверность ДНК-доказательств в ходе судебных процессов их подзащитных, основываясь на результатах аризонского исследования.
На деле же, используя формулу для треугольных чисел, мы можем подсчитать, что сравнение каждого из 65 493 образцов в базе данных Аризоны с каждым из них дает в общей сложности более двух миллиардов уникальных пар образцов. С вероятностью совпадения 1 на 31 миллион пар несвязанных профилей мы вполне можем ожидать 68 частичных (то есть при девяти локусах) совпадений. Разницу между ожидаемыми 68 совпадениями и 122, которые были найдены, легко объяснить тем, что в базе данных хранились профили близких родственников. Эти профили имеют значительно больше шансов на частичное совпадение, чем профили тех, кто не связан узами родства. Таким образом, аризонское исследование вовсе не ставит под сомнение достоверность доказательств, полученных на основе анализа ДНК, – напротив, в свете того, что нам открыли треугольные числа, результаты аризонского исследования хорошо согласуются с математикой.
Убедительные числа
В статье Daily Star, рассказавшей о совпадении дат убийства Ли Ригби и взрыва в «Манчестер Арене», вероятность, которую нужно было оценить, чтобы проверить обоснованность заявлений Горки, была скрытой. Большинство рекламодателей используют цифры ровно наоборот – если какие-то данные могут свидетельствовать в пользу их продукта, эти данные старательно выпячивают. Рекламодатели прекрасно знают, что люди, как правило, безоговорочно доверяют цифрам. Числовые данные в рекламе могут быть чрезвычайно убедительными, они придают вес аргументам промоутера. Очевидная непредвзятость статистики, кажется, говорит: «Не надо слепо доверять тому, что мы говорим, – доверьтесь этим объективным и неоспоримым доказательствам». Но эта объективность обманчива.
С 2009 по 2013 год компания L’Oreal рекламировала и продавала линейку «омолаживающих» продуктов Lancome Genifique. Наряду с обычной псевдонаучной чепухой («Молодость в ваших генах. Реактивируйте ее», «Повысьте активность генов и стимулируйте выработку протеинов молодости») рекламные материалы демонстрировали гистограмму, утверждавшую, что всего после семи дней использования этого средства кожа 85 % потребителей приобрела «идеальное сияние», у 82 % – стала «удивительно гладкой», у 91 % – «мягкой, как перышко», а 82 % отметили «общее улучшение вида кожи». Если не обращать внимание на безнадежно расплывчатые описания, то эти цифры звучат чрезвычайно впечатляюще, уверенно подтверждая качество продукта.
Но стоит повнимательнее присмотреться к цифрам, и мы увидим совершенно другую историю. Женщин, принявших участие в исследовании, просили применять Genifique дважды в день, а затем высказать свое отношение к утверждениям вроде: «кожа выглядит более сияющей», «цвет кожи выглядит более ровным» или «кожа по ощущениям стала более мягкой». Степень согласия с подобными утверждениями их просили оценить по девятибалльной шкале – от «полностью не согласна» (единица) до «полностью согласна» (девятка). Их не просили оценить степень сияния, мягкости или гладкости их кожи; они оценивали только степень своего согласия (или несогласия) с тем, что улучшение вообще есть. И уж, конечно, их не просили добавлять к оценкам эпитеты вроде «идеально» или «удивительно».
Результаты опроса показали, что, хотя 82 % женщин согласились (выставив оценку от шести до девяти баллов по девятибалльной шкале), что их кожа выглядит более гладко через семь дней, «полностью согласились» с этим менее 30 %. Точно так же 85 % в целом были согласны с тем, что их кожа выглядит более сияющей, но только 35,5 % согласились с этим полностью. L’Oreal подретушировала результаты собственного исследования, чтобы они выглядели более впечатляющими, чем на самом деле.
Размер фокус-группы – компания опросила всего 34 женщины – вызывал, пожалуй, еще бóльшие сомнения. При таком небольшом количестве участников в достоверности результатов опроса трудно быть уверенным из-за так называемого отклонения малой выборки. Малые размеры выборки, как правило, показывают более существенные отклонения от истинного среднего значения по популяции, чем большие выборки. Проиллюстрируем это мысленным экспериментом с «правильной монетой», на которой строго в половине случаев выпадает орел, в половине – решка. По какой-то причине я хочу убедить окружающих, что монета «предвзята» в пользу решки. Допустим, что для этого достаточно, чтобы монета выпадала решкой по крайней мере в 75 % случаев. Как будут меняться мои шансы убедить их по мере того, как увеличивается размер выборки – количество подбрасываний монеты?
Я могу попытаться обойтись всего одним броском. Если выпадет решка, я буду счастлив; одна решка в одном броске – это больше, чем пороговые 75 %. Такое возможно в половине случаев. Наилучший мой шанс убедить окружающих в своей правоте – сделать всего один бросок, но они могут справедливо возразить, что им требуется больше данных, чтобы быть уверенными, и попросят меня подбросить монету еще раз. При двух бросках мне нужно, чтобы решка выпала дважды – если решка и орел выпадут по разу, вероятность выпадения будет равна только 50 % и мои аргументы не пройдут. Как видно на рис. 17, две решки – это только один из четырех равновероятных результатов при двух бросках правильной монеты, так что я сумею убедить только четверть зрителей. Вероятность того, что монета выпадет решкой по крайней мере в 75 % бросков, быстро уменьшается по мере увеличения размера выборки, как показано на рис. 18. Когда размер выборки дойдет до ста бросков, мои шансы убедить кого-либо в том, что монета «предвзята», упадут до 0,00000009.