В статистике существует понятие, которое называется нулевая гипотеза. Это понятие отражает позицию по умолчанию, утверждающую, что между двумя явлениями нет никакой связи. Она говорит, что орел или решка на монете выпадают равновероятно и независимо от погоды. Что рак легких не связан с курением. Что цвет глаз человека не зависит от его пола. Что число пропавших в течение недели носков не зависит от того, наблюдалось ли на небе НЛО. Что токсичность картошки не зависит от того, генетически модифицирована она или нет, и так далее. В некоторых случаях нулевая гипотеза верна, в других — нет. До появления доказательств обратного нулевая гипотеза считается верной по умолчанию, поэтому научные эксперименты сводятся к тому, что нулевую гипотезу пытаются опровергнуть.
Статистические тесты позволяют оценить, насколько высока вероятность получить некий результат при условии, что нулевая гипотеза верна. Допустим, что мы провели эксперимент, в котором подкинули монетку десять раз и все десять раз выпала решка. В данном случае за нулевую гипотезу можно принять равную вероятность выпадения орла и решки. При таком допущении вероятность выкинуть решку десять раз из десяти равна У в десятой степени, то есть менее одной тысячной. Полученная вероятность называется P-значение, или просто P, и это вероятность получить такое же или более существенное отклонение результата эксперимента от ожидаемого. Полученное P сравнивается с пороговым значением, уровнем значимости, обозначаемым а (альфа). Общепринятыми значениями а являются либо 0,05, либо 0,01, либо 0,001. Отметим, что 0,05 — самый мягкий порог, который можно встретить в научной литературе, хотя это лишь некоторая условность.
Если полученное значение P меньше, чем пороговое значение, мы считаем, что нулевая гипотеза отвергнута и можно принять альтернативную гипотезу. В случае с монеткой получилось так, что P < 0,001, а значит, есть основания полагать, что решка выпадает чаще орла. Чем меньше порог а, тем меньше вероятность, что мы получим ложноположительный результат, найдем закономерность там, где ее нет. Чем больше порог а, тем меньше вероятность, что мы получим ложноотрицательный результат, то есть не найдем закономерности там, где она есть. Правильно подобранные пороги позволяют соблюсти баланс между этими двумя типами ошибок.
Статистику полезно знать еще и потому, что она помогает знакомиться с девушками (или молодыми людьми), и я сейчас продемонстрирую как. Загадайте число от 1 до 20. Сделайте это, прежде чем читать дальше. Помните, что если вы симпатичная девушка и я угадаю ваше число, то с вас билет в кино. Итак, перед вами умная книга, наподобие дневника Тома Редла из «Гарри Поттера», и она заранее знает, какое число вы загадаете. Обратитесь к калькулятору и поделите 23101096 на 1358888. Убедитесь, что я угадал правильно.
Секрет фокуса прост. Он работает только в одном случае из двадцати, и, скорее всего, я ваше число не угадал. Девятнадцать читателей из двадцати не будут впечатлены, но, возможно, именно с вами мне повезло, и вы на секунду удивились. Если повторять этот фокус много раз, каждый раз с новой девушкой (или читателем), с кем-нибудь он неизбежно сработает. Вероятность угадать в одном испытании равна 5%, но вероятность угадать хотя бы раз, имея двадцать попыток, уже превышает 64%. При ста испытаниях трюк удастся хотя бы раз с вероятностью 99,4%!
Проблема «множественных сравнений» (или множественных испытаний) возникает в статистике, когда мы проверяем не одну гипотезу, а множество похожих. Для ее иллюстрации используется простая формула Y = (1,00-0,95N)×100%, где N обозначает число сравнений, а Y — вероятность того, что по случайным причинам хотя бы в одном из них будет обнаружено статистически достоверное отличие при пороге значимости 0,05.
В 2012 году доктор Крейг Беннет получил Шнобелевскую премию за удивительную статью. Он искал у лосося участок мозга, отвечающий за распознавание человеческих эмоций. Для этого он показывал рыбе серию фотографий, на которых были изображены люди в разных социальных ситуациях, с разным эмоциональным оттенком, и анализировал активность мозга рыбы с помощью томографа. Оказалось, что мозг рыбы по-разному реагирует на разные фотографии людей! Этот результат особенно удивителен, если учесть, что лосось в исследовании был дохлым
[142].
На самом деле Беннет пытался привлечь внимание к важной проблеме. Стандартные приборы, измеряющие активность мозга, имеют погрешности в измерениях, шум. Если измерить активность мозга одновременно в огромном количестве независимых участков, в некоторых из них по случайным причинам может обнаружиться статистически достоверный сигнал, который можно ошибочно интерпретировать как признак мозговой активности (реакцию на изображения). Так Беннет продемонстрировал, что проблема множественных сравнений порой приводит к неожиданным биологическим результатам.
Самый простой способ учесть множественные сравнения — ввести поправку, названную в честь итальянского математика Карло Эмилио Бонферрони
[143]. Поправка гласит, что если экспериментатор проверяет не одну, а сразу n гипотез, ему следует проверять каждую гипотезу не против уровня значимости а, а против уровня значимости a/n.
Предположим, что пять девушек независимо загадали натуральное число от одного до сорока. И я, назвавшись экстрасенсом, угадал число одной из них. Можно ли отвергнуть нулевую гипотезу, что я не умею читать мысли, используя самый мягкий порог статистической значимости, а = 0,05? Без поправки Бонферрони мы получаем, что в случае с одной из девушек случилось событие, вероятность которого 1/40, — я угадал ее число. Эта вероятность меньше, чем а = 0,05, а значит, есть основания полагать, что я умею читать мысли. Но свои экстрасенсорные способности я опробовал на пяти девушках. Следовательно, мы имеем дело с пятью множественными сравнениями. Поэтому порог а = 0,05 мы делим на пять и получаем новый порог а = 0,01, что уже меньше, чем 1/40. Теперь мы приходим к выводу, что даже при самом мягком пороге статистической значимости нельзя исключить гипотезу, что мне просто повезло.
Поправка Бонферрони достаточно консервативна, то есть значительно снижает риск обнаружения ложноположительных результатов, но одновременно увеличивает количество ложноотрицательных. Мы рискуем пропустить какую-то важную закономерность, поэтому использовать ее нужно осторожно. Однако в примерах работ, которые я буду разбирать ниже, эта поправка оправдана по нескольким причинам
[144].