Теперь перейдем к статистике. Очевидно, что, даже действуя совершенно наобум, я бы угадывал правильный ответ довольно часто. Но насколько часто? Если утверждение, будто я способен определять пол по почерку, необоснованно, то угадывал бы я не лучше, чем люди угадывают, какой стороной выпадет монета. Вопрос в том, достаточно ли сильно мой результат отличается от результата подбрасываний монеты, чтобы производить должное впечатление. Подступиться к ответу на этот вопрос можно следующим образом.
Подумайте обо всех возможных вариантах решения данной задачи по определению пола 20 человек, какие я только мог бы дать. Распределите эти варианты в порядке убывания производимого ими впечатления: от 20 правильных угадываний до полной бессистемности (20 неправильных ответов окажутся почти так же поразительны, как и 20 правильных, ибо будут свидетельствовать о том, что я умею различать мальчиков и девочек по почерку, но интерпретирую свои результаты с точностью до наоборот). Затем посмотрите, как я рассортировал образцы на самом деле, и подсчитайте долю всех тех возможных результатов, которые были бы не менее впечатляющими, чем мой. Обо всех без исключения возможных вариантах ответа рассуждать будем так. В первую очередь обратим внимание на то, что есть только один способ дать 100 % правильных ответов и один — 100 % неправильных, зато существует множество способов дать 50 % правильных ответов. Можно угадать с первым листком, ошибиться со вторым, ошибиться с третьим, угадать с четвертым… Способы дать 60 % верных ответов несколько менее многочисленны, для 70 % их еще меньше, и так далее. Количество способов сделать одну-единственную ошибку достаточно невелико для того, чтобы мы могли их перечислить. Всего было 20 рукописей. Ошибиться можно либо с первой, либо со второй, либо с третьей… и так далее вплоть до двадцатой. То есть существует ровно 20 способов совершить только одну ошибку. Перечислять все способы сделать две ошибки — дело более утомительное, но можно без особого труда подсчитать, что их 190. Несколько труднее будет вычислить количество способов ошибиться трижды, но ясно, что эта задача тоже выполнима. И так далее.
Допустим, что в нашем вымышленном опыте я сделал две ошибки. Нам хотелось бы узнать, насколько хорош мой результат на фоне всех возможных вариантов ответа. Для этого следует выяснить, как много существует способов показать результат, который был бы так же хорош или еще лучше. Есть 190 способов справиться с задачей так же хорошо, как я. Способов справиться лучше — 20 (с одной ошибкой) плюс 1 (без ошибок). Итак, общее число таких вариантов ответа, которые были бы не хуже моего, равняется 211. Результаты, превосходящие тот, что получился у меня в реальности, должны быть непременно включены в наши расчеты, потому что они по праву принадлежат сосопосо, равно как и 190 вариантов, равноценных моему.
Мы должны противопоставить число 211 общему количеству способов, какими можно было бы распределить эти 20 рукописей по стопкам, просто бросая монетку. Вычислить это количество несложно. Первый образец почерка мог принадлежать либо мальчику, либо девочке — то есть возможностей для выбора тут две. Второй образец тоже мог быть написан как мальчиком, так и девочкой. Следовательно, на каждую из двух возможностей выбора для первого листа бумаги приходятся две возможности для второго. То есть общее чис ло вариантов решения для первых двух образцов составляет 2 × 2, или 4. Для первых трех образцов число возможностей 2 × 2 × 2 = 8. А чтобы подсчитать количество возможных ответов для всех двадцати образцов почерка, надо перемножить двадцать двоек. Иначе говоря, это будет два в двадцатой степени — число немаленькое: 1 048 576.
Итак, среди всех возможных способов разложить эти листки по стопкам доля тех вариантов, которые будут столь же хороши, сколь и мой, или еще лучше, составит 211/1 048 576, что приблизительно равняется 0,0002, или 0,02 %. Другими словами, если бы 10 000 человек сортировали образцы почерка исключительно при помощи подбрасываемой монетки, можно было бы ожидать, что только двое из них показали бы такие же хорошие результаты, как я. Это означает, что мой результат очень даже неплох и, если бы я действительно получил его, он стал бы серьезным аргументом в пользу того, что в почерке мальчиков и девочек имеются систематические различия. Позвольте еще раз напомнить, что этот пример был полностью гипотетическим. Насколько мне известно, никакой такой способностью определять пол по почерку я не обладаю. Должен также добавить, что, если бы даже обнаружилось надежное доказательство существования обусловленных полом различий в почерке, отсюда совершенно не было бы ясно, врожденные они или приобретенные. Эти доказательства — по крайней мере, если бы они были получены в ходе опыта, подобного только что описанному, — были бы совместимы и с той точкой зрения, что девочкам методично прививается иная манера письма, нежели мальчикам: скажем, более «женственная» и менее «уверенная».
Мы с вами только что проделали то, что специалисты называют проверкой статистической значимости. Рассуждали мы, исходя из базовых принципов, в силу чего наша аргументация получилась довольно нудной. В действительности же исследователи могут обращаться к готовым таблицам вероятностей и распределений. Таким образом, нам не нужно в буквальном смысле слова выписывать на бумагу все возможные варианты событий. Но теория, скрывающаяся за этими таблицами, — фундамент, на котором они построены, — опирается на ту же самую основополагающую методологию. Рассмотрите все те события, какие могли бы произойти, вплоть до откровенно случайных. Взгляните, какой оборот события приняли в реальности, и оцените, насколько вероятен (или невероятен) был такой исход, учитывая весь спектр возможных вариантов.
Обратите внимание, что тест на статистическую значимость ничего окончательно не доказывает. Он не сбрасывает со счетов такой возможный источник получившегося результата, как везение. Максимум, на что он способен, — это определить, какое именно количество удачи могло бы обеспечить наблюдаемый нами результат. В нашем конкретном гипотетическом примере это количество соответствовало двум везунчикам из десяти тысяч человек, взявшихся отгадывать наобум. Говоря, что результат статистически значим, мы всегда должны указывать так называемое p-значение. Этим термином обозначается вероятность, с которой результат, не менее поразительный, чем тот, что был получен в действительности, мог бы возникнуть в силу чистой случайности. 0,0002 (2 на 10 000) — это весьма впечатляющее p-значение, но все равно остается вероятность того, что никакой истинной закономерности мы не обнаружили. Красота должным образом проведенного статистического анализа заключается в том, что он позволяет точно узнать, насколько вероятно отсутствие подлинной закономерности в наших наблюдениях.
Бывает, что ученые позволяют себе доверять таким p-значениям, как 0,01 или даже 0,05, — намного менее впечатляющим, чем 0,0002. Какое p-значение вам подойдет, зависит от того, насколько важен полученный результат и какие решения будут на нем основываться. Если вы всего лишь раздумываете, стоит ли повторять опыт с более крупной выборкой, то p-значение, равное 0,05, вполне сгодится. Даже если и существует 1 шанс из 20, что ваши любопытные результаты получились просто в силу случайности, на карту поставлено не так уж много — ошибка не будет дорого вам стоить. Если же ваше решение — вопрос жизни и смерти, как это бывает в некоторых медицинских исследованиях, то требуются p-значения намного меньшие, чем 0,05. То же самое касается и экспериментов, цель которых — доказать нечто крайне спорное, например телепатию или «паранормальные» явления.