Авторы педантично сообщали, что их первичный анализ не показал значимого результата, и с сожалением отмечали, что «основным ограничением в испытании была наша неспособность предвидеть в своем статистическом проекте отдаленный эффект скрининга». Это не помешало некоторым СМИ интерпретировать незначимый результат как подтверждение нулевой гипотезы и сообщить, что скрининговые исследования вообще не работают. Заголовок в Independent, провозглашающий, что скрининг может спасти тысячи жизней, хотя и слишком смел, тем не менее лучше отражает результаты исследования.
Улучшение коммуникации
Выше мы говорили о некорректном освещении СМИ содержания научных статей, основанных на статистических данные. Мы не знаем простых способов повлиять на журналистскую деятельность и СМИ – особенно сейчас, в условиях жесткой конкуренции с интернет-публикациями и социальными сетями, а также сокращения доходов от рекламы. Однако то, что статистики участвуют в составлении рекомендаций для СМИ и обучающих программ для журналистов и сотрудников пресс-служб, вселяет надежду. Хорошая новость заключается в том, что журналистика данных процветает и сотрудничество с журналистами может обогатить тексты, основанные на данных, правильным и качественным контентом и визуализацией.
Однако преобразование сухих чисел в истории сопряжено с немалым риском. Традиционно хороший рассказ строится на эмоциях, увлекательном сюжете и эффектной развязке, а наука редко может все это предоставить, поэтому возникает соблазн все сильно упростить, а эффект преувеличить. Тексты должны опираться на факты, которые помогут автору разносторонне осветить поднятую проблему. В идеале в публикации может сообщаться, что какое-то лекарство или метод решения имеет как преимущества, так и побочные эффекты, которые люди могут оценивать по-разному и, соответственно, приходить к разным выводам. Журналисты, похоже, избегают подобных текстов, однако настоящий профессионал должен уметь делать такие истории захватывающими (например, включив мнения людей с разными взглядами). Так, Кристи Ашванден
[268], работающая на портале FiveThirtyEight, обсуждала статистические данные, полученные в ходе скрининговых исследований молочной железы, после чего решила отказаться от этой практики, в то время как ее подруга, располагая теми же фактами-свидетельствами, приняла противоположное решение
[269]. Это подтверждает, как важно иметь собственное мнение, но при этом с уважением относиться к статистическим данным.
Мы могли бы также детальнее исследовать вопрос о наиболее оптимальной передаче статистических данных. Например, как сообщать о неуверенности в отношении наблюдений и прогнозов, не ставя под угрозу надежность информации, авторитет статистики и доверие к ней, и как адаптировать наши методы к аудитории с различными взглядами и знаниями. Это важные, требующие углубленного изучения вопросы. Кроме того, удручающий уровень статистических дискуссий во время британской кампании по Брекзиту говорит о необходимости исследовать новые способы передачи информации о том, как политические решения могут влиять на общество.
Помощь в обнаружении плохой практики
Разные люди и группы играют определенную роль в обнаружении плохой статистической практики: это рецензенты готовящихся к публикации статей; те, кто проводит систематические обзоры опубликованных доказательств; журналисты; организации, занимающиеся проверкой фактов (фактчекингом), и отдельные члены общества.
Ури Симонсон особенно настаивал на том, чтобы рецензенты строже проверяли соответствие работ требованиям журнала, побуждая авторов предоставлять убедительные доказательства надежности результатов их исследований, а в случае сомнений могли настаивать на повторении опыта и расчетов. Но при этом он предлагал рецензентам терпимее относиться к несовершенству результатов, что способствовало бы составлению правдивых отчетов
[270].
Однако как человек, который ссылался на сотни научных работ, хочу сказать, что определить наличие проблемы не всегда просто. Четкие требования, безусловно, полезны, но авторы всегда могут их проигнорировать, чтобы статья выглядела убедительнее. Должен признаться, что у меня развилось особое чутье на выявление неправдивых данных и недомолвок – например, если было выполнено большое число сравнений, а сообщено только об «интересных».
Мое чутье моментально реагирует, когда результат кажется уж больно хорошим, чтобы быть правдой, скажем, когда маленькая выборка дает слишком большой эффект. Классический пример – широко известное исследование 2007 года, утверждающее, что у привлекательных людей чаще рождаются дочери. В опросе американских подростков по пятибалльной шкале оценивалась их физическая привлекательность, а через пятнадцать лет у тех, кто в подростковом возрасте был оценен как «очень привлекательный», только 44 % первенцев были мальчиками, хотя стандартная величина для всех людей – 52 % (как показал еще Арбетнот, в среднем рождается чуть больше мальчиков, чем девочек). Этот результат статистически значим, но, как указал Эндрю Гельман, эффект слишком большой, чтобы быть правдоподобным, и наблюдается только в «самой привлекательной» группе. Информация, приведенная в статье, не позволяет понять, насколько маловероятно описываемое наблюдение, – здесь требуются специальные знания
[271].
Систематическая ошибка публикации
При проведении систематических обзоров, чтобы свести воедино всю имеющуюся информацию и представить текущее понимание явления, ученые просматривают огромное количество статей. Однако это занятие оказывается абсолютно бесполезным, если опирается на разбор работ, искажающих факты. Например, из-за того, что отрицательные результаты даже не пытаются публиковать и потому, что значимые результаты, полученные с применением сомнительных исследовательских практик, печатаются в избытке.
Для выявления такой систематической ошибки были разработаны специальные статистические методы. Предположим, у нас есть ряд исследований для проверки одной и той же нулевой гипотезы, скажем, что некоторое вмешательство неэффективно. Вне зависимости от реально проведенных экспериментов, если вмешательство действительно неэффективно, то можно доказать, что P-значение для проверки нулевой гипотезы имеет равномерное распределение от 0 до 1, а потому P-значения из множества исследований, проверявших гипотезу, должны распределяться равномерно. Тогда, если эффект действительно существует, P-значения должны смещаться в сторону малых значений.