Книга Искусство статистики. Как находить ответы в данных, страница 70. Автор книги Дэвид Шпигельхалтер

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Искусство статистики. Как находить ответы в данных»

Cтраница 70

Статистическое сообщество долгое время было втянуто в злобные споры об основах предмета, но сейчас объявлено перемирие и нормой стал более универсальный подход, когда методы выбираются в соответствии с практическими потребностями, а не идеологическими сертификатами, выданными школами Фишера, Неймана – Пирсона или Байеса. Это выглядит разумным и прагматичным компромиссом в дискуссии, которая нестатистикам может показаться довольной запутанной. Я думаю, что разумные статистики в целом придут к сходным заключениям, несмотря на расхождения в отношении фундаментальных основ. Проблемы, возникающие в статистике, обычно появляются не из-за различной философии, лежащей в основе используемых методов. Чаще их причина – не лучший проект эксперимента, данные со смещением, неправильные предположения и – возможно, самое важное – отсутствие надлежащей научной практики. И в следующей главе мы рассмотрим эту темную сторону статистики [238].

Выводы

• Байесовские методы объединяют свидетельства, полученные из данных (выраженные в виде правдоподобия), с первоначальными представлениями (априорным распределением) и выдают апостериорное вероятностное распределение для неизвестной величины.

• Теорема Байеса для двух конкурирующих гипотез может быть сформулирована так: апостериорные шансы = априорные шансы × отношение правдоподобия.

• Отношение правдоподобия выражает относительную поддержку обеих гипотез, которую дает какой-либо факт-свидетельство, и иногда используется в качестве характеристики при результатах судебной экспертизы в уголовных разбирательствах.

• Когда априорное распределение появляется из какого-нибудь физического процесса создания выборки, байесовские методы не вызывают споров. Однако в целом необходима определенная степень суждения.

• Иерархические модели позволяют проводить несколько небольших анализов по отдельным группам, где, как предполагается, параметры будут общими.

• Коэффициенты Байеса эквивалентны отношениям правдоподобия для научных гипотез и представляют собой спорную замену проверки значимости нулевой гипотезы.

• У теории статистических выводов долгая история споров, но вопросы качества данных и научной надежности гораздо важнее.

Глава 12. Когда дела идут не так

Существует ли экстрасенсорное восприятие (ЭСВ)?

В 2011 году выдающийся американский социальный психолог Дэрил Бем опубликовал в известном психологическом журнале важную статью, описывающую следующий эксперимент. Перед экраном компьютера с двумя шторками усадили сто человек, которые выбирали, какая из них – левая или правая – скрывает какое-то изображение. Затем шторки «открывались», чтобы проверить правильность выбора, и все повторялось для серии из 36 изображений. Подвох был в том, что участники не знали главного: положение картинки определялось наугад после того, как испытуемый делал выбор, поэтому любое превышение числа правильных выборов над тем, что можно было бы ожидать при выборе наугад, приписывалось умению предвидеть, где появится картинка.

Бем сообщал, что вместо ожидаемой доли успехов 50 % (при нулевой гипотезе об отсутствии предвидения) участники правильно выбирали в 53 % случаев, когда показывали эротическое изображение (P = 0,01). В статье описывались результаты еще восьми экспериментов по предвидению, проводившихся в течение 10 лет и включавших свыше 1000 участников. Автор наблюдал статистически значимые результаты в пользу предвидения в восьми из девяти исследований. Можно ли считать это убедительным доказательством существования экстрасенсорного восприятия?

Надеюсь, эта книга проиллюстрировала некоторые способы приложения статистики к решению реальных проблем, при этом практики пользуются этими методами умело и осторожно, помня об ограничениях и потенциальных ловушках. Однако реальный мир не всегда достоин восхищения. Пришло время посмотреть, что происходит, когда наука и искусство статистики не столь хороши. А затем я расскажу, как была воспринята и оценена статья Бема.

Существует причина, почему сегодня так много внимания уделяется ненадлежащей статистической практике: то, в чем ее обвиняют, известно как кризис воспроизводимости в науке.

Кризис воспроизводимости

В главе 10 мы упоминали о сделанном в 2005 году печально известном заявлении Джона Иоаннидиса, что большинство опубликованных результатов исследований ложны. С тех пор многие ученые утверждают, что в опубликованной научной литературе наблюдается фундаментальная нехватка достоверности. Ученые не могут воспроизвести эксперименты, выполненные их коллегами, а это наводит на мысль, что оригинальные исследования не так надежны, как считалось ранее. Несмотря на то что изначально эти обвинения сосредоточились на медицине и биологии, впоследствии они распространились на психологию и другие социальные науки, хотя фактическая процентная доля преувеличенных или ложных утверждений оспаривается.

Исходное заявление Иоаннидиса основывалось на теоретической модели, но в качестве альтернативного подхода можно взять прошлые исследования и попробовать повторить их, то есть провести аналогичные эксперименты и посмотреть, дадут ли они сходные результаты. Был инициирован запуск крупного совместного проекта «Воспроизводимость» [239], в рамках которого проверялись результаты 100 психологических исследований, но с большим размером выборок, чтобы точно обнаружить эффект, если он существует. Хотя в 97 из 100 исходных исследований сообщалось о статистически значимых результатах, в повторных экспериментах они подтвердились только в 36 % случаев [240].

К сожалению, это почти везде преподносилось как то, что оставшиеся 64 % «значимых» исследований оказались ложными заявлениями. Однако здесь мы попадаем в ловушку строгого разделения исследований на значимые и незначимые. Выдающийся американский статистик и блогер Эндрю Гельман заявлял, что «различие между значимым и незначимым само по себе не может считаться статистически значимым» [241]. Фактически только у 23 % исходных и повторных исследований результаты значимо отличались друг от друга, и это, возможно, более удачная оценка для доли оригинальных экспериментов с преувеличенными или ложными заявлениями.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация