Книга Искусство статистики. Как находить ответы в данных, страница 58. Автор книги Дэвид Шпигельхалтер

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Искусство статистики. Как находить ответы в данных»

Cтраница 58

Таким образом, при одновременной проверке большого количества гипотез (например, в области исследований мозга или геномике) метод Бонферрони позволяет решать, значимы ли наиболее экстремальные результаты. Также разработаны несложные методы, слегка смягчающие критерий Бонферрони для второго по экстремальности результата, третьего и так далее. Так контролируется общая доля «открытий», которые оказываются ложными, – так называемый уровень ложноположительных результатов.

Еще один способ избежать ложноположительных результатов – потребовать воспроизведения первоначального исследования, с проведением повторного эксперимента в других условиях, но с тем же протоколом. Чтобы американское Управление по санитарному надзору за качеством пищевых продуктов и медикаментов одобрило новый препарат, необходимо провести два независимых клинических испытания, причем в каждом должна быть показана клиническая польза с уровнем значимости P < 0,05. Это означает, что вероятность одобрить неэффективный препарат составляет всего 0,05 × 0,05 = 0,0025, или 1 на 400.

5. Существует ли бозон Хиггса?

На протяжении XX века физики разрабатывали стандартную модель, предназначенную для объяснения сил, действующих на субатомном уровне. Но одна часть модели оставалась недоказанной теорией – «поле Хиггса», которое объясняет наличие масс у частиц-переносчиков слабого взаимодействия. Квантом такого поля должна была стать гипотетическая частица – так называемый бозон Хиггса. В 2012 году исследователи из ЦЕРН [199] заявили о его открытии, как о результате «пять сигма» [200]. Однако мало кто понимал, что это показывало уровень статистической значимости.

Когда ученые построили график появления определенных событий для различных уровней энергии, оказалось, что кривая имеет четко выраженный «горб» именно в том месте, где его и следовало ожидать, если бы бозон Хиггса существовал. Важно то, что критерий согласия хи-квадрат дает P-значение меньше 1 на 3,5 миллиона при нулевой гипотезе, что бозона Хиггса не существует и горб был просто результатом случайного отклонения. Но почему об открытии сообщалось как о «пяти сигма»?

В теоретической физике стандартом считается объявление об открытии в терминах «сигм», где результат «два сигма» означает наблюдение, которое на две стандартные ошибки отклонилось от нулевой гипотезы (вспомните, что мы использовали греческую букву сигма (σ) для обозначения среднеквадратичного отклонения в генеральной совокупности): «сигмы» в теоретической физике точно соответствуют t-значению в результатах работы компьютерной программы для множественной линейной регрессии, показанных в табл. 10.5. Наблюдение, которое в соответствии с критерием хи-квадрат давало двустороннее P-значение 1 на 3,5 миллиона, отличалось бы от нулевой гипотезы на пять стандартных ошибок. Поэтому об открытии бозона Хиггса объявили как о результате уровня пять сигма.

Команда из ЦЕРН не хотела объявлять о своем «открытии» до тех пор, пока P-значение не стало крайне малым. Во-первых, им нужно было учесть тот факт, что проверки значимости выполнялись для всех уровней энергии, а не только однократно в итоговой проверке по методу хи-квадрат – в физике такой эффект при многократном тестировании известен как Look-elsewhere effect [201]. Во-вторых, они хотели быть уверены, что любая попытка воспроизвести результат даст тот же вывод. Было бы слишком неловко делать ложные заявления о законах физики.

Что касается ответа на вопрос, поставленный в начале этого раздела, то сейчас разумнее предположить, что бозон Хиггса существует. Это утверждение становится новой нулевой гипотезой, пока, возможно, не появится более глубокая теория.


Теория Неймана – Пирсона

Почему для исследования по защите сердца понадобилось больше 20 тысяч участников?

Исследование по защите сердца было масштабным, но его размер не определялся произвольным образом. При планировании испытания исследователи должны были указать, сколько людей нужно включить в группу, употребляющую статины или плацебо, причем требовалось серьезное статистическое обоснование, чтобы оправдать стоимость такого эксперимента. План опирался на идеи, развитые Ежи Нейманом и Эгоном Пирсоном, которых мы уже упоминали как разработчиков понятия доверительных интервалов.

Идею P-значений и проверок значимости Рональд Фишер внедрил в 1920-х годах как способ проверки разумности какой-то конкретной гипотезы. Если наблюдается маленькое P-значение, то либо случилось нечто удивительное, либо нулевая гипотеза ложна: чем меньше P-значение, тем обоснованнее утверждение, что она неверна. Эта методика задумывалась как довольно неформальная процедура, но разработанная Нейманом и Пирсоном в 1930-х теория индуктивного поведения попыталась поставить ее на более строгий математический фундамент.

Конструкция ученых требовала указывать не только нулевую, но и альтернативную гипотезу, которая предоставляла более сложное объяснение данных. Затем они рассматривали возможные решения после проверки – либо отвергнуть нулевую гипотезу в пользу альтернативы, либо не отвергать [202]. Это приводило к вероятности появления двух видов ошибок – ошибки первого рода, возникающей, когда мы отклоняем истинную нулевую гипотезу, и ошибки второго рода – когда принимаем неверную нулевую гипотезу. Строгая юридическая аналогия проиллюстрирована в табл. 10.6: ошибка первого рода – это осудить невиновного человека, а ошибка второго рода – признать кого-то невиновным, тогда как на самом деле он совершил преступление.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация