Книга Искусство статистики. Как находить ответы в данных, страница 71. Автор книги Дэвид Шпигельхалтер

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Искусство статистики. Как находить ответы в данных»

Cтраница 71

Вместо того чтобы определять «открытие» в терминах значимости или незначимости, лучше сосредоточиться на размерах оцениваемых эффектов. Проект «Воспроизводимость» установил, что эффект в повторных экспериментах в среднем имел ту же направленность, что и в исходных, но был примерно вдвое меньше по величине. Это указывает на важное смещение в научной литературе: исследование, обнаружившее нечто «большое», скорее приведет к серьезной публикации. По аналогии с регрессией к среднему это можно назвать «регрессией к нулю»: первоначальные преувеличенные оценки эффекта позднее уменьшаются в сторону нулевой гипотезы.

Кризис воспроизводимости – сложная проблема, которая коренится в чрезмерном давлении на исследователей: им нужно делать «открытия» и публиковаться в престижных научных журналах, а это зависит от получения статистически значимых результатов. Нельзя винить ни одно учреждение и ни одну профессию. При обсуждении проверки гипотез мы уже показали, что даже при идеальной статистической практике редкость истинных и существенных эффектов означает, что среди результатов, объявленных «значимыми», немалую долю неизбежно будут составлять ложноположительные (см. рис. 10.5). Впрочем, как мы видим, статистическая практика далека от совершенства.

На каждом этапе цикла PPDAC работа может быть сделана плохо.

Прежде всего мы можем взяться за проблему, которую просто нельзя решить с помощью имеющейся информации. Например, при попытке выяснить, почему уровень подростковой беременности в Соединенном Королевстве за последнее десятилетие так резко упал, никакие наблюдаемые данные не дадут объяснения [242].

Далее могут возникнуть неувязки и с планированием.


• Использование удобной и недорогой, но не репрезентативной выборки (например, при телефонных опросах перед выборами).

• Наводящие вопросы при опросе или вводящие в заблуждение формулировки (например: «Как думаете, сколько вы можете сэкономить на покупках в интернете?»).

• Неспособность провести честное сравнение (скажем, оценивать эффект гомеопатии, наблюдая только принимающих ее добровольцев).

• Разработка исследования, которое слишком мало и обладает низкой мощностью, а значит, вы обнаружите меньше истинных альтернативных гипотез.

• Неспособность собрать данные о потенциальных возмущающих факторах, отсутствие слепых рандомизированных испытаний и так далее.


Как выразился Рональд Фишер, «чтобы проконсультироваться со статистиком после окончания эксперимента, часто достаточно попросить его провести посмертное вскрытие. Возможно, он скажет, от чего умер эксперимент» [243], [244].

Типичные проблемы на этапе сбора данных – чрезмерное количество тех, кто отказался отвечать на вопросы, выбывание участников из исследования, набор испытуемых медленнее ожидаемого, обеспечение эффективного кодирования данных. Все эти проблемы надо предусмотреть и устранить в режиме тестирования.

Простейший досадный промах на этапе анализа – обычная ошибка. Многие из нас ошибались при кодировании или создании электронных таблиц, но, вероятно, не с такими последствиями, как в следующих примерах:


• Выдающиеся экономисты Кармен Рейнхарт и Кеннет Рогофф в 2010 году опубликовали работу, которая сильно повлияла на меры жесткой экономии. Позже один аспирант обнаружил, что из основного анализа по недосмотру были исключены пять стран – из-за простой ошибки в электронной таблице [245], [246].

• Программист крупной инвестиционной компании AXA Rosenberg неправильно запрограммировал статистическую модель, из-за чего некоторые из вычисленных элементов рисков были уменьшены в десять тысяч раз, что привело к убыткам клиентов в 217 миллионов долларов. В 2011 году Комиссия по ценным бумагам и биржам США (SEC) оштрафовала AXA Rosenberg на эту сумму плюс дополнительные 25 миллионов долларов пени. Итоговый штраф компании за несообщение клиентам об ошибке в модели рисков составил 242 миллиона [247].


Расчеты могут быть верными с точки зрения математики, но при этом использовать некорректные статистические методы. Вот некоторые популярные примеры неправильных методов.


• Провести кластерное рандомизированное испытание, при котором для какого-либо конкретного вмешательства целые группы людей распределить случайным образом, а потом анализировать результаты так, как будто случайно распределялись отдельные люди.

• Измерить две группы на исходном уровне и после вмешательства, а потом заявить, что группы различны, если одна значимо отличается от исходного уровня, а изменения во второй незначимы. Правильная процедура в этом случае – провести статистическую проверку того, отличаются ли группы одна от другой (проверка взаимодействия).

• Истолковать «незначимость» как «отсутствие эффекта». Например, в исследовании связи между употреблением алкоголя и смертностью, упомянутом в главе 10, мужчины в возрасте 50–64 лет, употреблявшие 15–20 стандартных доз в неделю, продемонстрировали значительное уменьшение риска смертности, в то время как снижение для мужчин, пьющих чуть меньше или чуть больше, незначимо отличалось от нуля. В работе это было заявлено как важное отличие, но доверительные интервалы показали, что разница между этими группами несущественна. Еще раз заметим: разница между значимым и незначимым не обязательно значима.


Что касается этапа заключений, то здесь, пожалуй, самая вопиющая практика – проведение множества статистических проверок с последующим обнародованием только наиболее значимых результатов, которые выдаются за типичные. Мы видели, как сильно это повышает шансы найти значимость – вплоть до «оживления» мертвой рыбы. Это все равно что смотреть по телевизору только забитые командой голы и в упор не видеть тех, которые она пропускает: при такой избирательной отчетности невозможно получить истинное представление о матче.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация