Книга Искусство статистики. Как находить ответы в данных, страница 75. Автор книги Дэвид Шпигельхалтер

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Искусство статистики. Как находить ответы в данных»

Cтраница 75

основаны на P-значениях, которые являются утверждениями о том, как выглядели бы характеристики выборки, если бы данные были другими; однако Бем не предоставил никаких доказательств того, что его анализ был бы таким же, если бы данные были другими. В самом деле, девять исследований, описанных в его статье, основаны на разных методиках анализа данных [263].

Этот случай – классический пример использования исследователем чрезмерного количества степеней свободы. Тем не менее Бем оказал большую услугу психологии и науке в целом: его статья 2011 года стала катализатором для самоанализа в среде ученых в отношении возможных причин отсутствия достоверности в научной литературе. Даже высказывалось предположение, что весь этот процесс, как и другие исследования, описанные в главе, был намеренно спланирован Бемом, чтобы показать слабые стороны в психологических исследованиях.

Выводы

• Часть ответственности за кризис воспроизводимости в науке лежит на недобросовестных статистиках-практиках.

• Намеренная фабрикация данных – явление довольно редкое, в отличие от ошибок в статистических методах.

• Еще большую проблему представляют сомнительные исследовательские практики, которые, как правило, преувеличивают уровень статистической значимости.

• Вместо того чтобы представить статистические факты широкой публике, пресс-службы, журналисты и редакторы раздувают поток недостоверных сведений, неверно интерпретируя результаты и распространяя их.

Глава 13. Как можно улучшить статистику

В чем польза скрининговых исследований при раке яичников?

В 2015 году в Великобритании были опубликованы результаты масштабного скринингового исследования рака яичников. Оно стартовало еще в 2001 году, когда после тщательных расчетов необходимой мощности свыше 200 тысяч женщин случайным образом распределили на три группы – два вида скрининга и контрольная группа. Исследователи тщательно составили протокол, в котором в первичный анализ входило наблюдение за снижением смертности от рака яичников, оцениваемое с помощью статистического метода, предполагающего, что пропорциональное уменьшение риска будет одинаковым в течение всего периода наблюдения [264].

Когда после среднего 11-летнего периода наблюдения данные были проанализированы, установленный первичный анализ не показал статистически значимой пользы и авторы должным образом сообщили об этом незначимом результате в качестве своего основного вывода. Но тогда почему в газете Independent появился заголовок «Прорыв в определении рака яичников по анализу крови: колоссальный успех нового метода тестирования может привести к национальному скрининговому обследованию в Британии»? [265]

Мы еще вернемся к тому, правильно ли интерпретировались результаты этого масштабного и очень дорогостоящего исследования.


В предыдущей главе мы говорили о том, как плохая практика может проявиться на любом этапе создания статистических текстов. А значит, если мы хотим использовать статистику более эффективно, следует задействовать три группы людей.


1. Поставщики статистической информации: ученые, статистики, исследовательские компании, промышленность. Они могут лучше генерировать данные.

2. Коммуникаторы: научные журналы, благотворительные организации, работники пресс-служб, журналисты и редакторы. Они могут лучше подавать статистические данные.

3. Аудитория: общественность, лица, принимающие решения, и эксперты. Они могут лучше проверять статистические данные.


Давайте поочередно рассмотрим, что может делать каждая группа.

Улучшение качества данных

Как можно улучшить научный процесс? Широкое сотрудничество выдающихся исследователей привело к появлению «манифеста воспроизводимости», в котором говорится о совершенствовании методов исследования и обучения, содействии предварительной регистрации проектов и анализу исследований, улучшении качества отчетности о реально проделанной работе, стимулировании повторных экспериментов, развитии экспертных оценок и поощрении открытости и прозрачности [266]. Многие из этих идей отражены в Open Science Framework – программном проекте с открытым кодом, который, в частности, способствует обмену данными и предварительной регистрации исследований [267].

С учетом примеров из предыдущей главы неудивительно, что многие предложения из этого манифеста касаются статистической практики, в частности обращение к предварительно зарегистрированным исследованиям призвано оградить от поведения, описанного в предыдущей главе, когда проект, гипотезы и анализ подстраиваются под уже полученные данные. Однако можно утверждать, что полная предварительная определенность нереальна, она не дает исследователю проявить воображение, а также лишает гибкости в процессе адаптации к новым данным. Опять же ответ, похоже, заключается в строгом различии между поисковыми и подтверждающими исследованиями, при этом нужно четко сообщать ту последовательность выбора, к которой прибегли исследователи.

Предварительная определенность анализа не лишена недостатков, поскольку может ограничить исследователей каким-то одним видом анализа, который по мере поступления данных они могут счесть неподходящим. Например, группа, проводившая скрининговое исследование рака яичников, планировала включить в анализ всех рандомизированных пациентов, однако обнаружила, что если исключить из анализа «распространенные» случаи (когда рак яичников был выявлен до начала испытаний), что может показаться вполне разумным, то стратегия мультимодального скрининга продемонстрирует значимое 20-процентное снижение смертности от рака яичников (P = 0,02). Кроме того, даже если были включены все случаи безотносительно того, был или не был выявлен рак на момент начала испытания, значимое 23-процентное снижение смертности в мультимодальной группе проявилось также в период между 7 и 14 годами после рандомизации. Поэтому проблемы, которые нельзя предусмотреть (например, рандомизация людей, у которых уже есть рак, или скрининг, требующий для большей точности определенного времени), мешают тому, чтобы предварительно запланированный общий результат оказался значимым.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация