Книга Искусство статистики. Как находить ответы в данных, страница 85. Автор книги Дэвид Шпигельхалтер

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Искусство статистики. Как находить ответы в данных»

Cтраница 85

отношение показателей: относительное увеличение ожидаемого числа событий за определенный период времени, связанное с каким-либо воздействием. Пуассоновская регрессия – это форма множественной регрессии, когда переменная отклика представляет собой наблюдаемый показатель, а коэффициенты соответствуют log(отношение показателей);

отношение правдоподобия: мера относительного подтверждения, которое дают данные для двух конкурирующих гипотез. Для гипотез H0 и H1 отношение правдоподобия при данных x определяется формулой p(x|H0) / p(x|H1);

отношение рисков: при анализе времени выживания – связанный с воздействием относительный риск пережить какое-то событие за определенный промежуток времени. Регрессия Кокса – это форма множественной регрессии, когда переменная отклика – это время выживания, а коэффициенты соответствуют log(отношение рисков);

ошибка второго рода: происходит, когда альтернативная гипотеза верна, но после проверки нулевая гипотеза не отвергается, то есть делается ложноотрицательное утверждение;

ошибка первого рода: происходит, когда ошибочно отклоняется верная нулевая гипотеза в пользу альтернативы, то есть делается ложноположительное утверждение;

ошибка прокурора: когда малая вероятность факта при условии невиновности ошибочно истолковывается как вероятность невиновности при условии наличия данного факта;

параметры: неизвестные величины в статистической модели, обычно обозначаемые греческими буквами;

перекрестная проверка: способ оценивания качества алгоритма для прогноза или классификации путем нескольких выделений части случаев в качестве тестового набора;

переобучение (переподгонка): построение статистической модели, которая чрезмерно адаптирована к тренировочному набору данных, из-за чего ее прогнозные возможности начинают ухудшаться;

пиктографические диаграммы: графическое отображение величин с помощью небольших изображений, например изображений людей;

Пирсона коэффициент корреляции: если у нас есть n пар чисел (x1,y1),(x2,y2)…(xn,yn) и  Искусство статистики. Как находить ответы в данных ,sx – это выборочное среднее и среднеквадратичное отклонение для чисел x, а  Искусство статистики. Как находить ответы в данных ,sy – это выборочное среднее и среднеквадратичное отклонение для чисел y, то коэффициент корреляции Пирсона определяется формулой


Искусство статистики. Как находить ответы в данных

Предположим, что x и y стандартизованы до Z-оценок u и v соответственно, то есть Искусство статистики. Как находить ответы в данных , а  Искусство статистики. Как находить ответы в данных . Тогда коэффициент корреляции Пирсона можно выразить как Искусство статистики. Как находить ответы в данных , то есть прямого произведения Z-оценок;

плацебо: пустое вещество (например, таблетка с сахаром), которое дают контрольной группе в рандомизированном клиническом испытании под видом реального лечения;

погрешность: правдоподобный промежуток, в котором может лежать истинная характеристика популяции. Часто используются 95-процентные доверительные интервалы, которые примерно заключают промежуток ±2 стандартных ошибки, но иногда используются «усы» (планки погрешностей), отображающие ±1 стандартную ошибку;

подтверждающие исследования и анализы: строгие исследования, в идеале выполняющиеся с заранее утвержденным протоколом в целях подтверждения или опровержения гипотез, выдвинутых в ходе «поисковых» исследований или анализов;

поисковые исследования и анализы: первоначальные гибкие исследования, которые допускают адаптивные изменения в планах и анализе в целях поиска многообещающих результатов и предназначены для того, чтобы генерировать гипотезы, которые будут проверяться последующими подтверждающими исследованиями;

поперечное исследование: исследование, в котором анализ основан исключительно на текущем состоянии участников, без какого-либо последующего наблюдения в течение долгого времени;

поправка/стратификация: включение в регрессионную модель известных возмущающих факторов, которые не представляют прямого интереса, но позволяют провести более сбалансированное сравнение между группами; при этом можно надеяться, что оцененные эффекты, связанные с объясняющими переменными, должны быть ближе к причинной связи;

последовательное тестирование: когда какая-либо статистическая проверка повторно проводится на накапливающихся данных, что повышает вероятность появления в какой-то момент ошибки первого рода. Если процесс продолжается достаточно долго, гарантируется «значимый результат»;

правдоподобие: мера подтверждения, обеспечиваемая данными для конкретных значений параметра. Когда вероятностное распределение какой-либо случайно величины зависит от параметра, например θ, то после наблюдения данных x правдоподобие для θ пропорционально p(x|θ);

практическая значимость: когда какой-нибудь результат имеет реальную важность. Масштабные исследования могут давать результаты, которые статистически значимы, но не имеют практической значимости;

предсказательная аналитика: использование данных в целях создания алгоритмов для прогнозов;

проверка гипотезы: формальная процедура для оценки подтверждения гипотезы имеющимися данными. Обычно представляет собой сочетание классических фишеровских критериев для проверки нулевой гипотезы с помощью P-значения и конструкции Неймана – Пирсона, где фигурируют нулевая и альтернативная гипотезы и ошибки первого и второго рода;

проспективное когортное исследование: когда выбирается множество испытуемых, измеряются фоновые факторы, а затем за ними следят и наблюдают за соответствующими результатами. Такие исследования – продолжительные и дорогостоящие и могут не идентифицировать многие редкие события;

Вход
Поиск по сайту
Ищем:
Календарь
Навигация