Книга Искусство статистики. Как находить ответы в данных, страница 84. Автор книги Дэвид Шпигельхалтер

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Искусство статистики. Как находить ответы в данных»

Cтраница 84

множественная проверка гипотез: выполнение сразу нескольких проверок, что увеличивает вероятность получения хотя бы одного ложноположительного результата (ошибка первого рода);

мода (вероятностного распределения): для дискретного распределения – самое вероятное значение, для непрерывного – точка максимума плотности;

мода (выборки): значение, которое встречается в выборке чаще всего;

мощность критерия: вероятность правильного отклонения нулевой гипотезы при условии справедливости альтернативной гипотезы. Равна 1 – β, где β – вероятность ошибки второго рода для статистического критерия;

мудрость толпы: идея, согласно которой характеристика, определяемая групповым мнением, ближе к истине, чем предположения большинства отдельных людей;

наука о данных: изучение и применение методов получения информации из данных, включая построение алгоритмов для прогнозов. Традиционная статистика – часть науки о данных, в которую также входят кодирование и управление данными;

независимая (предикторная) переменная: переменная, которая фиксируется посредством проекта или наблюдения, чья связь с зависимой переменной может представлять интерес;

независимые события: события A и B независимы, если наступление A не влияет на вероятность наступления B, то есть (B|A) = p(B), или, что эквивалентно, p(BA) = p(B)p(A) [280];

непрерывная случайная величина: случайная величина X, которая может (по крайней мере, в принципе) принимать любое значение в пределах определенного промежутка. Непрерывная величина имеет плотность вероятности [281] – такая функция ƒ, что Искусство статистики. Как находить ответы в данных , а ее математическое ожидание определяется формулой Искусство статистики. Как находить ответы в данных . Вероятность того, что X попадет в промежуток (A,B), равна Искусство статистики. Как находить ответы в данных ;

нормальное распределение: случайная величина имеет нормальное (гауссовское) распределение со средним μ и дисперсией σ2, если ее плотность имеет вид


Искусство статистики. Как находить ответы в данных

Математическое ожидание E(X) = μ, дисперсия D(X) = σ2, среднеквадратичное отклонение SD(X) = σ.

Стандартизованная случайная величина Искусство статистики. Как находить ответы в данных имеет среднее 0 и дисперсию 1, и тогда говорят, что у нее стандартное нормальное распределение. Функцию распределения для стандартной нормальной величины Z обозначают Φ. Например, Φ(–1) = 0,16 – это вероятность того, что стандартная гауссовская случайная величина не превосходит –1, или (что эквивалентно) вероятность того, что произвольная гауссовская случайная величина с параметрами μ и σ принимает значение, которое меньше μ−σ·100p%.% процентиль для стандартного нормального распределения – такое число zp, что P(Zzp) = p. Как значения функции Φ, так и величины zp можно найти в таблицах или в стандартных программах: например, 75-й процентиль для стандартного нормального распределения равен z0,75 = 0,67;

нулевая гипотеза: принимаемое по умолчанию теоретическое предположение, как правило, означающее отсутствие эффекта или результата, проверяемое с помощью P-значения. Обычно обозначается H0;

обратная причинная зависимость: когда связь между двумя переменными изначально кажется причинно-следственной, а на деле причинно-следственные отношения оказываются обратными. Например, у людей, которые не употребляют алкоголь, показатели здоровья хуже, чем у умеренно пьющих, однако как минимум частично это объясняется тем, что некоторые ныне непьющие бросили пить из-за ухудшения здоровья;

обучение без учителя: определение классов на основании случаев без подтвержденного состава с использованием какой-либо формы процедуры кластеризации;

обучение с учителем: построение алгоритма классификации на основании случаев с подтвержденным составом классов;

объективное априорное распределение: попытка устранить субъективный компонент в байесовском анализе, заранее определив априорные распределения, которые должны отражать наше незнание параметров, а данные должны говорить за себя. Нет никакой общей процедуры для определения таких априорных распределений;

односторонние и двусторонние P-значения: значения, соответствующие односторонним и двусторонним критериям;

односторонние и двусторонние критерии: односторонний критерий для проверки гипотезы используется тогда, когда нулевая гипотеза, например, указывает, что эффект медицинского вмешательства отрицателен. Эта гипотеза отвергается только в случае, если наблюдаются большие положительные значения тестовой статистики, выражающие оценку эффекта вмешательства. Двусторонний критерий уместен, когда нулевая гипотеза говорит, что эффект медицинского вмешательства равен в точности нулю. Тогда к отказу от такой гипотезы ведут и большие положительные, и большие отрицательные значения тестовой статистики;

ожидаемые частоты: количество событий, которые должны произойти в будущем в соответствии с принятой вероятностной моделью;

остаток: разность между наблюдаемым значением и значением, предсказываемым статистической моделью;

относительный риск: если в группе людей, подвергавшихся какому-то воздействию, абсолютный риск равен p, а в группе людей, не подвергавшихся этому воздействию, абсолютный риск равен q, то относительный риск определяется как p / q;

Вход
Поиск по сайту
Ищем:
Календарь
Навигация