Книга Искусство статистики. Как находить ответы в данных, страница 82. Автор книги Дэвид Шпигельхалтер

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Искусство статистики. Как находить ответы в данных»

Cтраница 82

зависимые события: когда вероятность одного события зависит от наступления другого;

закон больших чисел: общее название нескольких теорем о сходимости средних для последовательности случайных величин к истинному математическому ожиданию. На практике это означает, что выборочное среднее близко к среднему значению всей генеральной совокупности;

иерархическое моделирование: в байесовском анализе – когда параметры, определяющие число элементов (например, районов или школ), сами считаются взятыми из общего априорного распределения. Это приводит к уменьшению оценок параметров для отдельных элементов в сторону общего среднего;

индуктивное поведение: сделанное в 1930-х годах предложение Ежи Неймана и Эгона Пирсона по проверке гипотез в терминах принятия решений. От него остались идеи размера и мощности критерия, а также ошибок первого и второго рода;

индукция (индуктивное умозаключение): построение обобщающего вывода на основании частных примеров;

интерквартильный размах: мера разброса выборки или распределения; конкретно – разность между третьим и первым квартилем, то есть между 75-м и 25-м процентилем;

искусственный интеллект (ИИ): компьютерные программы, предназначенные для выполнения задачи, обычно связываемой с человеческими способностями;

исследование «случай – контроль»: ретроспективное исследование, в котором люди с заболеванием или с интересующей нас характеристикой (случаи) сопоставляются с одним или несколькими людьми, не имеющими заболевания (контрольные экземпляры), и сравниваются истории этих групп – чтобы увидеть, дают ли воздействия систематическую разницу между группами. Такая схема может оценивать только относительные риски, связанные с воздействиями;

калибровка: требование, чтобы наблюдаемые частоты событий соответствовали вероятностным прогнозам. Например, если вероятность какого-нибудь события 0,7, то оно должно происходить примерно в 70 % случаев;

качественная (категорийная) переменная: переменная, принимающая два или несколько дискретных значений, которые могут или не могут быть упорядоченными;

квартиль (генеральной совокупности): 25-й, 50-й и 75-й процентили;

комбинированные признаки: когда несколько объясняющих переменных соединяются и производят эффект, отличный от ожидаемого при их отдельном воздействии;

конструирование признаков: в машинном обучении процесс уменьшения размерности входных переменных с созданием сводных характеристик, которые содержат информацию о данных в целом;

контрольная группа: множество людей, которые не подпадали под интересующее нас воздействие;

контрольные граничные значения: заранее определенные ограничения для случайной величины, используемые при контроле качества для отслеживания отклонений от предполагаемых стандартов; например, могут отображаться на воронкообразном графике;

контрфактуальный: относящийся к сценариям вида «что, если», где рассматривается альтернативная история событий;

коэффициент регрессии: оцениваемый параметр в статистической модели, который выражает степень взаимосвязи между объясняющей переменной и результатом во множественной регрессии. Этот коэффициент будет иметь различную интерпретацию в зависимости от того, является ли результирующая переменная непрерывной (множественная линейная регрессия), долей (логистическая регрессия), целым числом (пуассоновская регрессия) или временем выживания (регрессия Кокса);

кризис воспроизводимости: утверждение, что многие опубликованные научные выводы основаны на недостаточно качественных работах, поэтому такие результаты не могут воспроизвести другие исследователи;

критерий независимости хи-квадрат/критерий согласия хи-квадрат: статистический критерий, показывающий степень несовместимости данных с принятой статистической моделью, заключающей нулевую гипотезу (например, величины независимы или имеют определенное распределение). А именно: критерий сравнивает множества каких-то наблюдаемых величин x1,…,xm и ожидаемых при нулевой гипотезе величин y1,…,ym. Простейший вариант критерия –


Искусство статистики. Как находить ответы в данных

При нулевой гипотезе значение χ2 приближенно будет иметь известное χ2-распределение. Это позволяет вычислить соответствующее P-значение;

логарифмическая шкала: логарифм по основанию 10 для положительного числа x обозначается y = log10x, что эквивалентно x = 10y. В статистическом анализе log x обычно обозначает натуральный логарифм loge x, что эквивалентно x = ey, где e – основание натурального логарифма 2,71828…;

логистическая регрессия: форма множественной регрессии, когда переменная отклика – это доля, а коэффициенты соответствуют log(отношение шансов). Допустим, мы наблюдаем набор долей yi = ri/ni в предположении, что у нас биномиальные величины с вероятностями pi, а соответствующий набор предикторных переменных – Искусство статистики. Как находить ответы в данных . Предполагается, что логарифм шансов с оцениваемой вероятностью Искусство статистики. Как находить ответы в данных определяется линейной регрессией:


Искусство статистики. Как находить ответы в данных

Допустим, что одна из предикторных переменных, например x1, является двоичной, где x1 = 0 соответствует отсутствию воздействия потенциального риска, а x1 = 1 соответствует воздействию. Тогда коэффициент b1 – это log(отношение шансов);

ложноположительный: неверная классификация «отрицательного» случая как «положительного»;

математическое ожидание (среднее): среднее значение случайной величины (взвешенное по вероятностям или по плотности). Для дискретной случайной величины это ∑xp(x), а для непрерывной случайной величины это ∫xp(x)dx. Например, если случайная величина X – это число очков, выпавших на симметричной игральной кости, то есть P(X = x) = 1/6 для x = 1,2,3,4,5,6, то  Искусство статистики. Как находить ответы в данных ;

Вход
Поиск по сайту
Ищем:
Календарь
Навигация