Искусство статистики. Как находить ответы в данных – страница 83 | Дэвид Шпигельхалтер

Онлайн книга «Искусство статистики. Как находить ответы в данных»

📃 Cтраница 83

матрица ошибок: таблица, где собраны верные и неверные классификации, произведенные каким-либо алгоритмом;

машинное обучение: процедуры извлечения алгоритмов (например, для классификации, прогнозирования или кластеризации) из сложных данных;

медиана (выборки): значение, которое окажется посередине, если упорядочить числа в выборке. Более строго: упорядочив числа в выборке, обозначим наименьшее число x₍₁₎, второе по величине x₍₂₎ и так далее (получившийся набор x₍₁₎,x₍₂₎,…,x_(n) называют вариационным рядом). Если n – нечетное число, то медиана – число, находящееся точно посередине вариационного ряда, то есть число

Иллюстрация к книге — Искусство статистики. Как находить ответы в данных [i_095.jpg]

. Если же n – четное число, то медианой обычно считают полусумму двух средних чисел;

метаанализ: формальный статистический метод объединения результатов нескольких исследований;

метод наименьших квадратов: предположим, что у нас есть n пар чисел (x₁,y₁),(x₂,y₂),

Иллюстрация к книге — Искусство статистики. Как находить ответы в данных [i_096.jpg]

,s_x – выборочное среднее и среднеквадратичное отклонение для чисел x и

Иллюстрация к книге — Искусство статистики. Как находить ответы в данных [i_097.jpg]

s_y – выборочное среднее и среднеквадратичное отклонение для чисел y. Тогда прямая регрессии, вычисленная по методу наименьших квадратов, определяется уравнением

Иллюстрация к книге — Искусство статистики. Как находить ответы в данных [i_098.jpg]

где

Иллюстрация к книге — Искусство статистики. Как находить ответы в данных [i_099.jpg]

– прогнозируемое значение зависимой переменной для определенного значения независимой переменной x;

коэффициент наклона

Иллюстрация к книге — Искусство статистики. Как находить ответы в данных [i_100.jpg]

;

отсекаемый отрезок

Иллюстрация к книге — Искусство статистики. Как находить ответы в данных [i_101.jpg]

. Прямая по методу наименьших квадратов проходит через центр тяжести

Иллюстрация к книге — Искусство статистики. Как находить ответы в данных [i_102.jpg]

;

i-й остаток – разность между i-м наблюдением и его предсказанным значением

Иллюстрация к книге — Искусство статистики. Как находить ответы в данных [i_103.jpg]

;

скорректированное значение i-го наблюдения – это сумма остатка и отсекаемого отрезка, то есть

Иллюстрация к книге — Искусство статистики. Как находить ответы в данных [i_104.jpg]

. Это значение мы наблюдали бы в «среднем» случае, если бы имели

Иллюстрация к книге — Искусство статистики. Как находить ответы в данных [i_105.jpg]

а не x = x_i;

остаточная сумма квадратов – это сумма квадратов всех остатков, то есть

Иллюстрация к книге — Искусство статистики. Как находить ответы в данных [i_106.jpg]

. Прямая, построенная по методу наименьших квадратов, определяется как прямая, минимизирующая сумму квадратов разностей;

коэффициент наклона b₁ и коэффициент корреляция Пирсона r связаны формулой b₁ = rs_y / s_x. Поэтому в случае, когда стандартные отклонения для x и y одинаковы, коэффициент угла наклона в точности равен коэффициенту корреляции;

множественная линейная регрессия: предположим, что для каждого отклика y_i есть набор из p предикторных переменных (x_i1,x_i2,…,x_ip). Тогда множественная линейная регрессия по методу наименьших квадратов определяется уравнением

Иллюстрация к книге — Искусство статистики. Как находить ответы в данных [i_107.jpg]

где коэффициенты b₀,b₁,…,b_p выбираются так, чтобы минимизировать сумму остатков

. Отсекаемый отрезок b₀ – это просто среднее

, а формулы остальных коэффициентов сложны, но легко вычисляются. Обратите внимание, что

является спрогнозированным значением наблюдения y, если предикторные переменные были средними

Иллюстрация к книге — Искусство статистики. Как находить ответы в данных [i_108.jpg]

, и, как в случае линейной регрессии, скорректированные определяются суммой остатка и отсекаемого отрезка, или

;

многоуровневая регрессия и постстратификация (MRP): современный способ создания выборки, при котором из многих областей берутся достаточно небольшие количества респондентов с похожими характеристиками. Затем строится регрессионная модель для откликов в соответствии с демографическими факторами, что допускает дополнительный разброс между областями. Знание демографии для всех областей позволяет делать прогнозы на местном и национальном уровне с соответствующей неопределенностью;

Книга Искусство статистики. Как находить ответы в данных, страница 83 – Дэвид Шпигельхалтер

Онлайн книга «Искусство статистики. Как находить ответы в данных»