
Онлайн книга «Искусство статистики. Как находить ответы в данных»
матрица ошибок: таблица, где собраны верные и неверные классификации, произведенные каким-либо алгоритмом; машинное обучение: процедуры извлечения алгоритмов (например, для классификации, прогнозирования или кластеризации) из сложных данных; медиана (выборки): значение, которое окажется посередине, если упорядочить числа в выборке. Более строго: упорядочив числа в выборке, обозначим наименьшее число x(1), второе по величине x(2) и так далее (получившийся набор x(1),x(2),…,x(n) называют вариационным рядом). Если n – нечетное число, то медиана – число, находящееся точно посередине вариационного ряда, то есть число
метаанализ: формальный статистический метод объединения результатов нескольких исследований; метод наименьших квадратов: предположим, что у нас есть n пар чисел (x1,y1),(x2,y2),
![]() где
коэффициент наклона
отсекаемый отрезок
i-й остаток – разность между i-м наблюдением и его предсказанным значением
скорректированное значение i-го наблюдения – это сумма остатка и отсекаемого отрезка, то есть
остаточная сумма квадратов – это сумма квадратов всех остатков, то есть
коэффициент наклона b1 и коэффициент корреляция Пирсона r связаны формулой b1 = rsy / sx. Поэтому в случае, когда стандартные отклонения для x и y одинаковы, коэффициент угла наклона в точности равен коэффициенту корреляции; множественная линейная регрессия: предположим, что для каждого отклика yi есть набор из p предикторных переменных (xi1,xi2,…,xip). Тогда множественная линейная регрессия по методу наименьших квадратов определяется уравнением ![]() где коэффициенты b0,b1,…,bp выбираются так, чтобы минимизировать сумму остатков
многоуровневая регрессия и постстратификация (MRP): современный способ создания выборки, при котором из многих областей берутся достаточно небольшие количества респондентов с похожими характеристиками. Затем строится регрессионная модель для откликов в соответствии с демографическими факторами, что допускает дополнительный разброс между областями. Знание демографии для всех областей позволяет делать прогнозы на местном и национальном уровне с соответствующей неопределенностью; |