процентиль (выборки): если взять упорядоченный набор данных (вариационный ряд), то, например, 70-й процентиль – это такая величина, что 70 % наблюдений будут меньше ее. В частности, медиана – это 50-й процентиль. При необходимости используется интерполяция;
процентиль (генеральной совокупности): например, 70-й процентиль – это такая величина, что с вероятностью 70 % ваше случайное наблюдение будет меньше ее;
Пуассона распределение: случайная величина X имеет пуассоновское распределение с параметром μ>0, если
Математическое ожидание E(X) = μ, дисперсия D(X) = μ;
размах (выборки): разность между максимальным и минимальным значением, то есть x(n) − x(1);
размер критерия: величина ошибки первого рода в каком-либо статистическом критерии, обычно обозначается α;
рандомизированное контролируемое исследование (РКИ): эксперимент, в котором люди или иные объекты случайным образом распределяются по различным вмешательствам, и такая случайность гарантирует, что группы будут сбалансированы в отношении известных и неизвестных факторов. Если в дальнейшем группы демонстрируют различные результаты, то либо вмешательство дало эффект, либо произошло какое-то удивительное событие, вероятность которого выражается через P-значение;
распределение выборки: закономерность в наборе числовых или категорийных наблюдений. Также именуется эмпирическим распределением, или распределением данных;
распределение генеральной совокупности (распределение популяции): когда она реально существует – закономерность, описывающая потенциальные наблюдения во всей популяции. Также так называется распределение порождающей случайной величины;
регрессия к среднему (регресс к среднему): когда в процессе естественных изменений наблюдается возврат от очень больших или малых наблюдений к более умеренным. Это происходит в силу того, что первоначальные экстремальные величины получались случайным образом, поэтому повторение в той же степени маловероятно;
регрессия Кокса: см. отношение рисков;
ретроспективное когортное исследование: исследование, в рамках которого набор испытуемых определяется в какой-то момент в прошлом, а их характеристики прослеживаются вплоть до сегодняшнего дня. Такое исследование не требует продолжительного периода наблюдения, но зависит от надлежащих объясняющих переменных, измеренных в прошлом;
сигнал и шум: идея, согласно которой наблюдаемые данные включают два компонента: детерминистский сигнал, который нас действительно интересует, и случайный шум, включающий остаточные ошибки. Задача статистики – правильно идентифицировать оба компонента и не принять шум за сигнал;
Симпсона парадокс: когда при учете возмущающего фактора видимое направление взаимосвязи становится обратным;
систематическая ошибка установки: происходит, когда вероятность включения в выборку человека или наблюдаемой характеристики зависит от какого-то фактора, например, когда в каком-нибудь рандомизированном испытании наблюдение за людьми в испытуемой группе оказывается более тщательным, чем наблюдение за контрольной группой;
скрытый фактор: в эпидемиологии – воздействие, которое не определялось, но может быть возмущающим фактором, ответственным за часть наблюдаемой связи. Например, когда в исследовании изучается связь рациона и заболевания, но не учитывается социально-экономическое положение;
слепой метод: чтобы избежать предвзятости в оценивании результатов, участвующие в клиническом исследовании не обладают всей информацией. При слепом методе пациенты не знают, какое лечение получают. При двойном слепом методе люди, наблюдающие за больными, тоже не знают, какое лечение те получают. При тройном слепом методе распределение по методам лечения не знают также и статистики, анализирующие данные;
случайная величина: переменная величина, принимающая различные значения с какими-то вероятностями. Случайные величины обычно обозначаются прописными буквами, например X, в то время как наблюдаемые значения обозначаются x;
случайный разброс: неизбежные различия, возникающие при измерениях и наблюдениях; некоторый из них могут объясняться известными факторами, а оставшиеся приписываются случайному шуму;
специфичность: доля «отрицательных» случаев, которые правильно определены при классификации или тестировании. Единица минус специфичность – это доля ложноположительных наблюдений (ошибка первого рода);
Спирмена ранговый коэффициент корреляции: ранг наблюдения – это его номер в вариационном ряду (упорядоченном наборе), причем равным величинам приписывается одинаковый средний ранг. Например, если у нас есть набор данных (3, 2, 1, 0, 1), то соответствующий набор рангов – (5, 4, 2,5, 1, 2,5). Ранговый коэффициент корреляции Спирмена – это просто коэффициент корреляции Пирсона, в котором наборы x и y заменены их соответствующими рангами;
среднее (выборки): 1) в широком смысле – общий термин для какой-то одной величины, характеризующей набор чисел, например среднее арифметическое, медиана или мода; 2) в узком смысле – то же, что среднее арифметическое (также говорят выборочное среднее). Предположим, что у нас есть выборка (набор чисел) x1,x2,…,xn. Тогда их выборочное среднее определяется формулой m = (x1 + x2 +…+ xn)/n, что можно записать в виде
. Например, если пять человек сообщили о количестве своих детей и получилась выборка 3, 2, 1, 0, 1, то среднее число детей равно (3 + 2 + 1 + 0)/5 = 7/5 = 1,4;
среднее (популяции): см. математическое ожидание;
среднеквадратичная ошибка: мера качества прогноза; если спрогнозированы значения t1, t2,…, tn, а сделаны наблюдения x1, x2,…, xn, то среднеквадратичная ошибка равна
;
среднеквадратичное (стандартное) отклонение: квадратный корень из дисперсии выборки или распределения. Для хорошо себя ведущих разумно симметричных распределений без длинных хвостов можно ожидать, что подавляющее большинство наблюдений будут лежать в пределах двух стандартных отклонений от выборочного среднего;