Вес = −135 + 4,5 × Рост в дюймах
a = −135. Это не что иное, как отрезок, отсекаемый линией регрессии на оси Y; никакого специального объяснения у этой величины нет. (Если интерпретировать ее буквально, то получается, что человек с нулевым ростом весил бы –135 фунтов [отрицательная величина]; очевидно, что это нонсенс с любой точки зрения.) Эту величину также называют константой, поскольку она является отправной точкой для вычисления веса всех наблюдений в исследовании.
b = 4,5. Наша оценка для b (4,5) называется коэффициентом регрессии или, на статистическом жаргоне, «коэффициентом по росту», поскольку такой коэффициент служит наилучшей оценкой зависимости между ростом и весом участников исследования Americans’ Changing Lives. У коэффициента регрессии имеется удобная интерпретация: увеличение на одну единицу независимой переменной (рост) ассоциируется с увеличением на 4,5 единицы зависимой переменной (вес). Для нашей выборки данных это означает, что увеличение роста на один дюйм сопряжено с увеличением веса на 4,5 фунта. Таким образом, если бы мы не располагали никакой другой информацией, то нашим оптимальным предположением относительно веса участника исследования Americans’ Changing Lives, рост которого составляет 5 футов и 10 дюймов (то есть 70 дюймов), было бы –135 + 4,5 × 70 = 180 фунтов.
Это наша победа, поскольку нам удалось получить численное выражение наилучшего приближения линейной зависимости между ростом и весом участников исследования Americans’ Changing Lives. Те же самые базовые инструменты можно использовать для исследования более сложных зависимостей и получения ответов на более социально значимые вопросы. При любом коэффициенте регрессии вас, по сути, будут интересовать три вещи: знак, величина и значимость.
Знак. Знак (положительный или отрицательный) при коэффициенте для независимой переменной указывает направление его связи с зависимой переменной (исход, который мы пытаемся объяснить). В рассматриваемом нами случае коэффициент по росту является положительным. Более высокие люди, как правило, имеют больший вес. Некоторые зависимости действуют в противоположном направлении. Скажем, можно ожидать, что связь между занятиями спортом и весом будет отрицательной. Если бы в исследовании Americans’ Changing Lives фигурировали, например, данные о «количестве миль, пробегаемых участником за один месяц», то я бы нисколько не сомневался, что коэффициент по «количеству пробегаемых миль» будет отрицательным: чем большее количество миль вы ежемесячно пробегаете, тем меньше ваш вес.
Величина. Насколько велика наблюдаемая нами зависимость между независимой и зависимой переменными? Можно ли считать ее величину существенной для нас? В рассматриваемом нами случае увеличение роста человека на дюйм ассоциируется с прибавкой веса на 4,5 фунта; в процентном выражении это значительная доля массы тела типичного человека. В объяснении того, почему одни люди весят больше, чем другие, рост, несомненно, является важным фактором. В других исследованиях мы можем обнаружить объясняющую переменную, которая оказывает статистически значимое влияние на интересующий нас исход (это означает, что наблюдаемый эффект вряд ли объясняется чистой случайностью), но оно порой бывает настолько малым, что может считаться несущественным, или незначимым. Например, допустим, что мы исследуем определяющие факторы дохода. Объясняющими переменными здесь могут быть образование, стаж работы и т. п. При использовании достаточно крупного набора данных ученые также могут прийти к выводу, что люди с более белыми зубами зарабатывают на 86 долларов в год больше, чем остальные работники, ceteris paribus. (Ceteris paribus по-латыни означает «при прочих равных условиях».) Положительный и статистически значимый коэффициент по переменной «белые зубы» предполагает, что те, кого мы сравниваем, в остальном (по уровню образования, рабочему стажу и т. п.) не различаются между собой. (Ниже я объясню, каким образом мы можем выполнить это условие.) Наш статистический анализ продемонстрировал, что более белые зубы ассоциируются с 86-долларовой прибавкой к годовому доходу и что этот эффект вряд ли объясняется чистой случайностью. Это означает, что 1) мы с достаточно высокой степенью уверенности отвергли основную (нулевую) гипотезу, гласящую, что наличие у человека белых зубов никак не связано с уровнем его годового дохода; и 2) если мы проанализируем другие выборки данных, то наверняка обнаружим аналогичную связь между хорошо выглядящими зубами и повышенным уровнем дохода.
Что же из этого следует? Мы выявили статистически значимый результат, хотя для нас он практически бесполезен. Начнем с того, что прибавка в 86 долларов к годовому доходу вряд ли существенно изменит уровень жизни человека. С экономической точки зрения она вряд ли оправдывает регулярное выполнение процедур по отбеливанию зубов, поскольку такие процедуры наверняка обойдутся гораздо дороже, поэтому нам не имеет смысла рекомендовать подобные инвестиции молодым работникам. И, несколько забегая вперед, я озаботился бы также рядом серьезных методологических проблем. Например, идеальный вид зубов может ассоциироваться с другими чертами характера человека, обусловливающими более высокий уровень его доходов: то есть дело не в зубах как таковых, а в том, что люди с высоким уровнем доходов, как правило, заботятся об их состоянии. Пока же для нас важно обратить внимание на степень (величину) наблюдаемой нами связи между объясняющей переменной и интересующим нас исходом.
Значимость. Является ли наблюдаемый нами результат заблуждением, обусловленным нерепрезентативной выборкой данных, или он отражает реально существующую связь, которая, скорее всего, будет присуща всей соответствующей совокупности? Это тот же самый фундаментальный вопрос, на который мы пытаемся ответить на протяжении нескольких последних глав. Можно ли ожидать в контексте роста и веса, что мы будем наблюдать аналогичную положительную ассоциацию в других выборках, которые являются репрезентативными по отношению к данной совокупности? Чтобы ответить на этот вопрос, используем уже знакомые вам базовые инструменты статистического вывода. Наш коэффициент регрессии основывается на наблюдаемой зависимости между ростом и весом для определенной выборки данных. Если бы мы тестировали более крупную выборку, то почти наверняка выявили бы несколько иную зависимость между ростом и весом и, следовательно, другой коэффициент регрессии. Зависимость между ростом и весом, наблюдаемая в данных, полученных британским правительством (напоминаю, что они касаются государственных служащих Британии), безусловно, будет отличаться от зависимости между ростом и весом для участников исследования Americans’ Changing Lives. Однако из центральной предельной теоремы следует, что среднее значение для большой, надлежащим образом сформированной выборки, как правило, не будет существенно отклоняться от среднего значения для генеральной совокупности. Аналогично мы можем предположить, что наблюдаемая зависимость между переменными, такими как рост и вес, тоже не будет значительно разниться от выборки к выборке, если, конечно, эти выборки будут достаточно крупными и надлежащим образом сформированными из одной и той же совокупности.
Вы должны понимать это на интуитивном уровне. Весьма маловероятно (хотя в принципе возможно), что, обнаружив зависимость между каждым дополнительным дюймом роста и дополнительными 4,5 фунта веса участников исследования Americans’ Changing Lives, мы в то же время не выявили бы никакой зависимости между ростом и весом в какой-то другой репрезентативной выборке, состоящей из 3000 взрослых американцев.