Как это удается?
Как обычно, я привожу самую распространенную формулу для определения коэффициента корреляции в приложении, находящемся в конце этой главы. Это не та статистика, которую можно вычислить вручную. (После того как вы введете соответствующие данные, базовый программный пакет, например Microsoft Excel, рассчитает корреляцию между двумя соответствующими переменными.) Тем не менее на интуитивном уровне понять эту формулу несложно. Формула для вычисления коэффициента корреляции выполняет следующие операции:
1. Вычисляет среднее значение и стандатное (среднеквадратическое) отклонение для обеих переменных. Если вернуться к примеру с ростом и весом, то мы бы узнали средний рост людей в выборке, средний вес людей в той же выборке и стандартное отклонение для роста и веса.
2. Преобразует все данные таким образом, чтобы каждое наблюдение было представлено его расстоянием (в стандартных отклонениях) от среднего значения. Верьте мне, это совсем не сложно. Допустим, средний рост в выборке равняется 66 дюймам (при стандартном отклонении в 5 дюймов), а средний вес – 177 фунтов (при стандартном отклонении в 10 фунтов). Теперь предположим, что ваш рост – 72 дюйма, а вес – 168 фунтов. Мы можем также сказать, что ваш рост составляет 1,2 стандартного отклонения сверх среднего роста [(72 ‒ 66)/5) = 1,2] и 0,9 стандартного отклонения ниже среднего веса, или –0,9 применительно к нашей формуле [(168 ‒ 177)/10 = –0,9]. Да, это нетипично, когда рост человека выше среднего, а вес – ниже среднего, но поскольку вы уже заплатили неплохие деньги за эту книгу, то, как мне кажется, я должен в знак благодарности сделать вас высоким худощавым человеком. Обратите внимание: ваш рост и вес, выражавшиеся поначалу в дюймах и фунтах, теперь выражаются абстрактными числами 1,2 и – 0,9. Как видите, потребность в единицах измерения отпала.
3. Теперь я могу скрестить руки на груди и предоставить возможность компьютеру выполнить остальную работу. Формула вычисляет связь по всей выборке между ростом и весом, которые измеряются в стандартных единицах. Когда рост отдельных людей в выборке равняется, к примеру, 1,5 или 2 стандартного отклонения выше среднего значения, какими должны быть значения их веса, измеренные в стандартных отклонениях от среднего значения для веса? А когда рост членов выборки близок к среднему значению, какими будут значения их веса, измеренные в стандартных единицах?
Если расстояние от среднего значения для одной переменной в целом соответствует – по величине и направлению – расстоянию от среднего значения для другой переменной (например, для людей, рост которых существенно отличается в ту или другую сторону от среднего значения роста, значения их веса, как правило, существенно отличаются от среднего значения веса, причем в том же направлении, что и рост), то у нас есть основания говорить о сильной положительной корреляции.
Если же расстояние от среднего значения для одной переменной в целом соответствует аналогичному расстоянию от среднего значения для другой переменной, но в противоположном направлении (например, у людей, которые чаще среднего занимаются физическими упражнениями, как правило, вес гораздо ниже среднего), то у нас есть основания говорить о сильной отрицательной корреляции.
Если две переменные в целом не отклоняются от среднего значения сколь-нибудь существенно (например, размер обуви и интенсивность занятий физическими упражнениями), то мы можем говорить о незначительной или нулевой корреляции.
Я чувствую, вы перенапряглись, читая этот раздел. Хочу вас утешить: вскоре мы вернемся к Netflix и тому, как ей удается угадывать ваш интерес к тем или иным фильмам. Однако вначале поразмышляем над еще одним событием, где корреляция играет немаловажную роль, – SAT. Да, именно SAT, о котором говорилось в главе 3. Этот тест (первоначальное название – Scholastic Aptitude Test) представляет собой стандартизированный экзамен, состоящий из трех разделов: математика, чтение и письмо. Возможно, вам уже приходилось его сдавать (или придется сдавать в будущем). Не исключено, что вы особо не задумывались над тем, почему вам нужно его сдавать. Цель этого экзамена – оценить вашу способность к обучению и спрогнозировать вашу успеваемость в колледже или университете. Разумеется, у вас (и особенно у тех из вас, кому не нравятся стандартизированные тесты) может возникнуть резонный вопрос: уж не для этого ли предназначена средняя школа? Почему так важен какой-то там четырехчасовой тест, если члены приемной комиссии колледжа могли бы просто ознакомиться с оценками, которые вы получали на протяжении четырех лет учебы в старших классах школы?
Ответ на этот вопрос содержится в материале, с которым вы знакомились в главе 1 и 2. Оценки, которые выставляются ученикам в школе, представляют собой несовершенную описательную статистику. Ученик, получающий посредственные оценки при прохождении напряженной школьной программы для специализированных классов по математике и другим естественным наукам, может иметь большие академические способности и потенциал, чем ученик той же школы, предпочевший программу с гуманитарным направлением. Это объясняется тем, что гуманитарные предметы усваиваются, как правило, гораздо легче, и получить высокие оценки по ним не составляет особого труда. Очевидно, что между разными школами также существуют немалые различия, которые сказываются на оценках учеников. Согласно данным College Board (орган, который разрабатывает и управляет SAT), этот тест призван «демократизировать доступ к высшим учебным заведениям для всех учащихся». Что можно возразить против такого довода? Все справедливо! SAT предлагает стандартизированный показатель способностей, который позволяет сравнивать всех абитуриентов, поступающих в колледжи и университеты. Но можно ли считать его достаточно надежным показателем способностей? Если мы хотим показатель, который позволяет легко сравнивать способности учащихся, то мы могли бы также предложить всем выпускникам школы посоревноваться в забеге на 100 ярдов, что было бы гораздо дешевле и проще, чем администрировать SAT. Проблема, конечно же, в том, что результат, показанный в забеге, никоим образом не коррелирован с академической успеваемостью в колледжах и университетах. Данные о результатах забега получить легко, однако они не имеют ничего общего с интересующим нас вопросом.
Чем же SAT лучше в этом отношении? К большому разочарованию будущих поколений старшеклассников, SAT вполне достойно справляется с задачей прогнозирования успехов студентов-первокурсников, так что сдавать его придется. College Board публикует соответствующие показатели корреляции. На шкале от 0 (полное отсутствие корреляции) до 1 (идеальная корреляция) корреляция между средней оценкой ученика старших классов школы и средней оценкой студента-первокурсника равняется 0,56. (Чтобы было понятнее, что это означает, скажу, что корреляция между ростом и весом взрослых мужчин в Соединенных Штатах составляет примерно 0,4.) Корреляция между комплексным результатом, показанным при сдаче SAT (чтение, математика и письмо), и средним баллом студента-первокурсника также 0,56
{25}. Это вроде бы говорит в пользу отказа от SAT, поскольку этот тест способен предсказать академическую успеваемость будущих студентов колледжей и университетов ничуть не лучше, чем средняя оценка ученика старших классов. По сути, самым надежным показателем будет комбинация баллов, полученных при сдаче SAT, и средней оценки ученика старших классов: корреляция между таким сочетанием и средним баллом студента-первокурсника составляет 0,64. Да, это действительно так.