По сути, именно так и работают программы статистической обработки данных при создании линейных регрессий. И хотя машина, строя точечную диаграмму, на миллиметровке линий не чертит – для этого у нее есть четкий набор математических команд, – программы действуют по тому принципу, который я только что описал.
Гораздо интереснее учитывать не один, а несколько факторов, влияющих на результат. Предсказать вес едока можно точнее, приняв во внимание его пол – ведь мужчина обычно тяжелее женщины. Для этого нужно построить диаграмму рассеяния в трех плоскостях, что на бумаге сделать непросто. А вот для статистических программ это нетрудно.
Главным методом обработки большого массива данных служат так называемые множественные регрессии. Потребитель x пола, купивший y и имеющий почтовый индекс z, склонен покупать a, выбирать b и голосовать за c. По такой модели можно, например, оценить значимость каждого конкретного фактора при составлении прогноза. Когда факторов много, некоторые зачастую оказываются лишними. Если в модели есть почтовый индекс, то нет необходимости указывать населенный пункт (почтовый индекс содержит информацию о штате и указывает на место жительства более точно). Программа это принимает в расчет.
Надбавка за знания: у тех, кто выполнил тест на общую эрудицию без ошибок, доход оказался в два с лишним раза больше
Почему почтовый индекс сообщает больше информации, чем указание на населенный пункт, мы понимаем. Однако перекрывание одного фактора другим обычно не так просто увидеть и не так легко объяснить. Множество разнообразных факторов иногда говорит об одном и том же, но при этом каждый будет, возможно, нести какую-то уникальную информацию. В этом случае модель строит прогноз благодаря учету множества факторов.
Поскольку связь между годами, проведенными в стенах учебных заведений, и размером дохода считается общепризнанной и – как нам кажется – в полной мере понятной, целесообразно включать ее в любую модель, прогнозирующую уровень дохода. Что я и сделал применительно к модели, построенной по результатам моего теста из 10 вопросов на общую эрудицию. Результаты теста остались релевантными – статистически значимыми для прогнозирования дохода – даже после того, как я включил в модель фактор уровня образования
[128]. Это значит, что знание фактов не является просто суррогатом уровня образования.
Возраст – другой релевантный фактор. Люди среднего возраста, как правило, зарабатывают больше, чем люди помоложе, – также у них за плечами больше лет, в течение которых они знакомились с фактами. Здесь легко можно усмотреть зависимость дохода от знаний; на самом же деле может оказаться, что доход больше у тех, кто выше поднялся по служебной лестнице.
В итоге при построении регрессии я учел факторы возраста, образования, а также результаты теста. Знание по-прежнему оказалось весьма существенным индикатором дохода
[129]. Даже при тождестве возрастных и образовательных показателей больше зарабатывают те, у кого кругозор шире.
Разница в доходах тех, кто знает больше, и тех, кто знает меньше, оказывается впечатляющей. Для наглядности рассмотрим гипотетический случай, в котором за образец возьмем 35-летнего человека, проучившегося четыре года в колледже. Статистическая модель позволяет предположить, что, если этот человек не может ответить ни на один вопрос из теста на общую эрудицию, его семейный доход в среднем составляет 40360 долларов в год. Другой человек того же возраста и уровня образования, ответивший верно на все 10 вопросов, имеет годовой доход в 94959 долларов. А ведь это больше почти на 55 тысяч, или, если хотите, в 2,35 раза.
Необходимо объяснить, что нулевого результата на самом деле ни у кого не было – вопросы я подобрал довольно простые – и лишь несколько испытуемых набрали 100 %. Но среди этой группы не оказалось тех, кому ровно 35 или кто учился в колледже ровно четыре года. Программа статистической обработки данных учитывает каждую единицу набора данных и рассчитывает зависимость дохода от этих трех факторов. Благодаря этому она может дать прогноз – графически отображенный в виде прямой линии – наиболее вероятного уровня доходов с учетом любого количества заданных факторов.
В таком случае получается, что уровни дохода сильно отличаются из-за разницы в знаниях, но никак не в образовании или возрасте. Это различие в доходах заслуживает внимания еще и потому, что речь о доходе семейном, а человек, отвечающий на вопросы теста, не обязательно является главным кормильцем в семье. Такое соображение должно было бы ослабить зависимость дохода от знаний, однако связь эта все-таки значимая и хорошо просматривается.
Причина и следствие
Нам известно, что уровень дохода и знание фактов общего характера взаимосвязаны, но (как мы убедились в случае с победительницами «Мисс Америка» и числом смертей от «раскаленных предметов») корреляционная связь не равняется причинно-следственной. Варианта здесь три:
А. Обширные знания некоторого множества фактов – причина высокого дохода.
Б. Наоборот: высокий доход – причина приобретения обширных знаний.
В. И знания, и высокий доход имеют одну или несколько общих причин.
Согласно варианту «А», финансовая выгода от полученного образования не сводится к наличию диплома. Выпускник считается компетентным специалистом, который обязан обладать нужными профессиональными знаниями и иметь широкий кругозор.
Джек и Джейн учились в одном колледже и закончили его в одном и том же году, получив одинаковые оценки и степень бакалавра. Джейн помнит свое выступление на защите дипломной работы по Месопотамии, а вот Джек свое давным-давно позабыл (как и многое другое, чему его учили). Хотя прямого отношения Месопотамия к специфике работы Джейн не имеет, коллеги поражены широтой ее кругозора. Она часто общается с людьми в той же мере образованными, которые уверены, что шутку про Вирджинию Вульф или кота Шрёдингера она поймет. Уже только потому, что Джейн производит впечатление умного человека, ей могут предложить высокий начальный оклад и обеспечить стремительный взлет на вершину карьерного успеха.
И это еще не все. Обширные познания Джейн могут иметь также другие, более существенные преимущества. Менеджеру желательно достаточно хорошо разбираться в областях, не имеющих к нему прямого отношения, чтобы общаться с коллегами. Маркетологу нужно быть в общих чертах знакомым с массовой культурой. Широта знаний – это именно то, что отличает настоящего инженера, работающего по специальности, от инженера, который при первой же возможности перешел в управленцы. Если начальник не знает, что Плутон является карликовой планетой, вряд ли он заслужит уважение инженеров.