Гальтон обнаружил поразительную регулярность: все его изоплеты представляли собой эллипсы, каждый из которых был заключен в следующий, причем у всех эллипсов был один центр. Это напоминало контурную карту горы идеальной эллиптической формы с вершиной, которой соответствовали два значения роста, чаще всего встречавшиеся в выборке Гальтона: средний рост родителей и детей. Эта гора представляет собой не что иное, как трехмерную версию колоколообразной кривой под названием «шлем жандарма», которую изучал Абрахам де Муавр; сегодня мы используем термин «двумерное нормальное распределение».
Когда рост сыновей совершенно не зависит от роста родителей (как на второй диаграмме разброса), эллипсы Гальтона представляют собой круги, данные на диаграмме также образуют круг. Когда рост сыновей полностью зависит от наследственности, а элемент случайности отсутствует (как на первой диаграмме разброса), данные расположены вдоль прямой линии, что можно представить себе как самый вытянутый эллипс. Между этими двумя крайними случаями мы имеем эллипсы различной толщины, которую специалисты по классической геометрии называют «эксцентриситетом» эллипса. Эксцентриситет отображает степень, в которой рост отца определяет рост сына. Высокий эксцентриситет означает, что имеет место сильная наследственность и слабая регрессия к среднему значению; низкий эксцентриситет означает противоположное: ситуацию контролирует регрессия к среднему. Гальтон называл этот показатель «корреляцией» – мы используем его до сих пор. Если эллипс Гальтона почти круглый, корреляция близка к 0; если эллипс сильно вытянут в направлении с северо-востока на юго-запад, корреляция близка к 1. С помощью эксцентриситета (геометрической величины, возраст которой совпадает с возрастом работы Аполлония Пергского в III столетии до нашей эры). Гальтон нашел способ измерять связь между двумя переменными и благодаря этому решил важнейшую задачу биологии XIX столетия: задачу количественного анализа наследственности.
Возможно, здоровый скептицизм заставляет вас задать вопрос: что если данные на диаграмме разброса не образуют эллипс? Что тогда? На этот вопрос есть прагматический ответ: на практике диаграммы разброса реальных массивов данных во многих случаях действительно образуют фигуры, близкие к эллипсам, – не всегда, но достаточно часто, чтобы сделать этот метод широко применимым. Вот как выглядит диаграмма разброса, если отобразить на ней долю избирателей, проголосовавших за Джона Керри в 2004 году, в сравнении с долей избирателей, проголосовавших за Барака Обаму в 2008 году. Каждая точка соответствует одному избирательному округу.
Эллипс здесь налицо, причем очень вытянутый, а это значит, что существует высокая степень корреляции между долей избирателей, проголосовавших за Керри, и долей избирателей, проголосовавших за Обаму. Очевидно, что большая часть графика расположена над диагональю; это говорит о том, что в целом Обама получил больше голосов, чем Керри.
На следующем графике представлены данные о ежедневных изменениях курсов акций Google и General Electric (GE) за несколько лет.
Следующим будет рисунок, который мы уже видели, – график взаимозависимости между стоимостью обучения в нескольких университетах штата Северная Каролина и средним баллом SAT.
Далее представлены 50 штатов США, расположенные на диаграмме разброса по среднему доходу и доле избирателей, проголосовавших за Джорджа Буша во время президентских выборов 2004 года
{223}. На этой диаграмме богатые либеральные штаты, такие как Коннектикут, расположены в нижней правой части диаграммы, а поддерживающие республиканцев штаты с более скромными доходами, такие как Айдахо, – в верхней левой части.
Эти данные взяты из самых разных источников, однако все четыре диаграммы разброса имеют примерно такую же эллиптическую форму, что и диаграмма роста родителей и детей. В первых трех случаях имеет место положительная корреляция: увеличение одной переменной связано с увеличением другой; при этом эллипс вытянут с северо-востока на юго-запад. На последнем графике отображена отрицательная корреляция: в целом более богатые штаты больше поддерживают демократов, а эллипс вытянут с северо-запада на юго-восток.
Чрезмерная эффективность классической геометрии
Аполлоний и древнегреческие геометры представляли себе эллипсы как конические сечения – поверхности, полученные пересечением конуса плоскостью. Кеплер показал (хотя астрономическому сообществу понадобилось несколько десятилетий, чтобы понять это), что планеты движутся по эллиптическим орбитам, а не по круговым, как считалось ранее. Теперь та же кривая возникает в качестве естественной фигуры, к которой заключены данные о росте родителей и детей. Чем это можно объяснить? Причина не в том, что существует некий невидимый конус, управляющий наследственностью, который в случае отсечения под правильным углом дает эллипсы Гальтона. Причина также не в том, что некая форма генетического притяжения приводит к появлению эллиптических фигур на диаграммах Гальтона посредством ньютоновских законов механики.
Причина заключается в одном фундаментальном свойстве математики – в каком-то смысле именно это свойство сделало математику столь полезной для естествоиспытателей. В математике существует множество сложных объектов, но совсем немного простых. Следовательно, если у вас есть задача, решение которой допускает простое математическое описание, значит, существует только несколько вариантов такого решения. Таким образом, самые простые математические объекты широко распространены и выполняют множество обязанностей в качестве решений научных задач разных типов.
Самые простые линии – прямые. Очевидно, что прямые линии присутствуют в природе повсюду, от граней кристаллов до траектории движущихся тел при отсутствии силы, которая на них воздействует. Следующий тип простейших линий – линии, представленные квадратными уравнениями
[263], то есть уравнениями, в которых друг на друга умножаются не более двух переменных. Таким образом, возведение переменной в квадрат, или умножение двух разных переменных, разрешено, тогда как возведение переменной в куб, или умножение одной переменной на квадрат другой, строго запрещено. Линии этой категории, в том числе эллипсы, из уважения к истории называют коническими сечениями, однако более прогрессивные специалисты по алгебраической геометрии называют их квадриками
[264], или кривыми второго порядка. Существует множество квадратных уравнений, причем любое из них имеет такой вид: