Другой фактор – вес лошади. Здесь связь с квалификацией менее очевидна: в некоторых соревнованиях действуют весовые ограничения, не позволяющие выступать «тяжелым» лошадям, хотя у быстрых лошадей вес часто бывает выше среднего. Завсегдатаи скачек могли не согласиться с этим утверждением, однако Болтон и Чэпмена их мнение не интересовало: они просто положились на регрессионный анализ и искали зависимость между весом и квалификацией.
Согласно модели, разработанной Болтон и Чэпменом, квалификация зависит от девяти возможных факторов, включая вес, среднюю скорость на последних забегах и стартовую позицию. Проще всего было бы показать, как те или иные факторы влияют на квалификацию лошади, при помощи таблицы, наподобие предложенной Гальтоном журналу Nature. Однако в реальной жизни все сложнее. Таблица Гальтона демонстрирует влияние родственников на характерные черты ребенка, однако не дает полной картины, так как у человека не все черты – наследственные. Свое воздействие на него оказывают факторы, связанные с окружающей средой, в том числе скрытые. Более того, у аккуратных квадратиков с надписями «мать», «отец» и другими на самом деле не такие уж четкие границы – если у отца ребенка есть какие-то черты, они могут быть также у его бабушки с дедушкой. Таким образом, мы не можем сказать, что каждый значимый фактор полностью независим от остальных. То же самое относится к лошадиным скачкам. Наряду с девятью факторами, влияющими на выступление лошади, Болтон и Чэпмен учитывали фактор неопределенности, иначе говоря, всевозможные сюрпризы, то есть неожиданные события, которые могут произойти во время забега.
Научившись измерять квалификацию лошади, исследователи конвертировали полученные данные в прогноз на победу каждой лошади. Они рассчитывали суммарную квалификацию лошадей в забеге и определяли вероятность победы конкретной лошади в зависимости от ее вклада в общий показатель.
Чтобы понять, какие факторы можно использовать для прогнозов, Болтон и Чэпмен применили свою модель к результатам двух сотен забегов. Обработка информации стала поистине актом героизма, потому что данные хранились на десятках компьютерных перфокарт. «Это была огромная коробка, – рассказывала Болтон, – и я годами таскала ее с собой». Перенос данных на компьютер тоже был непростой задачей: на ввод информации по одному забегу уходило около часа.
Из девяти факторов, протестированных Болтон и Чэпменом, наиболее важной для принятия решения о ставке оказалась средняя скорость. А вот вес животного, судя по всему, не играл никакой роли. Либо этот фактор был нерелевантным, либо перекрывался другим, более значимым фактором, так же как фактор воздействия дедушки на внешность внука перекрывается влиянием отцовских генов.
То, какие факторы оказались самыми важными, удивило даже самих исследователей. В ранней версии модели Билла Бентера отмечалось существенное влияние на размер ставки количества предыдущих забегов, в которых участвовала лошадь. Внятного объяснения, почему этот фактор столь значим, не было. Некоторые игроки ссылались на то, что каждый раз имел место «особый случай», но Бентер избегал спекуляций подобного рода. Он знал, что разные факторы могут накладываться друг на друга. Вместо того чтобы анализировать значение каждого из них, он сосредоточился на разработке модели, которая воспроизводила бы результат реального, задокументированного забега. Так же как игроки, выискивавшие рулетку с дефектом, он надеялся получить действенный инструмент прогнозирования без скрупулезного разбора факторов, лежащих в его основе.
Знать, как каждый отдельный фактор влияет на результат, важно не только в тотализаторе. Пока Гальтон и Пирсон изучали механизм наследования, пивоварня «Гиннесс» работала над увеличением срока годности своего стаута. Эту задачу поручили Уильяму Госсету – талантливому молодому статистику, зимой 1906 года прошедшему стажировку в лаборатории Пирсона.
Если игровые синдикаты не имели возможности повлиять на такие факторы, как, например, вес лошади, то «Гиннессу» ничто не мешало изменить состав пива. В 1908 году Госсет при помощи метода регрессии рассчитал количество хмеля, непосредственно влияющее на срок годности пива. Пиво без добавления хмеля могло храниться 12–17 дней, с добавлением оптимального количества хмеля – до нескольких недель.
Бетторы не слишком интересуются тем, какие факторы влияют на результат игры, – им гораздо важнее знать, насколько верны их предсказания. Казалось бы, проще всего проверить эффективность системы прогнозирования по итогам уже состоявшихся забегов. Но здесь возникают свои сложности.
Во время Второй мировой войны будущий исследователь теории хаоса Эдвард Лоренц работал в метеослужбе Воздушного корпуса армии США в Тихоокеанском регионе. Осенью 1944 года его команда выдала серию идеально точных прогнозов о погодных условиях для полетов между Сибирью и островом Гуам. Во всяком случае, по сообщениям летчиков, совершавших рейсы в указанных областях, прогнозы оправдались на все 100 %. Вскоре Лоренц выяснил истинную причину столь невероятной точности: поглощенные выполнением других задач, пилоты вообще не вели наблюдение за погодой и просто повторяли прогноз метеослужбы.
Та же проблема возникает, когда игровые синдикаты проверяют свои прогнозы при помощи данных, которые использовались для калибровки системы. Создать видимость идеальной модели легко. Достаточно выделить для каждого забега некий показатель, характеризующий победителя, а затем обобщить эти показатели в полном соответствии с данными выигравших лошадей. Вам кажется, что вы создали безупречную модель, но на самом деле вы лишь подогнали свой прогноз под заранее известные результаты.
Если игроки хотят узнать, сработают ли их стратегии в будущем, они должны проверять их на свежих данных. Поэтому синдикаты, собирая информацию о состоявшихся забегах, игнорируют часть результатов, строят систему прогнозов на оставшихся, а затем тестируют ее на прежде не использовавшихся данных. Это позволяет проверить, как модель ведет себя в реальных условиях.
Тестирование на свежих данных помогает убедиться, что модель удовлетворяет научному принципу «бритвы Оккама», суть которого состоит в следующем: если перед вами стоит выбор между несколькими объяснениями наблюдаемого события, лучше всего взять самое простое. Другими словами, если вы хотите построить модель реального процесса, вы должны отсечь от нее все, чему нет объяснения.
Проверка прогнозов на свежих данных позволяет бетторам не перегружать модель информацией, но этого мало: необходимо также определить степень ее точности. Это можно сделать при помощи статистического показателя под названием коэффициент детерминации. Коэффициент может иметь величину от 0 до 1 и применяется для измерения аналитического потенциала регрессионной модели. Показатель «0» говорит о том, что модель не работает вообще (игроки могли бы с тем же успехом выбирать победителя наугад); показатель «1» означает, что прогнозы точно совпадают с полученными результатами. Модель Болтон и Чэпмена имела показатель 0,09. Это было, конечно, лучше, чем выбор лошади наугад, однако множество факторов все же остались за рамками модели.
Ряд трудностей возник и с самими данными, которые использовали исследователи. Информация о 200 забегах поступала к ним с пяти американских ипподромов и содержала массу скрытых факторов: менялись условия скачек, у лошадей менялись соперники и жокеи. Будь у Болтон и Чэпмена больше данных, эту проблему можно было бы решить, но они располагали весьма ограниченной информацией – две сотни заездов, и все. Впрочем, в менее изменчивых условиях их система потенциально могла работать.