Саммерс остановился и уставился на меня. Он ненадолго повернулся к настроенному на канал CNBC телевизору. Затем снова посмотрел на меня, потом на телевизор, потом опять на меня. «Ладно, мне нравится эта статья, – сказал Саммерс. – Над чем вы еще работаете?»
Следующие 60 минут были, возможно, самыми интеллектуально головокружительными в моей жизни. Мы с Саммерсом поговорили о процентных ставках и инфляции, о поддержании порядка и о преступности, о бизнесе и о благотворительности. Многие встречающиеся с Саммерсом люди подпадают под его обаяние. Мне посчастливилось разговаривать с этим, бесспорно, самым умным человеком, которого я когда-либо встречал. Саммерс показался мне невероятно мудрым. Новые идеи увлекают его больше, чем что-либо другое – и это, кажется, нередко создает ему немалые проблемы. Он был вынужден оставить свой пост в Гарварде после того, как высказал предположение, согласно которому одна из причин нехватки женщин в науке может заключаться в намного большей вариативности IQ у мужчин. Если Саммерс находит какую-либо идею интересной, он, как правило, говорит об этом, даже если это режет чей-то слух.
После запланированного времени окончания нашей встречи прошло полтора часа. Разговор затягивался, но я до сих пор не имел понятия, зачем понадобился Саммерсу, когда мне нужно будет уходить и как я узнаю об этом. Такое впечатление, что на тот момент Саммерс и сам, вероятно, забыл, зачем устроил эту встречу.
И тогда он задал вопрос на миллион – или, возможно, миллиард – долларов. «Вы думаете, что на основе каких-либо данных сможете предсказать ситуацию на фондовом рынке?»
Ага! Вот наконец и выяснилась причина, по которой меня позвали сюда.
Саммерс не был первым, кто задал мне этот вопрос. Мой отец в основном поддерживал мои нетрадиционные научные интересы. Но однажды и он поднял эту тему. «Расизм, жестокое обращение с детьми, аборты, – сказал он. – А ты не можешь зарабатывать на этом деньги для себя?» Другие члены семьи и друзья тоже заговаривали об этом. Не говоря уже о коллегах и незнакомцах в интернете. Кажется, всем хотелось знать, могу ли я использовать поиск в Google и другие крупные базы данных для покупки акций. Теперь к ним присоединился бывший секретарь казначейства Соединенных Штатов. Это было уже серьезнее.
Так могут ли новые источники больших данных успешно предсказать, какие акции будут наиболее выгодны? Короткий ответ – нет.
В предыдущих главах мы обсудили четыре мощных достоинства больших данных. В этой поговорим об их ограничениях – о том, чего мы не можем сделать с их помощью и, порой, как мы не должны их применять. Я решил начать этот разговор с рассказа о нашей с Саммерсом неудачной попытке выиграть на фондовых рынках.
В главе 3 мы отмечали, что новые данные скорее будут полезны в случае неубедительности результатов уже осуществленных исследований в той или иной области. Это горькая правда: гораздо легче получить новые выводы по поводу расизма, жестокого обращения с детьми или абортов, чем о том, как функционирует бизнес. Это является следствием того, что на поиск даже малейшего преимущества в эффективности бизнеса брошены поистине огромные ресурсы. Конкуренция в области финансов крайне жесткая.
Саммерс, человек, не склонный воспевать похвалу чужому уму, был уверен, что хедж-фонды нас уже опередили. Во время нашей беседы я был очень впечатлен тем, насколько уважительно он говорил о них, а также его убежденностью в том, что они предвосхитили многие из моих предложений. В ответ я с гордостью поделился с ним придуманным мной алгоритмом, который позволил мне получать более полные данные с помощью Google Trends. Он сказал, что это очень здорово. Когда же я спросил, мог ли «Ренессанс», количественный хедж-фонд, придумать подобный алгоритм, он усмехнулся и сказал: «Да, конечно, они бы смогли догадаться».
Сложность конкурирования с хедж-фондами – не самая основная проблема, с которой мы с Саммерсом столкнулись, продумывая возможность использования новых больших наборов данных для победы на фондовых рынках.
Проклятие числа размерностей
Предположим, ваша стратегия прогнозирования на фондовом рынке – подбрасывание монетки. Но при этом она создана на основе тщательного тестирования. Вот ваша методика: вы наносите метки на тысячу монет – от 1 до 1000. Каждое утро в течение двух лет вы подбрасываете все монеты, записывая, падают они орлом или решкой, а затем смотрите, идет ли индекс Standard & Poor’s в тот день вверх или вниз. Вы постоянно анализируете всю статистику. И вуаля! Вы что-то обнаружили. Получается, что при 70,3 % подбрасываний монета № 391 падает решкой вверх тогда, когда индекс S&P растет. Связь статистически значимая, ее уровень высокий. Вы нашли свою счастливую монету!
Теперь просто каждое утро подбрасывайте ее и покупайте акции, когда она выпадает решкой. Ваши дни в футболке и с ужином пустой лапшой закончились. Монета 391 – это ваш билет в хорошую жизнь!
Или нет.
Вы стали очередной жертвой одного из самых дьявольских аспектов «проклятия числа размерностей». Он может нанести удар, когда у вас имеется много переменных (или «размерностей») и не так много наблюдений: в данном случае, тысяча монет и 504 торговых дня за эти два года соответственно. Одна из этих размерностей – монета 391 – скорее всего, счастливая. Уменьшите количество переменных – подбрасывайте всего сто монет. И вероятность того, что вам повезет, существенно уменьшится. Увеличьте число наблюдений, попытавшись предсказать поведение индекса S&P за 20 лет – и монеты постараются «не ударить в грязь лицом».
«Проклятия размерности» является серьезной проблемой при работе с большими данными, поскольку новые наборы данных никогда не дают нам экспоненциально больше переменных, чем традиционные источники – каждый поисковой запрос, каждая категория твитов и т. д. Многие люди, утверждающие, что способны прогнозировать динамику рынка, используя какой-то большой источник данных, просто оказались в плену этого проклятия. Все, что они действительно сделали – нашли эквивалент монеты 391.
Возьмем, к примеру, команду ученых-компьютерщиков из университета штата Индиана и университета Манчестера. Эти специалисты утверждали, что могут спрогнозировать динамику рынков, основываясь на сообщениях в Twitter
{173}. Они построили алгоритм обработки каждодневного настроения твитов всего мира, используя методы, подобные анализу настроений, рассматриваемому в главе 3. Однако они учитывали не одно настроение, а множество – счастье, злость, доброту и многие другие. И обнаружили, что повышенное число твитов с выражением спокойствия – таких как «я спокоен» – позволяет предположить повышенную вероятность роста промышленного индекса Доу – Джонса через шесть дней. Для использования их результатов был основан хедж-фонд.
В чем здесь проблема?
Основная загвоздка заключается в том, что ученые протестировали слишком много элементов. Если вы в случайном порядке исследуете достаточно много переменных, одна из них окажется статистически значимой. Они изучили много эмоций, они тестировали каждую эмоцию за день, два, три, семь до дня, поведение фондового рынка в который пытались предсказать. И все эти переменные были использованы для того, чтобы попытаться объяснить взлеты и падения индекса Доу – Джонса всего за несколько месяцев.