Глава десятая
Ты там есть, бог? Это я, байесовский вывод
Многие опасаются эпохи больших данных. В какой-то степени страшит будущее: а вдруг начнут воплощаться пока еще туманные перспективы, что алгоритмы, обеспеченные достаточным объемом данных, начнут справляться с задачей логического вывода лучше самого человека. Людям внушает страх все сверхъестественное: существа, умеющие трансформироваться; какие-то сущности, восстающие из мертвых; создания, способные приходить к таким умозаключениям, которые нам и не снились. Было по-настоящему жутко, когда бездушная статистическая модель, внедренная по программе маркетингового анализа (Guest Marketing Analytics) в сети розничных магазинов Target, учитывая данные о покупках, пришла к правильному умозаключению, что одна из покупательниц (прошу прощения, гостей) – девушка-подросток из Миннесоты – беременна
{136}. На основании какой-то загадочной формулы, граничащей с колдовством, было проанализировано увеличение доли определенных покупок: лосьона без запаха, витаминов и ватных шариков. И вот результат: компания Target начала отправлять своей покупательнице купоны на товары для новорожденных – к большому изумлению отца девушки, который, будучи всего лишь человеческим существом, обладал довольно убогими дедуктивными способностями и все еще оставался в неведении. Страшно даже подумать, что мы живем в мире, где Google, Facebook, ваш мобильник и, черт побери, даже Target знают о вас больше, чем собственные родители.
Но, может быть, стоило бы меньше бояться внушающих ужас сверхмощных алгоритмов и больше тревожиться о плохих.
Начнем с того, что плохой алгоритм может оказаться самым лучшим. Алгоритмы, поддерживающие работу компаний в Кремниевой долине, с каждым годом становятся все более изощренными, а вводимые в них данные – все более объемными и полезными. Согласно модели будущего, Google должен знать вас: его центральное хранилище данных, обрабатывая миллионы микронаблюдений («Сколько времени он колебался, прежде чем щелкнуть на этом…», «Как долго его очки Google Glass задержались на том…» и так далее), начнет предвосхищать ваши поступки, предпочтения и даже мечты, особенно что касается покупок, которые вы захотите сделать, или вас убедят, что вы этого хотите.
Именно так все может быть! Но может и не быть. Существует множество математических задач, в которых обеспечение большего количества данных повышает точность полученного результата довольно предсказуемым способом. Чтобы предсказать траекторию движения астероида, необходимо измерить скорость его движения и определить местоположение, а также оценить гравитационное воздействие его астрономических соседей. Чем больше связанных с астероидом параметров вы сможете измерить, тем более точную траекторию его движения вам удастся составить.
Однако некоторые задачи похожи скорее на прогноз погоды. Это еще одна ситуация, в которой важнейшую роль играет наличие большого объема подробных данных, а также вычислительных ресурсов для их быстрой обработки. В 1950 году первой вычислительной машине ENIAC понадобилось двадцать четыре часа, чтобы создать имитационную модель погоды на сутки – это стало поразительным достижением в области компьютерных вычислений космической эры. В 2008 году такие вычисления были выполнены на мобильном телефоне Nokia 6300 менее чем за секунду
{137}. В наше время прогнозы погоды не просто составляются быстрее – они намного точнее и охватывают более продолжительный период. Типичный прогноз погоды на пять дней в 2010 году был таким же точным, как прогноз на три дня в 1986 году
{138}.
Хотелось бы думать, что прогнозы будут становиться все лучше и лучше по мере усиления нашей способности собирать данные. Не сможем ли мы в конечном счете реализовать в высшей степени точную имитационную модель атмосферы всей планеты в компьютерном парке где-нибудь под штаб-квартирой сети The Weather Channel? В таком случае, чтобы узнать погоду в следующем месяце, вам понадобится просто выполнить имитационное моделирование, охватывающее немного более длительный период.
Все это заманчиво, но невозможно. Энергия в атмосфере циркулирует очень быстро, меняя масштаб от крохотного до глобального; при этом даже малейшие изменения в одном месте и времени могут повлечь за собой совершенно другие последствия в другом месте через несколько дней. С формальной точки зрения, погода хаотична. Именно в процессе численного изучения погоды Эдвард Лоренц открыл математическую концепцию хаоса. «Один метеоролог отметил, что, если теория была бы правильной, одного взмаха крыльев чайки было бы достаточно, для того чтобы навсегда изменить погодные условия. Это противоречие еще не решено, но самые последние данные как будто говорят в пользу чаек», – писал он
{139}.
Существует жесткое ограничение в отношении того, на какой период мы можем прогнозировать погоду, сколько бы данных нам ни удалось собрать. Лоренц считал, что этот период должен быть не более двух недель, и усилия метеорологов всего мира до сих пор не дали нам оснований ставить этот предел под сомнение
{140}.
К чему ближе человеческое поведение – к астероиду или погоде? Безусловно, все зависит от того, о каком аспекте человеческого поведения идет речь. Как минимум в одном смысле поведение человека прогнозировать даже труднее, чем погоду. У нас есть очень хорошая математическая модель для погоды, позволяющая нам составлять более точные прогнозы хотя бы на краткосрочный период при наличии доступа к большему объему данных – даже если потом присущий этой системе хаос неизбежно берет верх. В случае человеческого поведения у нас такой модели нет и, видимо, никогда не будет. Это делает задачу прогнозирования гораздо более трудной.
Онлайновая компания Netflix, работающая в области индустрии развлечений, в 2006 году организовала конкурс с главным призом в один миллион долларов, чтобы определить, сможет ли кто-нибудь в мире написать алгоритм, который будет справляться с задачей по рекомендациям фильмов клиентам лучше, чем алгоритм самой компании
{141}. Казалось, финишная черта находится не так уж далеко от старта: победителем должна была стать первая программа, которая на 10 % лучше справится с задачей рекомендации фильмов клиентам, чем программа Netflix.