Противоположную точку зрения ярко выразил нобелевский лауреат, генетик Сидней Бреннер, которого я уже цитировал в главе 3 (кстати говоря, он был директором того самого знаменитого кембриджского института, основанного Максом Перуцем, о котором я говорил выше): «Биологические исследования переживают кризис… Технологии дают нам инструменты для анализа организмов на всех масштабных уровнях, но мы тонем в море данных и задыхаемся без теоретической основы, которая позволила бы осознать их. Хотя многие считают, что “чем больше, тем лучше”, история учит нас, что на самом деле “лучше меньше, да лучше”. Нам нужна теория и уверенное понимание природы изучаемых объектов, чтобы предсказывать все остальное».
Вскоре после публикации статьи Криса Андерсона компания Microsoft выпустила интереснейшую серию эссе, собранных в книге под названием «Четвертая парадигма: информационно емкие научные открытия»
[183]. Они основаны на идеях Джима Грея, информатика, работавшего в Microsoft и трагически погибшего в море в 2007 г. Он видел в революции данных крупномасштабную смену парадигмы, определяющей будущее развитие науки в XXI в., которую он называл четвертой парадигмой. Первые три, по его мнению, были: 1) эмпирические наблюдения (до Галилея), 2) теории, основанные на моделях и математических формулах (после Ньютона), и 3) вычисления и компьютерное моделирование. Мне кажется, что, в отличие от Андерсона, Грей считал эту четвертую парадигму результатом интеграции первых трех, а именно объединением теории, эксперимента и моделирования, но с дополнительным акцентом на сбор и анализ данных. В этом смысле с ним трудно не согласиться, поскольку именно так наука и развивалась в течение последней пары сотен лет; разница тут в первую очередь количественная: «революция данных» открыла перед нами гораздо более широкие возможности использования и развития тех же методик, которые мы применяем уже давно. С этой точки зрения кажется, что речь должна идти не о парадигме 4.0, а о парадигме 3.1.
Но теперь на поле появился новый игрок, который многим кажется более многообещающим и, по мнению Андерсона и ему подобных, способным устранить потребность в традиционном научном методе. Речь идет о технологиях и методиках, которые называют обучением машин, искусственным интеллектом и аналитической обработкой данных. Они существуют во множестве разных вариантов, но все они основаны на идее о возможности разработки и программирования компьютеров и алгоритмов, способных развиваться и адаптироваться на основе вводимых в них данных для решения задач, формирования новых идей и формулирования предсказаний. Все они используют итерационные процедуры поиска и использования имеющихся в данных корреляций, которые не заботятся о причинах существования таких связей и неявно предполагают, что «корреляция важнее причинности». Этот подход вызывает сейчас большой интерес и уже оказывает сильное влияние на нашу жизнь. Например, он лежит в основе принципов работы поисковых систем, таких как Google, разработки стратегий инвестирования или схем работы организаций, а также работы автомобилей без водителя.
Все это возвращает нас к классическому философскому вопросу о том, до какой степени эти машины «мыслят». Что мы, собственно говоря, подразумеваем под этим словом? Стали ли они уже умнее, чем мы? Смогут ли сверхразумные роботы когда-нибудь заменить человека? Создается впечатление, что призрак таких научно-фантастических фантазий стремительно надвигается на нас. Вполне можно понять, почему Рэй Курцвейл и его единомышленники считают, что следующая смена парадигмы будет интеграцией человека с машиной или в конце концов приведет к появлению мира, в котором господствуют разумные роботы. Как я уже говорил, я отношусь к таким футурологическим прогнозам довольно скептически, хотя вопросы, которые они затрагивают, интересны, чрезвычайно сложны и требуют ответа. Но их обсуждение должно затрагивать другую смену парадигмы, порожденную надвигающейся сингулярностью конечного времени, которая связана с ускоряющимся темпом жизни и включает в себя проблему глобальной устойчивости и появления еще четырех или пяти миллиардов человек, которые вскоре окажутся на нашей планете рядом с нами.
Большие данные, несомненно, окажут огромное влияние на все аспекты нашей жизни и, кроме того, принесут немалую пользу научным исследованиям. Успех этих исследований – появление крупных открытий и новых взглядов на мир – будет зависеть от того, насколько их удастся объединить с глубоким концептуальным мышлением и традиционными методами разработки теорий. Точка зрения Андерсона и, хотя и в меньшей степени, Грея – это своего рода вариант «Теории всего» для информатиков и статистиков. Она утверждает с той же гордыней и тем же нарциссизмом, что именно в ней заключается единственный способ понять все. Станут ли большие данные новой наукой, пока неясно. Но они действительно могут ею стать, если будут использоваться в сочетании с традиционным научным методом.
Замечательный пример того, как интеграция больших данных с традиционной научной методологией может привести к важному научному открытию, дает открытие бозона Хиггса. Прежде всего вспомним, что бозон Хиггса – это ключевой элемент основополагающих законов физики. Он пронизывает всю Вселенную и порождает массу всех элементарных частиц материи, от электронов до кварков. Его существование было блестяще предсказано более шестидесяти лет назад группой из шести физиков-теоретиков. Это предсказание не возникло на пустом месте, а было итогом развития традиционной науки с анализом тысяч экспериментов, поставленных в течение многих лет, и итерационного применения к ним математических теорий и концепций, разработанных для наиболее экономного объяснения наблюдаемых явлений, и постановки следующих экспериментов для проверки теоретических предсказаний.
Развитие технологий до уровня, на котором появилась возможность предпринять серьезные поиски этого трудноуловимого, но жизненно важного элемента нашей объединенной теории фундаментальных сил природы, заняло более пятидесяти лет. Центральным этапом этих поисков было строительство гигантского ускорителя элементарных частиц, в котором два кольцевых протонных пучка движутся в противоположных направлениях со скоростью, близкой к скорости света, и сталкиваются друг с другом в зонах взаимодействия, находящихся под тщательным контролем экспериментаторов. Сооружение этой установки под названием Большого адронного коллайдера (Large Hadron Collider, LHC), построенной в Европейском центре ядерных исследований в швейцарском городе Женеве, стоило более 6 млрд долларов. Даже размеры этого титанического научного прибора поражают воображение: длина его кольца составляет около 27 км, а каждый из двух основных детекторов, которые, собственно, и производят наблюдения и измерения столкновений частиц, имеет около 50 м в длину, 25 м в высоту и 25 м в ширину.
Весь этот проект в целом представляет собой беспрецедентное техническое достижение, а полученная в его результате информация далеко опережает по объемам любые большие данные – ничто другое даже приблизительно с ней не сравнится. Каждую секунду происходит около 600 миллионов столкновений, за которыми следят около 150 миллионов индивидуальных датчиков в каждом из детекторов. Это дает около 150 миллионов петабайт данных в год, или около 150 эксабайт в сутки (как мы помним, байт – это базовая единица информации). Попробуем осознать, что́ означают эти цифры. Созданный в редакторе Word документ, содержащий весь текст этой книги и все ее иллюстрации, занимает менее 20 мегабайт (20 МБ – это 20 млн байт). В моем компьютере MacBook Air можно сохранить до 8 гигабайт данных (8 ГБ – это 8 млрд байт). Все фильмы, хранящиеся в системе Netflix, занимают менее 4 петабайт, что равно 4 млн ГБ, то есть приблизительно в полмиллиона раз больше, чем емкость моего компьютера. Дальше – больше: суммарный объем данных, производимых за каждые сутки всеми компьютерами и другими информационными устройствами в мире, вместе взятыми, составляет около 2,5 эксабайта, а один эксабайт равен 1018 байт, то есть миллиарду гигабайт.