Число сетевых устройств, имеющихся сейчас в мире, более чем в два раза превышает общую численность населения Земли, а суммарная площадь их экранов такова, что на каждого человека приходится более 900 кв. см. Мы в самом деле вступили в эпоху больших данных. Объем сохраняемой и передаваемой информации продолжает экспоненциально расти. И все это началось в последнее десятилетие или около того, что служит еще одним ярким проявлением ускорения темпа жизни. Пришествие больших данных провозглашалось в сопровождении громких и преувеличенных обещаний, из которых следовало, что они-то и избавят нас от всех надвигающихся проблем во всех областях, от здравоохранения до урбанизации, и в то же время обеспечат еще более высокий уровень жизни. Нужно только измерять и контролировать все на свете и загружать данные в огромные компьютеры, а те как по волшебству будут выдавать нам ответы и решения, и тогда все наши проблемы и затруднения будут преодолены, и мы поголовно будем счастливы. Эта развивающаяся парадигма хорошо вписывается в захлестывающий нас поток «умных» устройств и методик, которые все в большей степени господствуют в нашей жизни. «Умным» теперь непременно должно быть все новое, будь то умные города, умная медицина, умные термостаты, умные телефоны, умные карты или даже умная упаковка.
Данные – это хорошо, а много данных – еще лучше: таково кредо, которое большинство из нас, особенно если речь идет об ученых, воспринимает как нечто само собой разумеющееся. Но в основе этой веры лежит идея о том, что увеличение количества данных приводит к более глубокому пониманию фундаментальных механизмов и принципов, которое позволило бы построить на прочном основании более правдоподобные предсказания и более точные модели и теории, подлежащие дальнейшим проверкам и уточнениям. Данные ради данных, бездумное накопление больших данных без концептуальной основы для их организации и понимания может быть занятием неправильным и даже опасным. Заключения, основанные на одних только данных или даже на математической аппроксимации данных без глубинного понимания механизмов, которые их порождают, могут быть обманчивыми и приводить к ошибочным выводам и непредвиденным последствиям.
Это предостережение тесно связано со старой максимой, согласно которой «корреляция не означает причинности». Само по себе наличие сколь угодно точной корреляции между двумя наборами данных не говорит о том, что одни из них являются причиной других. Имеется множество причудливых примеров, иллюстрирующих это положение
[182]. Например, в течение одиннадцатилетнего периода с 1999 по 2010 г. колебания суммарного объема расходов на научные исследования, космические разработки и технологическое развитие в США почти точно повторяли колебания числа самоубийств через повешение и удушение. Чрезвычайно маловероятно, чтобы между этими явлениями существовала какая бы то ни было причинно-следственная связь: сокращение расходов на науку явно не могло быть причиной уменьшения числа повесившихся. Однако во многих случаях такой вывод бывает не столь очевидным. В общем случае корреляция часто бывает важным признаком наличия причинно-следственной связи, но подтверждено оно может быть только после дальнейшего изучения и построения модели механизмов такой связи.
Это особенно важно в медицине. Например, содержание липопротеинов высокой плотности (ЛВП) – которые часто называют «хорошим холестерином» – в крови имеет обратную корреляцию с частотой возникновения инфарктов, из чего можно заключить, что прием лекарств, повышающих уровень ЛВП, должен снижать вероятность инфаркта. Однако данные, свидетельствующие в пользу такой стратегии, неоднозначны: по-видимому, искусственное повышение уровня ЛВП не приводит к улучшению состояния сердечно-сосудистой системы. Это может быть связано с воздействием других факторов – например, генетической предрасположенности, диеты и физической нагрузки, – которые влияют одновременно и на уровень ЛВП, и на вероятность возникновения инфаркта, между которыми может и не быть прямой причинно-следственной связи. Возможно даже, что причинная связь действует в обратном направлении и здоровое состояние сердечно-сосудистой системы приводит к повышению уровня ЛВП. Выявление преимущественных причин инфарктов явно требует организации широкомасштабной исследовательской программы, включающей в себя сбор больших объемов данных в сочетании с развитием моделей механизмов воздействия каждого из факторов – генетических, биохимических, диетологических и экологических. И действительно, на осуществление этой стратегии выделяются огромные средства в разных отраслях медицины.
Большие данные в первую очередь следует рассматривать в следующем контексте: появившиеся сейчас дополнительные возможности «умных» устройств, позволяющих собирать огромные объемы существенных данных, могут усилить классический научный метод, предполагающий кропотливый анализ, развитие моделей и концепций, предсказания которых можно проверить и использовать для разработки новых методик и стратегий. Центральный элемент этой парадигмы состоит в том, что именно непрерывное совершенствование моделей определяет, какие именно данные, в каком количестве и с какой точностью важнее всего получить. Выбор переменных, которые мы рассматриваем и измеряем для получения данных, не случаен – он определяется прошлыми успехами и неудачами в контексте развивающейся концептуальной системы. Наука не сводится к случайным поискам вслепую.
Пришествие больших данных породило сомнения в этом классическом мировоззрении. В 2008 г. в журнале Wired появилась крайне полемическая статья под названием «Конец теории: потоп данных приводит к устареванию научного метода» (The End of Theory: The Data Deluge Makes the Scientific Method Obsolete), в которой тогдашний редактор этого журнала Крис Андерсон писал:
Ставшие сейчас доступными огромные объемы данных в сочетании со статистическими методами, позволяющими обрабатывать эти цифры, открывают совершенно новые пути понимания мира. Корреляция важнее, чем причинность, и наука может двигаться вперед даже и без непротиворечивых моделей, объединенных теорий или, собственно говоря, вообще каких-либо механистических объяснений… при наличии массы данных такой подход к научным исследованиям – гипотеза, модель, проверка – оказывается устаревшим. ‹…› Отбросим все теории человеческого поведения, от лингвистических до социологических. Забудем таксономию, онтологию и психологию. Как знать, почему люди ведут себя именно так, а не иначе? Важно то, что они ведут себя именно так, и мы можем отслеживать и измерять их поведение с беспрецедентной точностью. При наличии достаточного количества данных цифры говорят сами за себя. ‹…› Сегодня компании вроде Google, выросшие в эпоху доступности огромного количества данных, могут не довольствоваться ошибочными моделями. Собственно говоря, модели им вообще не нужны. ‹…› Нет никаких причин цепляться за старые методы. Пора спросить: чему Google может научить науку?
Я не собираюсь отвечать на этот вопрос; замечу только, что такая радикальная точка зрения становится более или менее господствующей повсюду в Кремниевой долине, в сфере информационных технологий и, все в большей степени, в деловом сообществе. В несколько менее бескомпромиссном варианте она также быстро приобретает популярность и в научных кругах. За последние несколько лет почти во всех университетах окрылись хорошо финансируемые центры или институты, посвященные работе с большими данными и в то же время уделяющие должное внимание другому модному слову – междисциплинарности. Например, Оксфордский университет только что создал в новом, привлекательном, «соответствующем последнему слову техники» здании собственный Институт больших данных (Big Data Institute, BDI). Вот что было сказано по этому поводу: «Работа этого междисциплинарного исследовательского центра будет сосредоточена на анализе больших, сложных, разнородных массивов данных для исследования причин и следствий, профилактики и лечения болезней». Это, несомненно, чрезвычайно достойная задача, несмотря на отсутствие упоминаний о развитии теорий или концепций.