Я часто думаю, что упомянутая трансформация — второй дар искусственного интеллекта человечеству, и в этой книге в основном рассуждаю об этом. Но сейчас, когда наша история подходит к завершению, пришло время вернуться назад и спросить: в чем же состоит первый дар, для материализации которого потребовалось неожиданно много времени? Приближаемся ли мы к моменту, когда компьютеры или роботы начнут понимать рассуждения о причинно-следственных связах? Способны ли мы создать искусственные интеллекты, не уступающие трехлетним детям в способности воображать? В этой завершающей главе я не предложу однозначных выводов, но поделюсь соображениями на эту тему.
Каузальные модели и большие данные
За последние годы объемы необработанных данных, которые мы собрали, занимаясь наукой, бизнесом, государственным управлением и даже спортом, вырос в невероятных масштабах. Возможно, эти перемены очевиднее всего тем, кто использует Интернет и социальные сети. Сообщалось, что в 2014 году «Фейсбук» хранил 300 петабайт данных о 2 миллиардах пользователей, или 150 мегабайт данных на каждого пользователя. Игры, в которые играют люди, товары, которые они, вероятно, купят, имена всех их друзей в «Фейсбуке» и, конечно, видео с котиками — все это остается в благословенном океане нулей и единиц.
Распространение огромных баз данных в науке не так очевидно для широкой публики, но не менее важно. Например, для проекта «1 000 геномов» было собрано двести терабайт информации и размещено в так называемом крупнейшем публичном каталоге генетических вариаций. В Архиве космических телескопов имени Барбары Микульски, созданном НАСА, накоплено 2,5 петабайта данных, относящихся к нескольким исследованиям глубокого космоса. Но большие данные повлияли не только на передовую науку, они проникли во все сферы научного знания. Всего одно поколение назад морской биолог мог потратить месяцы, чтобы определить численность любимого вида. Теперь у того же биолога есть моментальный доступ к миллионам единиц информации о рыбе, ее икре, содержимом ее желудка и о чем угодно еще. Вместо того чтобы вести учет, биолог расскажет историю.
Для нас важнее вопрос, что идет дальше. Как извлечь смысл из всех этих чисел, битов и пикселей? Объемы данных могут быть гигантскими, но вопросы мы задаем простые. Этот ли ген вызывает рак легких? В каких солнечных системах вероятнее встретить планеты, похожие на Землю? Какие факторы сокращают популяцию нашей любимой рыбы и что с этим делать?
В определенных кругах существует почти религиозная вера в то, что ответы на все эти вопросы можно найти в самих данных, если достаточно хорошо провести их интеллектуальный анализ. Однако читатели этой книги обнаружат, что такая страстная убежденность не всегда имеет под собой основания. Вопросы, которые я только что задал, носят каузальный характер, и на них никогда нельзя ответить, ориентируясь только на информацию. От нас требуется подготовить модель процесса, генерирующего данные или, по крайней мере, каких-то ее аспектов. Всякий раз, когда вы видите статью или исследование, где данные анализируют без модели, вы можете быть уверены, что в итоге они будут просто обобщены и, возможно, трансформированы, но не интерпретированы.
Я не хочу сказать, что интеллектуальный анализ данных бесполезен. Он способен стать важнейшим первым шагом, который позволит найти интересные ассоциативные паттерны и точнее поставить вопросы для трактовки. Теперь можно не спрашивать, существуют ли гены, вызывающие рак легких. Вместо этого достаточно просканировать геном и найти гены, у которых высокая корреляция с раком легких (как в примере с Большим, описанном в главе 9). Потом ставится вопрос, вызывает ли этот ген рак легких (и каким образом). Мы никогда бы не задали вопрос об этом гене, если бы у нас не было интеллектуального анализа данных. Однако, чтобы пойти дальше, необходимо разработать причинную модель, уточняющую, например, на какие переменные воздействует ген, какие здесь возможны осложнители и какие иные причинные пути способны достичь этого результата. Интерпретация данных подразумевает выдвижение гипотез о том, как все происходит в реальном мире.
Еще одна роль больших данных в задачах для причинного вывода открывается в механизме причинного анализа, описанном во вступлении, на последнем этапе его работы (шаг 8), где мы переходим от оцениваемой величины к оценке. Эта стадия статистической оценки принимает нетривиальный оборот, когда число переменных велико, и только современные технологии интеллектуального анализа данных и машинного обучения помогут справиться с проклятием многомерности. Это объясняет, почему большие данные и причинный вывод сегодня играют важнейшую роль в развивающейся персонализованной медицине. Здесь мы пытаемся извлечь выводы из прошлого поведения группы индивидов, как можно более похожих по максимальному набору параметров на данного конкретного человека. С помощью причинного вывода мы отбрасываем нерелевантные характеристики и извлекаем этих индивидов из разнообразных исследований, в то время как большие данные позволяют собрать о них достаточно информации.
Легко понять, почему некоторые люди считают интеллектуальный анализ данных финальным, а не первым шагом. Он обещает решение с использованием имеющихся технологий. Он избавляет и нас, и машины будущего от необходимости рассматривать и формулировать обоснованные предположения о том, как устроен мир. В некоторых областях наши знания находятся в таком зачаточном состоянии, что мы понятия не имеем, как приступить к созданию модели мира. Но большие данные не решат эту проблему. Важнейшая часть ответа должна исходить из модели, нарисованной нами или предложенной и уточненной машинами.
Чтобы не показаться излишне критичным по отношению к работе с большими данными, я хотел бы упомянуть одну новую возможность для их симбиоза с причинным выводом. Она называется транспортабельностью.
Благодаря большим данным мы можем получить доступ к огромному количеству не только людей в любом конкретном эксперименте, но и исследований, проведенных в разных местах и в различных условиях. Часто нам нужно объединить результаты этих исследований и перенести их на новые группы населения, которые могут отличаться даже в том, что будет для нас неожиданным.
Процесс перевода результатов исследования из одних условий в другие играет в науке фундаментальную роль. Фактически научный прогресс остановился бы, если бы у нас не было способности обобщать результаты лабораторных экспериментов и переносить их в реальный мир, например из пробирок на животных и на людей. Но до недавнего времени каждой науке приходилось разрабатывать собственные критерии для отделения валидных обобщений от невалидных, а систематических методов для решения проблемы транспортабельности в целом не существовало.
За последние пять лет мне и моему бывшему студенту (теперь коллеге) Элиасу Барейнбойму удалось найти исчерпывающий критерий, чтобы принять решение о том, переносимы ли результаты. Как обычно, необходимое условие для его использования — представить процесс генерации данных в виде диаграммы причинности, на которой отмечены места потенциальных несоответствий. Переносить результат не обязательно означает принимать его в исходной форме и применять в новой среде. Исследователю, возможно, придется откалибровать его, чтобы учесть различия между двумя средами.