До момента продажи прошло некоторое время, потому что мне нужно было многое взвесить. Но в итоге я убедился, что ресурсы Google – их вычислительные мощности и возможность создать большую команду – ускорят выполнение нашей миссии по разработке сильного ИИ. Дело было не в деньгах: инвесторы были готовы увеличить финансирование.
Ларри и другие сотрудники Google также увлечены ИИ и предоставили нам автономию в том, что связано с направлениями исследований и с нашей культурой; они согласились создать совет по этике, касающийся наших технологий. Кроме того, мы смогли остаться в Лондоне, что для меня было очень важно.
М. Ф.: Почему вы предпочли Лондон Кремниевой долине? Это связано с вами лично или с компанией?
Д. Х.: И со мной, и с компанией. Я родился и вырос в Лондоне и люблю этот город. Соседство Кембриджа и Оксфорда я считал конкурентным преимуществом. Причем тогда в Европе не было ни одной ставящей по-настоящему масштабные цели исследовательской компании, что давало нам высокие перспективы найма. К 2018 г. в Европе появилось несколько компаний, но мы были первыми, кто провел глубокие исследования в области ИИ. И мне кажется, что в таком деле должны принимать участие представители разных культур.
М. Ф.: Вы открываете лаборатории в европейских городах?
Д. Х.: Мы создали небольшую лабораторию в Париже, две лаборатории в Канаде – в Альберте и Монреале. После объединения с Google у нас появился офис в городе Маунтин-Вью, штат Калифорния.
М. Ф.: Насколько близко вы сотрудничаете с остальными ИИ-командами в Google?
Д. Х.: Над различными аспектами машинного обучения и ИИ в Google работают тысячи людей, которые занимаются как прикладными вопросами, так и исследованиями. Разумеется, все руководители групп знакомы друг с другом, и когда возникает такая необходимость, организуется сотрудничество. В отличие от остальных групп, DeepMind занимается исключительно сильным ИИ. У нас разработан долгосрочный план, базирующийся на данных о сути интеллекта и средствах его достижения, которые предоставляют нейробиологи.
М. Ф.: О вашей программе AlphaGo снят документальный фильм. Думаю, она дает решения всем играм для двух игроков с открытой информацией. Планируете ли вы перейти к играм со скрытой информацией?
Д. Х.: Скоро выходит новая, улучшенная версия программы AlphaZero. Действительно, можно сказать, что мы разработали универсальное решение для игр типа шахмат, го, сеги и т. п. И пора делать следующий шаг. Сейчас мы работаем над стратегической игрой для ПК StarCraft со сложным игровым пространством. Там нет статичного набора фигур, как в шахматах, потому что игроки строят свои юниты. Кроме того, присутствует скрытая информация, так называемый «туман войны». Игрок не видит фрагментов экрана, пока не исследует эту область.
Работа над играми – это тренировка. Игры не являются конечной целью; мы хотим построить общие алгоритмы, которые можно будет применять к реальным задачам.
М. Ф.: До сих пор вы в основном сочетали глубокое обучение и обучение с подкреплением. Это правда, что вы считаете обучение с подкреплением способом достижения сильного ИИ?
Д. Х.: Да, это так. Это очень мощный метод, но его нужно объединять с другими. Обучение с подкреплением известно давно, но применялось оно только для решения модельных задач из-за трудностей масштабирования. Во время работы в Atari мы добавили к нему глубокое обучение, которое отвечало за обработку экрана и моделирование среды игры, и подошли к решению более крупных задач в программе AlphaGo и системе DQN. Все эти вещи лет десять назад считались невозможными.
Мы одна из немногих компаний, которые относятся к обучению с подкреплением серьезно, потому что основываемся на представлении о нем в нейробиологии. Речь идет о так называемом обучении на основе временных разностей, или TD-обучении (temporal difference learning). Оно реализуется благодаря системе выработки дофамина. Синтезирующие дофамин нейроны в случае ошибок снижают уровень его выработки, что заставляет в будущем избегать подобных ситуаций, то есть учиться на ошибках. В ответ же на положительные стимулы выработка дофамина увеличивается. Это принцип работы мозга – единственного известного нам примера интеллекта. Возможно, существуют и другие пути, но с точки зрения биологии кажется, что достаточно научиться масштабировать обучение с подкреплением.
М. Ф.: Но ведь когда ребенок учится говорить или познает мир, ни о каком обучении с подкреплением речи не идет. Это обучение без учителя – наблюдение или случайные взаимодействия с окружающей средой.
Д. Х.: Ребенок учится множеством способов: обучение с учителем реализуется при помощи родителей, учителей или сверстников, а экспериментируя с окружающим миром, дети учатся без учителя. Когда ребенок получает похвалу, это уже обучение с подкреплением. Мы работаем над всеми тремя вариантами. Обучение без учителя чрезвычайно важно. Вопрос в том, существует ли внутренняя, эволюционно заложенная мотивация, которая в конечном итоге обеспечивает вознаграждение при обучении без учителя? Есть доказательства того, что сам процесс получения информации воспринимается мозгом как вознаграждение. Имеет место также поиск новизны. Новые впечатления приводят к выработке дофамина.
М. Ф.: Я почувствовал, как глубоко вы интересуетесь нейробиологией и computer science. Сказывается ли это на подходах, которые используются в DeepMind?
Д. Х.: Да, я получил образование в обеих областях. В компании DeepMind больший упор делается на машинное обучение. При этом самая большая группа, возглавляемая профессором Принстонского университета Мэттом Ботвинником, состоит из нейробиологов.
Проблема в том, что нейробиология – обширная область, и если специалист по машинному обучению обратится к ней по какому-либо вопросу, он просто запутается в огромном массиве информации. Многие говорят, что исследования ИИ базируются на нейробиологии, но не могут объяснить, как это происходит. Существуют две крайности. В проекте Blue Brain делаются попытки смоделировать мозг на уровне коры…
М. Ф.: Это проект, который возглавляет Генри Маркрам?
Д. Х.: Да. Там пытаются реконструировать колонки кортекса. Это может быть интересно с точки зрения нейробиологии, но, на мой взгляд, это не самый эффективный путь к созданию ИИ. Все происходит на слишком низком уровне. Мы же в DeepMind пытаемся понять мозг на уровне систем и алгоритмов, которые он реализует, и возможностей, функций и представлений, которые он использует. Нас не интересует точное устройство человеческого мозга. Нет никакой причины создавать компьютерную модель, точно копирующую, например, образование новых нейронов гиппокампа. Но очень интересно, каким способом реализуются функции, за которые он отвечает: эпизодическая память и ориентация в пространстве.
М. Ф.: Самолеты летают, как и птицы, но при этом им не приходится хлопать крыльями.
Д. Х.: Прекрасная аналогия. Да, можно сказать, что мы в DeepMind как бы пытаемся понять принципы аэродинамики, наблюдая за полетом птиц, чтобы потом абстрагироваться от деталей этого полета и создать самолет. До изобретения аэродинамического профиля были только безуспешные попытки использовать деформируемые крылья. Мы поняли, что мозг масштабирует обучение с подкреплением, и ведем разработки в этом направлении. Важно научиться сужать пространство поиска. Этот момент часто упускают специалисты в области ИИ, игнорирующие нейробиологию.