Вначале, поскольку компьютер просто пробовал случайные ходы, его игра была ужасна; он почти не набирал очков. Но каждый раз, когда очередной случайный ход приводил к увеличению счета, программа запоминала этот ход и более активно использовала его в дальнейшем. Постепенно случайные ходы прекратились, и стал проявляться более обоснованный рисунок игры – ходы, которые, как программа выяснила на опыте, по-видимому, способствовали росту счета.
Видеоролик, который сотрудники DeepMind приложили в качестве иллюстрации к написанной впоследствии статье об этой работе, стоит посмотреть. В нем показано, как программа учится играть в Breakout. Сначала видно, как она случайным образом двигает ракетку взад и вперед, чтобы посмотреть, что из этого выйдет. Затем, когда шарик наконец попадает в ракетку, отскакивает от нее и разбивает кирпичик, отчего увеличивается счет, программа начинает переписывать самое себя. По-видимому, соприкосновение пикселей ракетки с пикселями шарика приносит положительный результат. После 400 партий программа играет уже по-настоящему сильно: ракетка постоянно отправляет шарик то туда, то сюда.
Но настоящий шок я испытал, когда увидел, что она открыла, сыграв 600 партий. Она нашла нашу лазейку! Не знаю точно, сколько партий потребовалось сыграть нам в детстве, чтобы освоить этот фокус, но, судя по количеству времени, которое потратили мы с другом, их вполне могло быть и больше. И вот тебе на. Манипулируя ракеткой, программа стала пробивать по бокам туннели, чтобы шарик застревал в пространстве между верхом стены и верхним краем экрана. После этого счет начинает расти очень быстро, а компьютеру почти ничего не приходится делать. Насколько я помню, когда мы с моим другом открыли этот трюк, мы запрыгали от восторга. Машина же не ощутила ничего.
К 2014 году, через четыре года после создания DeepMind, программа научилась обыгрывать человека в двадцати девяти из сорока девяти игр для Atari, которые были ей предложены. Статья с подробным описанием достижений группы была опубликована в журнале Nature в начале 2015 года. Любая публикация в Nature считается одной из вершин карьеры ученого. Но эта статья удостоилась еще более высокой чести: она стала главной темой всего выпуска. Редакция журнала признала ее появление важным этапом в развитии искусственного интеллекта.
Стоит еще раз подчеркнуть, насколько поразительным было это достижение с точки зрения программирования. Программа, имевшая в своем распоряжении только сырые данные о состоянии пикселей и изменениях счета, прошла весь путь от случайных перемещений ракетки Breakout взад и вперед к пониманию того, что создание туннеля на краю стены позволяет добиться максимального счета. Но игры для Atari – далеко не ровня древней игре го. Хассабис и его коллеги по DeepMind решили, что готовы создать новую программу, которая могла бы взяться и за эту задачу.
Именно тогда Хассабис решил продать свою компанию Google. «Мы не собирались этого делать, но в течение трех лет я был настолько сосредоточен на поисках финансирования, что на исследования оставалось всего 10 % моего времени, – объяснял он в то время в интервью журналу Wired. – Я понял, что в одной жизни, наверное, не хватит времени и построить компанию размером с Google, и решить задачу создания ИИ. Чем я буду больше гордиться потом – созданием многомиллиардного дела или вкладом в раскрытие тайны разума? Выбор был очевиден». Благодаря этой продаже он получил в свое распоряжение всю мощь Google и возможность работать над созданием кода для достижения своей цели – разрешения проблемы го… а там и интеллекта.
Первая кровь
Предыдущие компьютерные программы, созданные для игры в го, не могли и приблизиться к уровню, достаточному для игры на равных даже против сильного любителя. Поэтому многие эксперты относились к мечте коллектива DeepMind создать программу, способную хотя бы отдаленно сравниться с мастерами международного класса, в высшей степени скептически. Большинство по-прежнему было согласно с мнением, которое высказал в газете New York Times в 1997 году, после шахматной победы компьютера DeepBlue, астрофизик Пит Хат: «До того как компьютер обыграет человека в го, пройдет, возможно, еще лет сто – а может быть, и больше. Любой более или менее умный человек, научившийся играть в го, через несколько месяцев сможет победить все существующие компьютерные программы. Для этого не надо быть Каспаровым».
Из этого столетия прошло всего двадцать лет, когда сотрудники DeepMind решили, что им, возможно, удалось решить эту задачу. Казалось, что их стратегия, по которой алгоритм должен был учиться и приспосабливаться, работает, но они не знали точно, насколько сильным получался этот алгоритм. Поэтому в октябре 2015 года они решили испытать свою программу в негласном состязании с чемпионом Европы того времени, родившимся в Китае игроком по имени Фань Хуэй.
Программа AlphaGo разгромила Фань Хуэя, выиграв все пять партий из пяти. Но между европейскими и дальневосточными игроками в го существует огромный разрыв. Лучшие из европейских игроков занимают места всего лишь в шестой сотне мирового рейтинга. Поэтому, хотя такая победа была впечатляющим достижением, ее можно было сравнить с результатом испытаний беспилотного автомобиля, который сумел обогнать на трассе Сильверстоун человека за рулем «форда-фиесты», а потом пытается состязаться с Льюисом Хэмилтоном в гонке «Формулы-1».
Во всяком случае, когда пресса дальневосточных стран узнала о поражении Фань Хуэя, она безжалостно и презрительно рассуждала о том, насколько неважной была победа AlphaGo. Когда появились известия о матче, жена Фань Хуэя даже звонила ему в Лондон и просила не выходить в интернет. Нечего и говорить, что он не устоял перед искушением. Чтение высокомерных отзывов комментаторов из родной страны, рассуждавших, что он не годится в достойные противники AlphaGo, было, разумеется, не слишком приятно.
Фань Хуэй утверждает, что вынес из матчей с AlphaGo новые идеи относительно игры. В следующие месяцы его рейтинг вырос: если до этого он занимал 633-е место, то теперь оказался в четвертой сотне. Но учился не только Фань Хуэй. Каждая партия, сыгранная AlphaGo, воздействует на программный код и изменяет его так, чтобы в следующей партии программа играла еще лучше.
Именно в этот момент коллектив DeepMind почувствовал достаточную уверенность в своих силах, чтобы бросить вызов корейцу Ли Седолю, восемнадцатикратному победителю чемпионатов мира, считавшемуся одним из самых грозных игроков в го.
Матч из пяти партий должен был пройти с 9 по 15 марта 2016 года в отеле Four Seasons в Сеуле и транслироваться в прямом эфире через интернет. Победитель получал приз миллион долларов. Хотя игра была назначена в общедоступном месте, точная информация о его расположении в отеле держалась в секрете, а само помещение было изолировано от шума, хотя AlphaGo, конечно, не помешали бы ни разговоры представителей прессы, ни перешептывания любопытных зрителей. Программа работает в состоянии идеальной дзеноподобной сосредоточенности, где бы она ни находилась.
Ли Седоля не беспокоило то обстоятельство, что ему предстоит играть против машины, победившей Фань Хуэя. После поражения Фань Хуэя он заявил: «Судя по тому уровню игры, который показала программа… я думаю, что выиграю матч с почти разгромным счетом».