Покерные боты пытаются обойти эту проблему, перед началом игры «заучивая» набор стратегий. Но в реальной жизни игрокам приходится осваивать стратегии во время игры. Экономисты предположили, что при выборе стратегии люди руководствуются «мотивацией, основанной на опыте», – попросту повторяют те действия, которые в прошлом принесли им успех. Галла и Фармер заинтересовались: помогает ли модель обучения приблизиться к равновесию Нэша в сложных играх. Кроме того, им хотелось посмотреть, что происходит, если игра не «выравнивается» до оптимального результата. Какую модель поведения мы будем наблюдать в данном случае?
Галла и Фармер разработали игру, в которой двум участникам-компьютерам предлагался выбор из 50 возможных ходов. В зависимости от выпавшей комбинации каждый получал вознаграждение, определявшееся случайным образом перед началом игры. От размера вознаграждения зависело, насколько напряженной будет борьба. Приз присуждался либо по принципу нулевой суммы (потери одного игрока равнялись выигрышу второго), либо был одинаковым для обоих соперников. Память игроков настраивалась таким образом, чтобы в одних играх они «запоминали» все свои предыдущие ходы, а в других – только несколько последних.
Ученые увидели, что игроки с разными заданными уровнями конкуренции и памяти постепенно меняют стратегию и учатся делать все более выгодные ходы. Запрограммированные на слабую память, они снова и снова повторяли одни и те же решения и часто доходили до того, что принимались «обезьянничать» друг у друга. Но если игроки обладали хорошей памятью и играли в условиях жесткой конкуренции, то начинали происходить весьма любопытные события. Принимаемые соперниками решения не стремились к равновесию, напротив, бешено варьировались. Они вели себя непредсказуемо, как шарик рулетки, движение которого студентом пытался изучать Фармер. Ученые заметили: чем больше было число участников, тем чаще они принимали решения безо всякой системы. Судя по всему, в сложных играх предугадать выбор игроков практически невозможно.
Ученые отметили и другие поведенческие паттерны, в том числе те, что ранее наблюдались в реальных играх. Когда в начале 1960-х математик Бенуа Мандельброт изучал финансовые рынки, он обнаружил, что периоды увеличения или уменьшения волатильности (статистического показателя, характеризующего изменчивость цен) на рынках акций имеют тенденцию собираться в кластеры. «Большие изменения следуют за большими изменениями, – отметил он, – а мелкие – за мелкими». Возникновение «кластеризации волатильности» волнует умы экономистов и по сей день. Галла и Фармер наблюдали в своей игре тот же феномен. Они предположили, что этот паттерн – просто следствие того, что множество людей пытаются изучать сложную структуру финансовых рынков.
Конечно, в своей работе Галла и Фармер сделали несколько допущений касательно процесса обучения и структуры игры. Но даже если их выкладки не совпадают с реальностью, игнорировать их не следует. «Даже если жизнь покажет, что мы ошибаемся, – заявили ученые, – мы надеемся, что, доказывая нашу неправоту, другие исследователи больше узнают о типичных свойствах реальных игр».
Теория игр позволяет определить оптимальную стратегию, но в ситуациях, когда игроки склонны ошибаться или только учатся, она может оказаться не лучшим помощником. Создатели Chinook знали это и именно поэтому научили программу выбирать стратегии, подталкивавшие соперников к промахам. Знал это и Крис Фергюсон. За покерным столом он не только применял теорию игр, но и внимательно наблюдал за «языком тела» своих оппонентов, меняя тактику, если они выказывали признаки нервозности или неуверенности. Игроки должны уметь прогнозировать поведение не только идеального противника – они должны прогнозировать поведение любого противника.
Как мы увидим из следующей главы, сегодня ученые уделяют все больше внимания искусственному интеллекту и его обучению. Некоторые исследователи занимаются этим уже много лет. В 2003 году мастер покера сразился с одним из лучших на тот момент покерных ботов. Бот умел принимать решения, руководствуясь теорией игр, но прогнозировать поведение своих противников он был не в состоянии. После игры человек сказал создателям бота: «Вы сделали очень сильную программу. Если вы научите ее моделировать поведение соперника, она побьет всех».
7
Портрет противника
В 2011 году несомненными чемпионами интеллектуальной телевикторины «Jeopardy!» стали Кен Дженнингс и Брэд Руттер. Руттер получил наибольший призовой фонд, а Дженнингс поставил рекорд, ни разу не проиграв за 74 передачи. На двоих они выиграли пять миллионов долларов – и все благодаря своей эрудиции.
В День святого Валентина Дженнингса и Руттера пригласили принять участие в специальном выпуске программы. Их ожидал новый противник, новичок по имени Уотсон. Все три тура игры участники отвечали на вопросы по литературе, истории, музыке и спорту. Вскоре новичок вырвался в лидеры. С темой «Назови десятилетие» у Уотсона возникли проблемы, но на вопросы про «Битлз» и историю Олимпийских игр он давал точные ответы. В последние минуты Дженнингс обошел соперников, но не сумел удержать первенство. К концу игры Уотсон заработал более 77 тысяч долларов – больше, чем оба его противника вместе взятые. А Руттер впервые за всю историю своего участия в «Jeopardy!» проиграл.
Сам Уотсон победе не радовался – в отличие от его создателей. Компьютер IBM, названный в честь основателя компании Томаса Уотсона, появился на свет в результате семи лет работы. Замысел родился в 2004 году во время корпоративного обеда. За столом внезапно повисла тишина, и виной тому, как без труда заметил руководитель отдела научных исследований Чарльз Ликел, был висевший на стене телеэкран. Коллеги Ликела, все как один, смотрели на Кена Дженнингса, триумфально побеждавшего в «Jeopardy!». Ликел понял, что викторина может послужить отличной испытательной площадкой для продукции IBM. Подобный опыт у компании уже был: в 1997 году шахматный компьютер Deep Blue победил гроссмейстера Гарри Каспарова. Но в «Jeopardy!» машины еще не играли.
Чтобы победить в викторине, игрокам необходимы смекалка, эрудиция и умение играть словами. Шоу представляет собой блиц-опрос наоборот: участники слышат ответ и должны назвать ведущему вопрос. Например, если ответ: «5280», то вопрос будет: «Сколько футов содержится в миле?»
Финальная версия Уотсона использовала десятки приемов для интерпретации ответов и поиска правильных вопросов. Программа имела доступ к полной версии Википедии и работала на основе процессоров стоимостью три миллиона долларов.
Умение анализировать человеческую речь и «жонглировать» информацией полезно не только на телевидении. С тех пор как Уотсон одержал победу в «Jeopardy!», IBM усовершенствовала программу, которая сегодня применяется для работы с медицинскими базами данных и помогает врачам принимать решения в сложных ситуациях. Банки планируют привлечь Уотсона к работе с клиентами, а университеты надеются, что он будет отвечать на вопросы студентов. Уотсон изучает даже кулинарные книги и советует шеф-поварам новые комбинации вкусов. В 2015 году IBM собрала некоторые результаты его трудов в «Когнитивно-вычислительную поваренную книгу», где есть рецепты таких необычных блюд, как, например, буррито с шоколадом, корицей и зелеными бобами.