Лето 1992 года застало Зигмунда и Новака глубоко опечаленными: их обоих угнетало отсутствие устойчивого решения дилеммы заключенного — а такие вещи теоретики игр не любят. Впрочем, судьба распорядилась так, что жене Зигмунда, историку по профессии, предстояло провести несколько месяцев в Нижней Австрии в сказочном замке Розенбург, принадлежавшем графу, чьих предков она в то время изучала. Зигмунд пригласил Новака: они привезли с собой пару ноутбуков и с головой погрузились в турниры по дилемме заключенного. В замке обучали ловчих птиц, и днем наших математиков каждые два часа отвлекали соколы: отрабатывая технику полета, они то камнем падали вниз с высоты 300 метров, то взмывали вверх. Средневековое окружение идеально подходило для организованных внутри компьютеров поединков!
Зигмунд и Новак вернулись к самому началу и внесли в турнирные таблицы все ранее отвергнутые стратегии. Главной целью поисков стал вариант, который бы не только выиграл турнир, но и остался стабильным после него. Кроме того, они наделили своих игроков большей памятью. Вместо того, чтобы реагировать на последний ход партнера, как делает «Око за око», новые стратегии помнили собственные предыдущие ходы и действовали соответственно. И вот однажды, пока мимо окна носились соколы, на исследователей снизошло вдохновение. Раз за разом лидировала старая стратегия, впервые испробованная — кем же еще? — Анатолем Рапопортом. Последний назвал ее «Простаком» и, сочтя безнадежной, отбросил. Дело в том, что он поставил ее против «Всегда предавай», по сравнению с которой та и впрямь выглядела довольно наивной. Однако в мире Новака и Зигмунда, в котором господствовала «Око за око», «Простак» не только превзошел старого профи, но и оказался непобедимым впоследствии. Хотя он не может самостоятельно победить «Всегда предавай», стоит «Око за око» эту стратегию исключить, как он оказывается в центре внимания. И снова «Око за око» играет роль Иоанна Крестителя.
Другое название стратегии «Простак» — «Павлов». Хотя, по мнению некоторых, это еще более обманчиво, ибо рефлексивной данная стратегия не является — как раз наоборот. Новак признает, что ему следовало дать ей более неуклюжее, зато и более точное имя «Победа — повторяй/поражение — меняй». Но, поскольку он так этого и не сделал, «Павловым» она и осталась. Эта стратегия — сродни игроку в рулетку (точнее, несколько упрощенной его версии). Если он выигрывает, поставив на красное, то ставит на красное и в следующий раз. А если проигрывает, то пробует черное. В нашем случае выигрыш — 3 или 5 очков («награда» и «искушение»), проигрыш — 1 или о («наказание» и «штраф простофиле»). Такой принцип — отказ менять свое поведение, пока оно дает желаемый результат, — лежит в основе большей части повседневной деятельности, включая дрессировку собак и воспитание детей. Последнее целиком и полностью построено на допущении, что малыши будут совершать поступки, за которые их вознаграждают, и прекратят делать то, за что их наказывают.
Такой принцип — отказ менять свое поведение, пока оно дает желаемый результат, — лежит в основе большей части повседневной деятельности, включая дрессировку собак и воспитание детей.
Для стратегии «Павлов» характерна добропорядочность (как «Око за око») — ибо она устанавливает сотрудничество, взаимность — ибо она отвечает добротой на доброту, и прощение (как «Великодушной») — ибо она наказывает за ошибки, но потом вновь возвращается к сотрудничеству. При всем этом ей свойственна мстительность, позволяющая эксплуатировать таких наивных кооператоров, как «Всегда сотрудничай». Играя против простофили, «Павлов» всегда предает. Таким образом, он создает сотрудничающий мир, не позволяя последнему превратиться в слишком доверительную утопию, где будут процветать «халявщики».
Слабое место этой стратегии хорошо известно. Как обнаружил Рапопорт, она беспомощна перед непорядочной «Всегда предавай». «Павлов» постоянно смещается к сотрудничеству и получает «штраф простофиле» — отсюда, кстати, и ее первоначальное название «Простак». Иными словами, «Павлов» не может распространиться, пока «Око за око» не сделает свое дело и не устранит «плохих ребят». Впрочем, Новак и Зигмунд обнаружили, что такой изъян «Павлова» проявляется исключительно в детерминированной игре — той, в которой все стратегии определены заранее. В более реалистичном мире вероятностей и обучения, где каждая стратегия бросала кубик, чтобы решить, как поступить дальше, происходило нечто совершенно иное. «Павлов» быстро приспособил вероятности таким образом, что его превосходство больше не могло быть оспорено «Всегда предавай». Вот она, подлинная эволюционно стабильная стратегия74.
Рыбьи игры: кто струсит первым?
А используют ли стратегию «Павлов» животные или люди? Пока Новак и Зигмунд не опубликовали свои идеи, одним из лучших примеров «Око за око» в животном мире являлся эксперимент Манфреда Милински с рыбой колюшкой. Ее и другую мелкую рыбешку ест щука. Стоит той появиться поблизости, как от косяка отделяется разведгруппа, которая осторожно приближается, оценивая представляемую хищником опасность. Эта явная глупая отвага должна чем-то оправдываться. Натуралисты полагают, что она дает потенциальной добыче ценную информацию. Если, например, разведчики приходят к выводу, что щука не голодна, косяк преспокойно продолжает кормиться дальше.
Когда две колюшки одновременно изучают хищника, они продвигаются вперед серией коротких рывков — причем каждый раз инициативу проявляет только одна рыбка, которая, следовательно, берет на себя основной риск. Если щука шевельнется, обе бросаются наутек. Согласно Милински, подобное поведение, по сути, представляет собой серию маленьких дилемм заключенного. Каждая рыбка должна выбрать либо «сотрудничество», сделав следующий рывок вперед, либо «предательство», предоставив дальнейшее продвижение партнеру. С помощью хитроумной системы зеркал Милински предоставлял каждой рыбке видимого компаньона (на самом деле, это было ее собственное отражение). По мере приближения к щуке «компаньон» либо держался рядом, либо все больше и больше отставал. Сначала исследователь истолковал полученные результаты с точки зрения стратегии «Око за око»: рыбка-испытуемая вела себе смелее с сотрудником, чем с предателем. Но, услышав о стратегии «Павлов», он вспомнил: в ситуации, когда ранее сотрудничавший компаньон начинал предавать, рыбка-испытуемая постоянно переключалась с сотрудничества на предательство и обратно — как и подразумевает стратегия «Павлов» и не подразумевает «Око за око».
Разумеется, считать рыб изощренными приверженцами теории игр может показаться совершеннейшим абсурдом, однако теория вовсе не требует, чтобы исследуемые понимали то, что делают. Реципрокность может возникнуть даже в полностью лишенном сознания автомате — при условии его многократного взаимодействия с другими автоматами в ситуации, похожей на дилемму заключенного. Что и доказывают компьютерные симуляции. Выработка стратегии — задача не рыбы, а эволюции, которая затем может запрограммировать ее в рыбьем поведении
Впрочем, «Павлов» — это еще не конец истории. Поскольку Новак переехал в Оксфорд, Кембридж, разумеется, не мог остаться в стороне: рано или поздно кто-то должен был принять вызов и победить эту стратегию. Таким человеком оказался Маркус Фрин: он представил более реалистичную версию игры, не требующую от участников делать ходы одновременно. Летучие мыши, например, оказывают друг другу услуги по очереди. Собственно, обмениваться кровью шутки ради — довольно бессмысленно. Фрин провел в своем компьютере турнир по «очередной дилемме заключенного» и таки нашел стратегию, победившую «Павлова» и получившую название «Строгая, но справедливая». Как и «Павлов», она сотрудничает с сотрудничающими, возвращается к этому после обоюдного предательства и наказывает предателя дальнейшим предательством. Однако, в отличие от «Павлова», «Строгая, но справедливая» продолжает сотрудничать после того, как в предыдущем раунде оказалась простофилей. Следовательно, она немного «добрее».