Такие механизмы поведения весьма характерны для множества культур. В качестве примера Аксельрод указывает на обычай кровной мести, распространенный, например, в Албании и на Ближнем Востоке, когда вражда кланов и убийства продолжаются во многих поколениях даже тогда, когда исходные причины конфликта давно забыты. Ужасные примеры затухающей и вновь вспыхивающей ненависти и вражды можно наблюдать сейчас в Северной Ирландии, где десятилетиями продолжается жестокий конфликт между католиками и протестантами, а также на Ближнем Востоке, где постоянно рушатся любые попытки установления мира между Израилем и Палестиной.
Из этого ясно, что стратегия TFT вовсе не гарантирует установления гармонии и мира.
Более того, предлагаемая стратегия вовсе не является наилучшей для поведения в окружающем нас мире, где ошибки и недоразумения возникают практически всегда. Это стало очевидным после следующего турнира, организованного Аксельродом, в котором допускалась возможность ошибки игроков. То есть иногда игроки выбирали свой ход случайным образом, не следуя правилам собственной стратегии. Когда доля таких ошибок (уровень «шума») достигала 10%, стратегия TFT не становилась более победительницей. Причем результаты ее игры против аналогичной программы оказывались даже хуже, чем при игре с программами, основанными на смешанной стратегии, поскольку случайные ошибки загоняли TFT-игроков в бесконечные циклы возмездия.
Безнадежность возникшей ситуации вынудила экспериментаторов искать модификации модели. Одной из таких модификаций стала стратегия «Великодушная» TFT (GTFT), в которой прощается определенная часть обманов (прощение в данном случае означает продолжение политики сотрудничества в следующем раунде). В другом варианте, «Кающейся» TFT (CTFT), прощается обман, следующий за србственным обманом, — демонстрация смирения перед заслуженным наказанием. Стратегия GTFT побеждала всех своих противников при уровне «шума» до 1%, стратегия CTFT занимала при этом шестое место. При более высоком уровне «шумов» CTFT превосходила GTFT.
В стратегии «зуб за два зуба» (TFTT) решение о возмездии принималось лишь после двух последовательных обманов противника, что служило подтверждением плохих намерений, а не случайной ошибки. Эта модель была предложена биологом-эволюционистом Джоном Мейнардом Смитом, во втором турнире Аксельрода она заняла лишь 24-е место. Мейнард Смит не участвовал в первом турнире, но там его программа наверняка стала бы победительницей, потому что некоторые участвовавшие в том турнире программы нейтрализовали программу TFT бесконечной цепью взаимных возмездий (напомним, что эта ловушка может возникать даже в отсутствие ошибок). Это лишнее подтверждение того, что в этой игре не существует наилучшей стратегии.
Еще одна хорошо работающая при случайных ошибках, но менее великодушная стратегия была предложена в 1988 году (но разработана раньше, как мы увидим далее) двумя исследователями из Северной Каролины, Дэвидом Крейнсом (университет Дьюка) и Вивиан Крейне (Мередит-кол- ледж). Авторы назвали свою модель «Павлов», а ее стратегия сводится к абсолютному оппортунизму, или: победил — так держать, проиграл — все менять. Подобно основному варианту TFT действия программы зависят от того, что случилось в предыдущем раунде. Если результат был хорошим, то делается тот же ход, в противном случае — противоположный. Определение хороший в данном случае означает как награду за сотрудничество, так и удачный обман. Короче говоря, в модели «Павлов» поведение сохраняется, если за свои действия программа получает какое-то вознаграждение, и изменяется, если программа как-то наказывается. Название выглядит весьма удачным, так как все условия соответствуют знаменитым экспериментам русского физиолога Ивана Петровича Павлова по выработке условных рефлексов у собак.
Программа «Павлов» прекрасно сотрудничает с последовательными партнерами типа обычный TFT, но ей трудно справляться с неисправимыми обманщиками, хотя она и пытается приспособиться к ним в каждом новом раунде. При этом «Павлов» безжалостно расправляется с преимущественными кооператорами, как только начинает угадывать присущие им слабости, в то время как TFT благородно сотрудничает с ними.
«Павлов» слабо выступил в первом турнире Аксельрода в 1965 году, а Анатоль Рапапорт даже презрительно обозвал его простаком. Не намного лучше были его результаты при введении шумов. Однако в целом «Павлов» продемонстрировал способность быстро исправлять отдельные ошибки и добиваться победы при благоприятных условиях, как будет показано далее.
АЛГОРИТМ ДАРВИНА
Расхожая истина: история учит. Впрочем, Фридрих Гегель отрицал, что история чему-либо учит народы и государства. Как бы то ни было, люди, организации и страны все же время от времени изменяют свое поведение вследствие накопления опыта, что, собственно, и демонстрировали немецкие и английские солдаты на полях Первой мировой войны, когда устраивали негласные перемирия. Точно так же может меняться и поведение некоторых «нарушителей закона», что, кстати, делает международные отношения еще более сложными и спорными. Например, многие политические обозреватели верили, что режим Саддама Хуссейна — «безусловного обманщика» — может быть преобразован в государство, с которым можно сотрудничать путем диалога, а не санкциями и бомбардировками.
Одним из интереснейших и важнейших вопросов в многократно упомянутой «Дилемме заключенного» остается проблема поведения в ситуациях, когда заключенные (или, если угодно, участники игры) сами как-то вовлечены в игру, т.е. могут изменять собственную стратегию. В реальной жизни каждый человек пользуется одновременно разными критериями — моральными, идеологическими, бытовыми и даже капризами при оценке собственного и чужого поведения. Но в духе теории игр нам следует задуматься о том, что движет сугубо прагматичными игроками, т.е. теми, кто старается всего лишь увеличить собственный выигрыш. Естественно предположить, что именно такие игроки и способны выработать наиболее оптимальную, т.е. наиболее успешную стратегию.
Это можно смоделировать в стиле турниров Аксельрода, включив в правила эволюционную составляющую. Например, после каждой игры мы могли бы позволять игрокам выбирать новую стратегию, причем вероятность выбора каждой стратегии должна быть пропорциональна полному числу очков, набранных соответствующими программами в ходе турнира При таком подходе успешные стратегии распространялись бы, а проигрышные — исчезали. Легко заметить, что это не что иное, как дарвиновский принцип «выживания самого приспособленного». Примерно таким образом происходит эволюция при генетических мутациях внутри популяции, в результате которых наиболее приспособленные дают большее потомство, закрепляя преимущество «адаптивной» мутации.
Такой эксперимент в рамках теории игр осуществили Мартин Новак (Оксфордский университет) и Карл Зигмунд (Венский университет) в 1992 году, получив очень интересные результаты. Они изучили поведение целой «популяции» стратегий поведения, каждая из которых делала выбор между сотрудничеством и обманом на основании поведения партнера в предыдущем раунде. Одни стратегии были ориентированы преимущественно на сотрудничество, другие — преимущественно на обман. Новак и Зигмунд заставили их сражаться друг с другом, изменяя их соотношение в зависимости от достигнутых результатов.