Повторение игры (математики называют это итерацией) в «Дилемму заключенного» дает игрокам возможность учиться на собственных ошибках и строить отношения на основе взаимного доверия. Так может возникнуть сотрудничество.
А как играют в эту игру реальные люди? Психологи тщательно изучили этот вопрос с использованием контрольных тестов и установили, что сотрудничество между людьми действительно развивается, но его степень может изменяться в очень широких пределах, в зависимости от природы и величины выигрыша, характера игроков и особенностей их взаимодействия, например, психологически легче обмануть ожидания человека заочно, а не глядя ему в глаза при личной встрече.
Кроме того, не следует забывать об элементе соблазна. Выяснив, что партнер доверчив и легко вступает в сотрудничество, игрок вполне может соблазниться и «изобразить» случайную ошибку в отношениях, в результате которой его выигрыш значительно возрастает. Если партнер окажется забывчивым или необидчивым, то эту операцию можно будет затем повторять, разумеется, не слишком часто, чтобы не вызвать подозрений. К сожалению, именно так очень часто и происходит в реальных деловых и бытовых отношениях.
Именно с этим связана проблема, которой посвящена эта глава: какая стратегия является наилучшей при повторяющейся игре в «Дилемму заключенного»? Какой стратегии следует придерживаться, если вам ничего не известно о партнере?
В конце 1970-х годов Роберт Аксельрод придумал эксперимент, позволяющий ответить на эти вопросы. Он попросил известных специалистов в области теории игр выработать разные типы стратегий повторяющейся игры в «Дилемму заключенного», а затем собрал предложенные ими программы и провел между ними круговой турнир на компьютере. Программы сражались друг с другом в течение многих раундов, победитель определялся по максимальному числу очков, набранных во всех встречах. Турнир заинтересовал специалистов из разных областей науки — психологов, математиков, экономистов, социологов и политологов, представивших 14 программ-участниц. Каждая стратегия предусматривала собственные правила выбора между сотрудничеством и обманом. Например, программа может постоянно соглашаться на сотрудничество (это плохой вариант, потому что эту программу будут обманывать все остальные, за исключением таких же простаков — «безусловных кооператоров»). Или программа в целом ориентирована на сотрудничество, но периодически обманывает, например, в каждом четвертом раунде.
Многие представленные на турнире программы были намного сложнее описанных выше, но победителем оказалась наиболее простая из них, разработанная психологом Анатолем Рапапортом из университета Торонто. Он назвал свою программу Tit for Tat (TFT), что соответствует русскому «зуб за зуб». Ее единственным правилом было следующее: начинай с сотрудничества, а далее делай то, что делал твой оппонент в предыдущем раунде.
Например, играя против безусловного кооператора, TFT сразу принимает его тактику, в результате чего игра заканчивается одинаково выгодно для обеих программ. В игре против безусловного обманщика TFT, конечно, проигрывает в первом раунде (проявив желание сотрудничать), но зато потом постоянно обманывает, так что проигрыш TFT в этой встрече остается небольшим — только очки, потерянные в первом раунде. При встречах с программами, применяющими смешанную стратегию сотрудничества и обмана, TFT отвечает в соответствии с поведением партнера в предыдущем раунде. Таким образом, можно сказать, что TFT пользуется плодами сотрудничества, когда это возможно, но не позволяет обманывать себя. С другой стороны, TFT сама не обманывает чужих ожиданий, в результате чего, кстати, она никогда не получает очков больше, чем ее противник. У всех остальных программ были свои достоинства и недостатки, так что некоторые из них очень удачно выступали против преимущественных кооператоров или, наоборот, против преимущественных обманщиков, но именно TFT в целом набрала максимальное число очков, выступая одинаково ровно против всех остальных стратегий. Можно сказать, что это была скромная и даже простодушная победа.
Первый компьютерный турнир оказался очень успешным и получил широкую известность, поэтому когд а Аксельрод организовал второй турнир по тем же правилам, в нем приняли участие уже 62 программы из 6 стран. Более того, в отличие от первого турнира, где участвовали профессиональные ученые, во втором турнире смогли соревноваться и программы, составленные любителями компьютерных игр, включая десятилетнего мальчика. Все они знали о результатах первого турнира, поэтому неудивительно, что многие из них пытались модифицировать и улучшить программу TFT, сделав ее более сложной и эффективной. Этому искушению не поддался только сам автор программы, Рапапорт выставил на турнир ту же программу, и она вновь стала победительницей!
Означает ли это, что TFT действительно представляет собой наилучшую стратегию при повторяющейся игре в «Дилемму заключенного»? Мне кажется, что говорить о наилучшей стратегии в этом случае вообще неверно, так как результат в значительной степени зависит от состава участников. Если ваши противники в большинстве своем являются безусловными кооператорами, то преимущественный или безусловный обман принесет лучший результат, чем стратегия TFT. Но основной вывод из проведенных Аксельродом компьютерных турниров все же гласит, что при игре с неизвестными противниками стратегия TFT является лучшей.
В чем заключается основная особенность TFT? Прежде всего стоит отметить ее гибкость: она открыта к сотрудничеству, но не позволяет беззастенчиво обманывать себя. Удачное сотрудничество с другим игроком сразу вызывает у TFT стремление продолжать сотрудничество в следующих турах, а обман вызывает немедленную ответную реакцию. Программа TFT всегда поступает с другими так, как они поступают с ней самой. Отметим, что такое поведение соответствует Ветхому Завету, а не Новому, где в ответ на удар рекомендуется подставить другую щеку.
Именно простота и ясность поведения стали причиной успеха TFT. Стратегия одной из программ — участниц второго турнира заключалась в разгадке правил, которые управляют поведением противника, и их использования в игре
[146]. Такое угадывание чужого поведения весьма распространено и в реальной жизни, так как люди очень часто пользуются известной им реакцией своих друзей и врагов на определенные события и поступки. Разница между человеком и компьютерной программой состоит в том, что люди часто пытаются предварительно выяснить чужую реакцию или действуют наудачу, в то время как TFT простодушно поощряет задним числом любое сотрудничество и наказывает за обман.
Успех TFT может быть связан еще с одной особенностью — эта программа никогда первой не отказывается от сотрудничества. Стратегии всех остальных программ турнира разделились именно по этому принципу на две большие группы в зависимости от того, как их авторы решают основную проблему: следует ли первым отказываться от сотрудничества или нет? Участники даже стали называть стратегии, которые не отказываются от сотрудничества первыми, термином приятные (для другой іруппы программ название не выработалось, но по логике вещей их следовало бы назвать противными). Аксельрод считает, что приятные программы практически всегда лучше противных, и действительно, уже на первом турнире им достались первые восемь мест, последующие с большим разрывом в набранных очках заняли противные.