ГЛАВА 18. ПОБЕДА ПАВЛОВА. ВСЕГДА ЛИ РАЗУМНА ПОЛНАЯ ВЗАИМНОСТЬ?. «Критическая масса. Как одни явления порождают другие»

Жестокость событий и заявлений, связанных с современным положением на Ближнем Востоке, прекрасно выражены в библейской книге Второзаконие , написанной тысячелетия назад: «Истреби зло из среды себя. И прочие услышат, и убоятся, и не станут впредь делать такое зло среди тебя. Да не пощадит его глаз твой: душу за душу, глаз за глаз, зуб за зуб, руку за руку, ногу за ногу»1.

Возможно, бескомпромиссная взаимность поступков в соответствии с принципом «зуб за зуб» была хороша для потомков Моисея (хотя и для них это не всегда было законным ответом на враждебные действия). Но можно ли построить на таком принципе цивилизованное общество? Похоже, что теория игр больше всего подходит для описания «естественного» состояния человечества, которое рационалист Гоббс полагал варварским, а идеалист Локк — довольно приятным. В любом случае теория игр придает нам оптимизм, демонстрируя, что доброта и дружеские отношения могут возникнуть и из дикости, но при условии, что все будут неукоснительно следовать правилу взаимности и отвечать ударом на удар.

Это условие сразу осложняет проблему. Вспомним, что основной задачей правительства Локк считал именно то, что граждане перестают заниматься

самосудом и лично выступать в качестве судьи и судебного исполнителя. Государство при этом обязано организовывать не только взаимодействие между подданными, но и полицейскую систему, способную быстро и решительно осуществлять возмездие за преступления против общества. В таком социальном механизме очень трудно найти возможности для переговоров, консультаций, действий посредников или даже простого забвения.

Для применения теории на более высоком уровне социального развития нам необходимо вернуться к исходной схеме и еще раз тщательно обсудить возможные варианты и мотивы поступков партнеров при стратегии TFT, чему и посвящена эта глава книги. Мы еще раз рассмотрим преимущества и недостатки обсуждаемой стратегии и попробуем оценить возможности ее использования в общественной жизни. Согласно подходу социальной физики мы постараемся понять, что представляется желательным и может ли быть достигнуто согласие по этому пункту. Так мы возвращается к вечному вопросу: из чего мы выбираем?

ОШИБКИ СЛУЧАЮТСЯ

После второго компьютерного турнира Аксельрода позиции программы TFT — «зуб за зуб» — казались незыблемыми. Не тут-то было! В реальном мире все обстояло гораздо хуже: связи были несовершенными, стороны допускали ошибки, а их намерения оставались непонятыми. Вспомним, как в 1983 году советский истребитель по ошибке сбил южнокорейский гражданский авиалайнер, приняв его за самолет-разведчик. Все 269 пассажиров, среди которых было несколько американцев, погибли. Последовательное применение стратегии TFT требовало, чтобы эта ошибка была немедленно отомщена, и именно русской кровью. К счастью, это не было сделано, но инцидент значительно усилил международную напряженность. Похожая ситуация возникла в 1998 году, когда самолеты НАТО по ошибке сбросили бомбы на посольство Китая в Белграде (впрочем, споры о том, не была ли ошибка намеренной, продолжаются до настоящего времени).

В течение «холодной войны» политика возмездия сдерживалась потенциальной опасностью (сознаваемой обеими сторонами) нарастания конфликта. Огромные ядерные арсеналы США и Советского Союза заставляли военных и политиков проявлять необходимый уровень сдержанности и разумности. Удачной иллюстрацией обстановки этой эпохи может служить известный фильм Стэнли Кубрика Доктор Стренджлав. Напомню вкратце сюжет. Сумасшедший генерал США отдает приказ о превентивном ударе по СССР, который удается отменить только в самый последний момент. Но с одним из американских бомбардировщиков Б-52 не удается установить связь, и он наносит ядерный удар по СССР. Хотя советское командование понимает, что бомбы сброшены «по ошибке», оно ничего не может сделать, потому что нанесенный удар приводит в действие автоматическую Машину Судного дня, которая отвечает ядерным ударом без вмешательства человека. Принцип неизбежного возмездия в значительной степени способствует взаимодействию и сотрудничеству самых непримиримых противников, но эта система не прощает ошибок.

Проблема ошибок в стратегии TFT является совсем не простой, так как даже единичный, ошибочный обман вызывает аналогичный ответ. Простота стратегии TFT приводит к тому, что если подобная ошибка случится между двумя игроками, использующими эту стратегию, то оба попадают в замкнутый круг взаимных подозрений и взаимных обманов. Один из игроков обманул по ошибке, в следующем раунде он возвращается к сотрудничеству (делает то, что делал его партнер в предыдущем раунде) и — напарывается на обман (партнер воспроизводит его действия в предыдущем раунде), и так до бесконечности. (В сценарии Доктора Стренджлава бесконечности, очевидно, быть не может, при первой же ошибке «игра» заканчивается раз и навсегда.)

Такие механизмы поведения весьма характерны для множества культур. В качестве примера Аксельрод указывает на обычай кровной мести, распространенный, например, в Албании и на Ближнем Востоке, когда вражда кланов и убийства продолжаются во многих поколениях даже тогда, когда исходные причины конфликта давно забыты. Ужасные примеры затухающей и вновь вспыхивающей ненависти и вражды можно наблюдать сейчас в Северной Ирландии, где десятилетиями продолжается жестокий конфликт между католиками и протестантами, а также на Ближнем Востоке, где постоянно рушатся любые попытки установления мира между Израилем и Палестиной.

Из этого ясно, что стратегия TFT вовсе не гарантирует установления гармонии и мира.

Более того, предлагаемая стратегия вовсе не является наилучшей для поведения в окружающем нас мире, где ошибки и недоразумения возникают практически всегда. Это стало очевидным после следующего турнира, организованного Аксельродом, в котором допускалась возможность ошибки игроков. То есть иногда игроки выбирали свой ход случайным образом, не следуя правилам собственной стратегии. Когда доля таких ошибок (уровень «шума») достигала 10%, стратегия TFT не становилась более победительницей. Причем результаты ее игры против аналогичной программы оказывались даже хуже, чем при игре с программами, основанными на смешанной стратегии, поскольку случайные ошибки загоняли TFT-игроков в бесконечные циклы возмездия.

Безнадежность возникшей ситуации вынудила экспериментаторов искать модификации модели. Одной из таких модификаций стала стратегия «Великодушная» TFT (GTFT), в которой прощается определенная часть обманов (прощение в данном случае означает продолжение политики сотрудничества в следующем раунде). В другом варианте, «Кающейся» TFT (CTFT), прощается обман, следующий за србственным обманом, — демонстрация смирения перед заслуженным наказанием. Стратегия GTFT побеждала всех своих противников при уровне «шума» до 1%, стратегия CTFT занимала при этом шестое место. При более высоком уровне «шумов» CTFT превосходила GTFT.

В стратегии «зуб за два зуба» (TFTT) решение о возмездии принималось лишь после двух последовательных обманов противника, что служило подтверждением плохих намерений, а не случайной ошибки. Эта модель была предложена биологом-эволюционистом Джоном Мейнардом Смитом, во втором турнире Аксельрода она заняла лишь 24-е место. Мейнард Смит не участвовал в первом турнире, но там его программа наверняка стала бы победительницей, потому что некоторые участвовавшие в том турнире программы нейтрализовали программу TFT бесконечной цепью взаимных возмездий (напомним, что эта ловушка может возникать даже в отсутствие ошибок). Это лишнее подтверждение того, что в этой игре не существует наилучшей стратегии.

Еще одна хорошо работающая при случайных ошибках, но менее великодушная стратегия была предложена в 1988 году (но разработана раньше, как мы увидим далее) двумя исследователями из Северной Каролины, Дэвидом Крейнсом (университет Дьюка) и Вивиан Крейне (Мередит-кол- ледж). Авторы назвали свою модель «Павлов», а ее стратегия сводится к абсолютному оппортунизму, или: победил — так держать, проиграл — все менять. Подобно основному варианту TFT действия программы зависят от того, что случилось в предыдущем раунде. Если результат был хорошим, то делается тот же ход, в противном случае — противоположный. Определение хороший в данном случае означает как награду за сотрудничество, так и удачный обман. Короче говоря, в модели «Павлов» поведение сохраняется, если за свои действия программа получает какое-то вознаграждение, и изменяется, если программа как-то наказывается. Название выглядит весьма удачным, так как все условия соответствуют знаменитым экспериментам русского физиолога Ивана Петровича Павлова по выработке условных рефлексов у собак.

Программа «Павлов» прекрасно сотрудничает с последовательными партнерами типа обычный TFT, но ей трудно справляться с неисправимыми обманщиками, хотя она и пытается приспособиться к ним в каждом новом раунде. При этом «Павлов» безжалостно расправляется с преимущественными кооператорами, как только начинает угадывать присущие им слабости, в то время как TFT благородно сотрудничает с ними.

«Павлов» слабо выступил в первом турнире Аксельрода в 1965 году, а Анатоль Рапапорт даже презрительно обозвал его простаком. Не намного лучше были его результаты при введении шумов. Однако в целом «Павлов» продемонстрировал способность быстро исправлять отдельные ошибки и добиваться победы при благоприятных условиях, как будет показано далее.

АЛГОРИТМ ДАРВИНА

Расхожая истина: история учит. Впрочем, Фридрих Гегель отрицал, что история чему-либо учит народы и государства. Как бы то ни было, люди, организации и страны все же время от времени изменяют свое поведение вследствие накопления опыта, что, собственно, и демонстрировали немецкие и английские солдаты на полях Первой мировой войны, когда устраивали негласные перемирия. Точно так же может меняться и поведение некоторых «нарушителей закона», что, кстати, делает международные отношения еще более сложными и спорными. Например, многие политические обозреватели верили, что режим Саддама Хуссейна — «безусловного обманщика» — может быть преобразован в государство, с которым можно сотрудничать путем диалога, а не санкциями и бомбардировками.

Одним из интереснейших и важнейших вопросов в многократно упомянутой «Дилемме заключенного» остается проблема поведения в ситуациях, когда заключенные (или, если угодно, участники игры) сами как-то вовлечены в игру, т.е. могут изменять собственную стратегию. В реальной жизни каждый человек пользуется одновременно разными критериями — моральными, идеологическими, бытовыми и даже капризами при оценке собственного и чужого поведения. Но в духе теории игр нам следует задуматься о том, что движет сугубо прагматичными игроками, т.е. теми, кто старается всего лишь увеличить собственный выигрыш. Естественно предположить, что именно такие игроки и способны выработать наиболее оптимальную, т.е. наиболее успешную стратегию.

Это можно смоделировать в стиле турниров Аксельрода, включив в правила эволюционную составляющую. Например, после каждой игры мы могли бы позволять игрокам выбирать новую стратегию, причем вероятность выбора каждой стратегии должна быть пропорциональна полному числу очков, набранных соответствующими программами в ходе турнира При таком подходе успешные стратегии распространялись бы, а проигрышные — исчезали. Легко заметить, что это не что иное, как дарвиновский принцип «выживания самого приспособленного». Примерно таким образом происходит эволюция при генетических мутациях внутри популяции, в результате которых наиболее приспособленные дают большее потомство, закрепляя преимущество «адаптивной» мутации.

Такой эксперимент в рамках теории игр осуществили Мартин Новак (Оксфордский университет) и Карл Зигмунд (Венский университет) в 1992 году, получив очень интересные результаты. Они изучили поведение целой «популяции» стратегий поведения, каждая из которых делала выбор между сотрудничеством и обманом на основании поведения партнера в предыдущем раунде. Одни стратегии были ориентированы преимущественно на сотрудничество, другие — преимущественно на обман. Новак и Зигмунд заставили их сражаться друг с другом, изменяя их соотношение в зависимости от достигнутых результатов.

Можно было ожидать, что править балом будет стратегия TFT, наиболее успешно выступающая в смешанных группах стратегий. Однако в первых турах ситуация выглядела диаметрально противоположной, так как побеждали программы-обманщицы, а склонные к сотрудничеству стратегии почти вымирали. Средний выигрыш опускался до уровня, соответствующего взаимному обману. Но затем на каком-то этапе в общем поведении системы жалкие остатки приверженцев стратегии TFT вдруг начинали быстро нарастать, приобретая доминирующее положение (рис. 18.1). Сотрудничество становилось наиболее распространенной формой взаимодействия, а средний выигрыш резко увеличивался.

Превосходство

Число «поколений»

Рис. 18.1. Процесс «естественного отбора» в смешанной популяции стратегий игры в «Дилемму заключенного». Отбор осуществляется по результатам соревнования в каждом туре. В начале процесса явным преимуществом обладают программы, настроенные на обман, но затем происходит резкий поворот к сотрудничеству в духе стратегии TFT, которая быстро становится доминирующей. Этот процесс сопровождается повышением среднего выигрыша, поскольку стратегия TFT значительно повышает уровень сотрудничества между участниками соревнования.

Неожиданные и резкие изменения в поведении системы вновь заставляют вспомнить о фазовых переходах, хотя, конечно, не может быть и речи об эквивалентности описываемых процессов. Усиление роли стратегии TFT означает некий коллективный эффект, возникающий в результате множества взаимодействий между агентами, в качестве которых выступают отдельные программы. Игроки, настроенные на обман, действительно побеждают в начале соревнования, но затем их жесткое уклонение от сотрудничества перестает приносить пользу, так как они сталкиваются с очень похожими на самих себя соперниками. Сохранившиеся в системе даже немногочисленные остатки программ со стратегией TFT в таких условиях получают неожиданное преимущество и выигрывают. Они играют роль зародышей, позволяющих распространить элементы сотрудничества на всю популяцию.

Но Новак и Зигмунд обнаружили, что триумф стратегии TFT преходящ, поскольку затем начинает проявляться ее основной недостаток — неспособность прощать даже случайные ошибки. Равновесие системы нарушается при воздействии шума ошибок, после чего борьба стратегий разгорается вновь до тех пор, пока стратегия TFT не будет вытеснена ее более толерантной сестрой, «великодушной» TFT (GTFT), которой и достается окончательная победа.

На основе полученных результатов Новак и Зигмунд пришли к выводу, «что стратегия TFT является скорее исходной точкой, а не целью эволюции, направленной к сотрудничеству»2. По их мнению, TFT остается оптимальной лишь до момента достижения сотрудничества в разнородной исходной популяции, после чего в системе должны развиться и другие, более «мягкие» стратегии, так что, возможно, модель «великодушной» TFT позднее должна развиться в стратегию полного прощения или забвения ошибок партнеров.

Все это звучит весьма приятно и обнадеживающе, но не стоит забывать, что в сообществе самых принципиальных и последовательных кооператоров наиболее эффективная и разумная стратегия — безусловный обман и безжалостное уничтожение доверчивых.

По большому счету сотрудничество является более эффективной стратегией для популяции в целом, однако сообщества кооператоров оказываются почти беззащитными перед агрессивно настроенными обманщиками, небольшая группа которых может внести хаос в сложившуюся кооперативную культуру. Стратегия TFT может препятствовать этому, поскольку безжалостно карает обманщиков, одновременно поощряя кооператоров, выполняя функции своеобразной полиции, силой навязывающей сотрудничество всем участникам игры. В обществе победивших кооператоров такие функции становятся излишними и, как мы видели ранее, даже обременительными для общества. Но если допустить некоторый уровень шума, т. е. неистребимый уровень обмана, тогда обществу следует смириться с наличием нескольких «твердолобых» приверженцев стратегии TFT, поскольку именно они будут поддерживать общую культуру сотрудничества.

Само по себе сотрудничество вовсе не гарантирует того, что в человеческом обществе принято называть торжеством справедливости. Более того, как показали эксперименты Новака и Зигмунда, стратегии сотрудничества далеко не всегда побеждают. В самых первых вариантах эволюционных программ игроки выбирали ходы, исходя из поведения партнера в предыдущем раунде. Следующим этапом развития самообучающихся систем такого типа стала упоминавшаяся сугубо оппортунистическая программа «Павлов», которая способна развиваться, анализируя не только действия партнера, но и свое собственное поведение в предыдущих раундах. Когда исследователи выставили свои первые программы против «Павлова», то потерпели поражение. «Павлов» плохо справляется с обманщиками и не способен подобно программе TFT наказывать обманщиков и «внедрять» сотрудничество, но он процветает в системах с низким уровнем шума и высокой склонностью к сотрудничеству. Новак и Зигмунд обнаружили, что в этом случае «Павлов» способен обыграть даже наиболее успешную и продвинутую программу GTFT (интересно, что обе эти программы в отличие от основного варианта TFT способны прощать партнерам ошибки). Позднее у программы «Павлов» выявилось еще одно преимущество: при введении возможности случайных мутаций стратегия GTFT еще более смягчается и смещается в сторону безусловных кооператоров, тогда как «Павлов» сохраняет способность к агрессивным действиям, так что в тех случаях, когда обман сулит выигрыш, он не задумываясь идет на него. Эту программу можно назвать «волком в овечьей шкуре», так как она демонстрирует склонность к сотрудничеству при жестком «правлении» программы TFT, но как только власть переходит к добросердечным безусловным кооператорам, она начинает бессовестно их обманывать. Если представить себе фантастические социальные структуры, создаваемые такими программами, то лозунгом «общества TFT» было бы: «Относись к другим так, как они относятся к тебе!», а лозунгом «общества Павлова»: «Не оставляй простакам ни малейшего шанса на спасение!»

История компьютерного соревнования, в котором победил «Павлов», выглядит поучительно, так как участвовавшие в турнире программы принимали решения на основе анализа действий обоих партнеров в предыдущем раунде, т. е. все они были сложнее программ, принимавших участие в первых турнирах. Очень интересно, что выбор общего направления развития программ вовсе не выглядит однозначным или предопределенным с самого начала, так как при повторах часто возникают альтернативные варианты развития событий. Показанная на рис. 18.2 история начинается с довольно бурного этапа развития сотрудничества, который завершается длительным периодом полного господства обманщиков. Затем примерно через 92 ООО поколений в программах вновь начинает преобладать стремление к сотрудничеству, которое на короткое время становится основной линией поведения. Затем программы очень резко перестают сотрудничать.

Рис. 18.2. Изменение доли разных стратегий при компьютерном моделировании «Дилеммы заключенного» в течение многих поколений «генетически» изменяю- щихся программ поведения. Доля стратегий определяется по среднему выигрышу, так что повышение этого показателя соответствует росту относительного числа стратегий, нацеленных на сотрудничество. Эволюция программ осуществляется аналогично дарвиновскому естественному отбору с учетом действий обоих партнеров и результатов последнего раунда. Можно отметить периоды нарастания общего духа сотрудничества, заканчивающиеся (в двух первых случаях) полным крахом системы взаимодействий. После третьего подъема устанавливается стационарный режим сотрудничества.

Изучив позднее этот отрезок компьютерной эволюции, Новак и Зигмунд с удивлением обнаружили набор сложных и неоднозначных событий. Оказалось, что после победы сотрудничества в популяции программ произошел переход от стратегии TFT к упоминавшейся более развитой стратегии «великодушной» TFT (GTFT), еще более поощряющей сотрудничество. Такая мягкость и доброта отношений привели к развитию обширной популяции очень доверчивых программ, которые быстро стали жертвами немногих оставшихся в популяции хищных обманщиков. После этого главенствующее положение в популяции занимали не безусловные обманщики, а программа, получившая у исследователей прозвище «Мрачный триггер», которая соглашалась на сотрудничество, но только до первого обмана со стороны. Понятно, что при наличии хотя бы небольшого шума в системе такое было неизбежным. После этого программа переходила к безусловному обману. Это напоминает Машину Судного дня из фильма Доктор Стренджлав.

Примерно через 220 ООО поколений в популяции неожиданно вновь возникают программы, склонные к сотрудничеству, причем возрождение, как показано на рисунке, носит весьма длительный, возможно, постоянный характер. Это связано с победой возродившихся программ типа TFT (несколько модифицированных в сторону сближения с GTFT) над разновидностями программы «Павлов», причем интересно, что возникшая популяция сохраняет в себя некоторые мрачные особенности предыдущей, например, она склонна к оппортунизму и настроена жестко ко всем проявлениям обмана. В таком «обществе», образно говоря, уже можно жить, но его гражданам не следует забывать об опасности, исходящей от еще существующих, тщательно маскирующихся и кажущихся такими приятными «павловцев».

Возникающая ситуация в целом представляет собой интересное сочетание случайности и определенности. При достаточно долгом ожидании, по-видимому, можно всегда дождаться момента, когда в популяции программ доминирующее положение займут стратегии, направленные на развитие и поощрение сотрудничества. Очень часто победителями оказываются программы типа «Павлов» (примерно в четырех случаях из пяти), но это, в сущности, не представляет особого интереса. Наиболее важным и ярким результатом исследования выступает сам факт революционных преобразований системы, происходящих под воздействием внутренних факторов и генетических изменений программ. Возвращаясь к антропоморфным сравнениям, мы как бы наблюдаем возникновение и гибель структур, которые можно было бы сравнить с империями добра и зла в человеческом понимании их внутреннего устройства. Изучив более внимательно периоды относительной устойчивости таких образований (не важно, в каком состоянии) и их изменений, можно обнаружить, что каждая крайняя форма продолжает сохранять в себе некоторые особенности и характерные нормы другой.

Трудно не заметить во всем этом своеобразную аллегорию истории человечества. Маркс полагал, что социалистическая революция неизбежна, но моделирование даже столь простых социальных структур наглядно показывает, что в истории очень мало определенности, так как события развиваются по своим собственным законам. Даже если мы уверены, что эволюция имеет определенную цель, то как мы можем точно сказать, на каком этапе эволюционного процесса мы находимся. Обратимся к рис. 18.2. Появились ли в конце Первого царства обмана (20 000-90 000 поколений) мученики-философы, предсказывающие грядущее возвращение к постоянному сотрудничеству? Полагали ли мыслители Второго периода сотрудничества (после 92 000 поколений), что наконец-то наступила Эпоха постоянного сотрудничества? Имеют ли право социологи Третьего периода сотрудничества (после 220 000 поколений) утверждать, что переживаемое ими время является «концом истории»?

ВОЛШЕБНЫЕ КОВРЫ

Настоящие империи развиваются и гибнут не только во времени, но и в пространстве. Когда-то границы Римской империи простирались от Португалии до Черного моря и от Шотландии до Северной Африки. Империя Карла Великого включала в себя Францию, Германию, Италию и Балканы, а Оттоманская империя простиралась от Трансильвании до Египта. История человечества описывается географическими картами с причудливо изменяющимися во времени границами. Эпоха империй давно кончилась, но нынешние границы НАТО и Европы продолжают смещаться, а карта Восточной Европы за последнее десятилетие изменилась сильнее, чем за весь предшествующий период после Второй мировой войны. Естественно, многих исследователей заинтересовал вопрос, нельзя ли использовать «Дилемму заключенного» для лучшего понимания очень сложных проблем, связанных с изменениями национальных и региональных границ?

С математической точки зрения введение элементов пространства в теорию игр является нетривиальной задачей, поскольку оно накладывает ограничения на возможность взаимодействия игроков, что, в свою очередь, может серьезно повлиять на конечный результат. В описанных ранее компьютерных турнирах все игроки встречались друг с другом, и, например, кооператоры извлекали совместную выгоду из сотрудничества. Но если такие игроки разнесены в пространстве, то они не могут черпать силы в обоюдном сотрудничестве и оказываются бессильными перед натиском соседей-обманщиков. Таким образом, пространственная изоляция сама по себе может работать против сотрудничества. Например, кажется очевидным, что именно географическая изолированность Израиля в кольце враждебных исламских государств во многом способствует тому, что его граждане рассматривают свою страну в качестве осажденной крепости и считают, что из-за этого она не может проводить миролюбивую политику, которую могут позволить себе европейские державы.

Очевидно, что игроки с фиксированным расположением должны быть принуждаемы к сотрудничеству самими обстоятельствами расположения, которые диктуют им необходимость постоянных контактов с одними и теми же игроками. Круговые турниры, где каждый встречается с каждым, можно рассматривать как аналог непрерывной миграции. Главной проблемой путешествующих людей является то, что у них мало возможностей для установления истинно доверительных отношений с попутчиками. Над ними не довлеет «тень будущего», недостаточно длинная и накрывающая только постоянных соседей.

Возможности применения «Дилеммы заключенного» к проблемам формирования границ между государствами первым начал рассматривать Аксельрод в начале 1980-х годов. Он предложил модель, где каждый игрок в исходном состоянии занимает одну клетку на доске типа шахматной (или одну ячейку на регулярной решетке) и взаимодействует лишь с четырьмя ближайшими соседями. После каждого раунда, включающего игры со всеми соседями, игроки «эволюционировали» — меняли свои стратегии на более успешные, исходя из лучшего результата среди соседей.

Вначале Аксельрод хотел применить эту плоскостную модель для изучения конкретных ситуаций, связанных с распределением стратегий. Подход позволяет визуально моделировать процессы захвата, обороны, образования границ и т.д., что представлялось интересным и наглядным. Аксельроду удалось показать, что при некоторых значениях размера выигрыша даже один обманщик способен распространить свое влияние на все сообщество TFT-игроков, т.е. навязать всем игрокам новый тип стратегий, основанных на обмане. Интересно, что образующиеся при этом колонии обманщиков имеют правильную и довольно сложную геометрическую форму, напоминающую снежинки (рис. 18.3).

Используя различные комбинации стратегий, можно было бы построить огромное количество разнообразных колоний, но Аксельрод выбрал иной подход. Он просто распределил случайным образом 252 игрока (каждые четыре со своей стратегией, итого 63 разных стратегии) на решетке размером 14х18, дал им возможность взаимодействовать с четырьмя ближайшими соседями, а затем проследил эволюцию всей системы. В процессе игры все «противные», склонные к обману стратегии постепенно погибали, а решетка оказывалась заполненной несколькими типами игроков с «приятными» стратегиями. При этом устанавливалось равновесие: поскольку все игроки сотрудничают друг с другом, никто не выигрывает и не проигрывает, и границы сохраняются.

Интересно, что стратегия TFT (номер 1) не является доминирующей на решетке, хотя именно она выходила победительницей при организации турниров по круговой системе. Этот факт можно считать твердо установленным, поскольку игра проводилась многократно (с различным исходным распределением игроков), и во всех случаях возникали значительные территории, занятые другими стратегиями (одно из таких распределений приведено на рис. 18.4). В игре на плоскости выживали и менее успешные стратегии, занимавшие в круговом турнире низкие места, что объясняется удачным начальным распределением, когда в ближайшие соседи к ним попадают менее эффективные игроки. Для объяснения низкого результата игроков со стратегией TFT стоит напомнить, что она побеждает в круговом турнире по общему числу очков, а в конкретных ситуациях не выглядит агрессивной и напористой, по сути, стратегия TFT не стремится захватывать территории, уже занятые «приятными» стратегиями, а лишь вытесняет обманщиков.

Разумеется, результаты можно интерпретировать как еще одно доказательство отсутствия «абсолютно» победной стратегии в играх такого типа, которые в данном случае можно считать аналогией отношений между нациями. Более того, конечное распределение всегда зависит от исходного, случайного распределения положений игроков, что вновь напоминает нам о ситуациях, когда история процесса сама является фактором развития.

В 1992 году Мартин Новак и Роберт Мэй из Оксфордского университета придумали еще один, более простой вариант пространственной игры, связанной с сотрудничеством игроков. В их модели было только два типа игроков: беспринципные обманщики и убежденные кооператоры. Но игрок мог менять свою «ориентацию», если это сулило ему выгоду. Игра проводилась на квадратной решетке, каждый игрок мог взаимодействовать с восемью ближайшими соседями — к четырем соседям по граням ячейки добавлялись четыре на вершинах. Игрок менял стратегию в соответствии с наилучшими результатами, достигнутыми собой и этими соседями, то есть становился кооператором или обманщиком, подчиняясь ближайшему окружению. В некотором смысле эта картина напоминает описанную в главе 5 решеточную модель Изинга взаимодействующих частиц в статистической физике, способных находиться в двух энергетических состояниях.

Характер игры, естественно, во многом зависит от размера выигрыша, т.е. от вознаграждения, которое игрок имеет шанс получить при правильном выборе между сотрудничеством или обманом ожиданий партнера. Незначительность выигрыша при обмане по сравнению с сотрудничеством способствует сотрудничеству, но и в этом случае остается определенная группа обманщиков, покрывающая сетью всю решетку (рис. 18.5, а). При значительном выигрыше обман становится основной стратегией игры, хотя и в этом случае на решетке возникают и исчезают островки территорий, образованных сотрудничающими игроками (рис. 18.5, б). Доля кооператоров при этом быстро достигает постоянного среднего значения, не зависящего от исходных условий и конфигурации, что подтверждает мысль, что в обществе всегда найдется небольшая часть неукротимых и неугомонных кооператоров, способных функционировать даже в условиях крайнего эгоизма окружающих. Таким образом, общая картина остается довольно сложной: кооператоры и обманщики вовсе не уничтожают друг друга, а продолжают сосуществовать в системе сколь угодно долго, образуя паттерны, которые различаются в деталях, но имеют вполне предсказуемые усредненные характеристики.

Рис. 18.5. Состояния, описывающие эволюцию системы из безусловных кооператоров (черные точки) и безусловных обманщиков (серые точки), очень сильно зависят от размера выигрыша при обмане по сравнению с сотрудничеством. При малом выигрыше доминирует сотрудничество (а). (Здесь белые точки соответствуют «перебежчикам» из кооператоров в обманщики в последнем раунде, т. е. эти точки указывают направления смещения границ.) При увеличении выигрыша при обмане картина меняется, и обманщики начинают доминировать, хотя островки кооператоров возникают и исчезают по всей решетке (б). Одинокий обманщик может эксплуатировать целое сообщество кооператоров, постепенно создавая сообщество обманщиков. В силу взаимного отталкивания обманщики не могут образовывать целостные структуры, а создают лишь разреженный узор (в)

Процессы распространения областей обмана и сотрудничества значительно различаются. Кооператоры лучше работают в плотных кластерах, извлекая прибыль из взаимного доверия и поддержки, что заставляет вспомнить об Эдмунде Берке, который еще в 1770-х годах писал: «Хорошие люди должны объединяться перед лицом союза дурных людей, для того, чтобы не погибнуть один за другим в безжалостной борьбе»3. Обманщикам гораздо выгоднее действовать в среде кооператоров, а не в среде подобных себе жуликов. Обман порождает обман, но и доверие порождает доверие, в результате чего обманываемые поддерживают друг друга, сообщество обманщиков представляет собой тонкую сеть, наброшенную на островки сотрудничества.

Новак и Мэй показали, что распространение стратегии обмана при появлении одного обманщика в колонии кооператоров создает на решетке картину (рис. 18.5, в), весьма напоминающую симметричные фигуры, полученные ранее Аксельродом. Мы вновь видим «волшебные ковры» со странными узорами, которые возникают в результате «отталкивания» между самими обманщиками, что не позволяет им создавать плотные структуры. Каждый обманщик предпочитает обрабатывать собственную «делянку», удаленную как можно дальше от его сотоварищей.

ПОД УПРАВЛЕНИЕМ РАЗУМА?

Стратегия TFT и ее более продвинутые варианты позволяют нам понять процесс развития сотрудничества внутри сообществ. И хотя после внедрения сотрудничества стратегия TFT может смениться как более «приятными» стратегиями, так и оппортунистическим «Павловым», до сих пор не придумано ничего лучше для инициирования сотрудничества в жестоком мире Гоббса, чем принцип «зуб за зуб».

С этой точки зрения для западного общественного мнения кажутся естественными любые жесткие действия против «плохих парней» типа бомбардировки Белграда или вторжения в Ирак. Карл Поппер, имеющий репутацию либерала, озвучил эту мысль с шокирующей откровенностью: «То, что происходит в Боснии, является доказательством несостоятельности, малодушия и слепоты Запада. Эти события еще раз продемонстрировали, что мы не усвоили одного из главных уроков этого столетия: война предотвращается войной»4.

Идея «превентивной войны» восходит как минимум к Канту, который отстаивал ее в эссе Вечный мир. Несомненно, превентивные войны были всегда, другое дело, что короли и князья в далеком прошлом не нуждались ни в каких философских обоснованиях военных действий. Анализ стратегий в «Дилемме заключенного» убедительно доказывает, что мягкий или отложенный ответ, например, в варианте «зуб за два зуба», далеко не лучший в смешанных популяциях. Само по себе это говорит в пользу бомбардировок, а не санкций.

Но как мы видели, стратегия «зуб за зуб» имеет свои недостатки. Яркими иллюстрациями этого являются конфликт между палестинцами и израильтянами и ситуация в Северной Ирландии, где подобные ответные действия отбрасывают назад процесс установления мира и сотрудничества и разрушают хрупкое доверие между народами. Для установления каких-то новых отношений между игроками в таких условиях, конечно, необходимо выработать новые правила, подавляющие механизмы эскалации взаимного недоверия. Примерами подобных «умиротворяющих» линий поведения могут служить уже упомянутые стратегии «великодушной» TFT (GTFT), «кающейся» TFT (CTFT) или «умеренной» TFT, в которой наказание чуть менее жестоко, чем вызвавшее его действие.

Вообще говоря, отношения отдельных людей или групп населения складываются по постоянно усложняющейся схеме стратегии TFT. Проблема заключается в том, что при компьютерном моделировании, с которого и начались эти исследования, программы не обладают «злопамятностью», т.е. принимают решения, исходя из действий партнера в последнем раунде. В реальной жйзни отношения формируются по гораздо более сложным механизмам, поскольку люди и общины зачастую десятилетиями находятся в состоянии вражды и отсутствия контактов. Отказ от сотрудничества при этом приобретает не только затяжной, но и самовоспроизводящийся характер, когда после любого конфликта восстановление контактов становится почти невозможным. В качестве наглядного примера можно привести отношения между разведенными супругами. Недавно в США рассматривалась возможность лишения разведенных отцов права видеться со своими детьми, если эти отцы не оплачивают (по разным причинам) расходы по их воспитанию. Не вдаваясь в экономические аспекты проблемы, легко понять, что любое судебное решение такого рода провоцирует в будущем множество семейных конфликтов в следующих поколениях. Другой вариант — выплата алиментов автоматически прекращается при ограничении возможностей общения с детьми — также приводит к взаимным обидам и недоразумениям. Дети становятся разменной монетой в конфликте родителей. Судьи и сами родители проявляют в этих ситуациях крайнюю близорукость, поскольку сиюминутная экономическая выгода в дальнейшем оборачивается неспособностью детей к установлению отношений сотрудничества с другими людьми. Возможно, проявление благоразумного великодушия в таких ситуациях позволило бы избежать множества осложнений в будущем.

От бытовых ситуаций можно легко перейти к глобальным. Проблема доверия вышла на первый план в мировой политике после появления ядерного оружия, когда войны между сверхдержавами стали смертельно опасными для обеих сторон. С другой стороны, мир между странами, обладающими ядерным оружием, оказался возможным лишь при условии полной готовности к нападению противника. Карл Поппер писал по этому поводу: «Мы должны понять, что мир на планете может быть сохранен только военной силой. Даже внутри отдельной страны нельзя обеспечивать мир за счет компромисса с преступниками»5.

Это может быть справедливо для обычных войн, но для атомной войны, особенно с учетом концепции «холодной войны» о гарантированном взаимном уничтожении, жесткая стратегия в духе «зуб за зуб» не является оптимальной. Стратег Герман Кан с обескураживающей откровенностью описывал примеры сумбурного и иррационального мышления, с которыми он сталкивался в «РЭНД Корпорэйшн» в первые годы «холодной войны»:

Во многих своих выступлениях за последние 20-30 лет я предлагал аудитории следующий мысленный эксперименты. Предположим, говорил я, президенту США сообщают, что противник сбросил на Нью-Йорк муль- тимегатонную бомбу. Как он должен реагировать на такое сообщение? В середине 1950-х годов аудитория единодушно отвечала, что президент обязан немедленно «нажать на все кнопки для запуска ракет и идти домой». Далее обычно следовал следующий краткий диалог:

К а н: А что, собственно, произойдет дальше?

Аудитория: Советы, конечно, сделают то же самое!

К а н: А что дальше?

Аудитория:А ничего дальше не будет. Стороны уничтожат друг друга! Кан: Так зачем президенту нажимать на кнопки?

После некоторых споров и размышлений аудитория приходила к выводу, что, возможно, президенту и не следует сразу нажимать на кнопки, приводя в действие чудовищную машину уничтожения всего мира, включая его собственную страну 6 .

Эту же идею несколько короче выразил политолог Брайан Скирмс: «Нельзя считать правильной стратегию, которая при своем применении приводит к явному нарушению интересов использовавшего ее агента»7. Было бы, конечно, верхом наивности предполагать, что в международной политике игроки следуют правилам строгой логики, подобно программам в описанных идеализированных компьютерных турнирах. Никакая теория так называемого гарантированного ядерного возмездия не позволяет логически понять многие события «холодной войны», и поэтому специалистам-поли- тологам, включая того же Поппера, остается только ожесточенно спорить, действительно ли Хрущев в 1962 году планировал нанести удар по США. По- видимому, сейчас невозможно определить, являлась ли секретная установка ракет на Кубе реальной подготовкой к агрессии или служила разменной монетой в политических отношениях двух стран, но можно быть уверенным, что именно стратегия возмездия создала условия для нарастания кризиса. По тем же причинам практически невозможно объяснить позицию тех деятелей, которые ранее агитировали за одностороннее ядерное разоружение США, а потом стали сторонниками развития стратегической противоракетной обороны, которая подрывает саму идею разоружения. Возможность взаимного уничтожения действительно служит фактором поддержания мира, так что опасность войны может возрасти после того, как из этого условия выпадет слово «взаимного». Мировая политика постоянно демонстрирует нам, что формальная логика теории игр играет весьма незначительную роль в реальных геополитических событиях, развитие которых диктуется идеологией, целесообразностью и хитростью.

Еще одной, очень неприятной особенностью стратегии TFT выступает то, что соперники стараются всячески продемонстрировать друг другу свою непреклонность. Они начинают вести себя подобно уличным хулиганам, непрерывно доказывая готовность к самым решительным действиям, что довольно быстро приводит их к военным авантюрам и «дипломатии канонерок». Например, в худшие времена «холодной войны» США чуть не развязали мировую войну ради демонстрации своей «жесткости» в борьбе с коммунизмом. Это можно проследить по меморандуму8, который в 1960-х годах Джон Макнафтон, заместитель секретаря Совета национальной безопасности, направил министру обороны США Роберту Макнамаре. Перечисляя цели американской политики во Вьетнаме и оценивая их значимость, Макнафтон отмечает, что «на 70% эти цели определяются необходимостью утверждения репутации США как гаранта» (курсив автора книги) и лишь на 10% — «стремлением обеспечить свободу и процветание народа Южного Вьетнама».

Другими словами, стратегия TFT побуждает соперников к воинственности (или хотя бы ее имитации). В то же время неучет возможного жесткого ответа противника может привести к гибельным последствиям. Это в присущей ему сардонической манере изобразил Стэнли Кубрик в своем классическом художественном воплощении реалий «холодной войны». В конце фильма доктор Стренджлав кричит по телефону кому-то из советских руководителей: «Вы идиоты! На кой ляд вам сдалась эта Машина Судного дня, если вы никому не сказали, что она у вас есть!»

Конечно, пока не может быть и речи об использовании результатов игры в «Дилемму заключенного» для выработки политики, прежде всего из-за огромного числа факторов, играющих роль в реальной жизни. Эта игра, как я неоднократно подчеркивал, построена на очень упрощенном представлении о природе человека. С одной стороны, поведение человека в ней предполагается слишком разумным и рациональным, хотя мы прекрасно знаем, что людьми часто управляют иррациональные страсти и побуждения, не говоря уже об элементарной глупости. С другой — эта модель недооценивает положительного влияния моральных принципов на наши поступки и решения. Жизненный опыт и эволюционная биология убедительно демонстрируют, что очень многие люди инстинктивно стремятся к сотрудничеству друг с другом, без всяких доказательств чувствуя необходимость и важность совместных действий. Впрочем, жизнь столь же убедительно показывает, что всегда есть некоторое количество людей, патологически не способных принимать требования общества и постоянно отклоняющих сотрудничество с другими людьми даже в тех случаях, когда необходимость такого сотрудничества представляется очевидной.

Кроме того, ценность теоретических результатов снижается еще и тем обстоятельством, что по условиям игры «заключенные» не имеют возможности переговариваться друг с другом, и им приходится угадывать мотивы поведения партнеров только на основе результатов игры. Такая обстановка способствует развитию подозрительности (даже у компьютерных программ), между тем как в реальной жизни многие проблемы и конфликты решаются именно в результате прямых переговоров и объяснений.

Однако даже с учетом вышесказанного нельзя не признать, что стратегия ответного воздаяния (зло на зло, добро на добро) — лучший путь к установлению сотрудничества. Специалист по теории игр Карл Зигмунд говорит в этой связи:

Конечно, было бы глупым считать, что все огромное разнообразие человеческих отношений и взаимодействий может быть сведено лишь к итеративному варианту игры в «Дилемму заключенного», или отрицать роль высшей власти в цивилизованном обществе. Но при всех этих ограничениях нельзя не заметить и того, что очень простой и жесткий принцип зеркального воздаяния создает в обществе эгоистов мощный стимул к сотрудничеству, в то время как самые возвышенные проповеди и призывы, не сопровождающиеся актами возмездия, лишь разрушают сотрудничество... Иногда кажется, что этот примитивный и грубый закон возмездия лежит в основании многих, или даже всех, устойчивых общественных образований, созданных человечеством 9 .

Я рискну задать вопрос, который биологу-эволюционисту покажется бессмыслицей или тавтологией: насколько морально такое поведение? Принцип «зуб за зуб» коробит чувствительных либералов. «Приступая к проекту, — писал Роберт Аксельрод в 1984 году, — я чувствовал, что его результаты рано или поздно вызовут у многих гнев и раздражение. Однако я вынужден повторить, что результаты компьютерного турнира программ, играющих в «Дилемму заключенного», действительно доказывают, что наилучшей реакцией на любую провокацию является быстрый симметричный ответ».10

История человечества знает множество пацифистов, от святого Франциска до Ганди, утверждавших, что нельзя отвечать насилием на насилие, поскольку любые насильственные действия разрушают психику человека. К этому же, безусловно, сводится основной смысл Нового Завета, где содержится призыв возлюбить даже врагов и прямо утверждается, что «блаженны кроткие, ибо наследуют землю». Многие пацифисты утверждают, что философия непротивления возникает не из холодных логических построений, а из высших моральных императивов типа библейской заповеди «не убий». Сталкиваясь с реальными проявлениямйжестокости и дикости, такие люди начинают испытывать мучительные сомнения в правоте своих пацифистских воззрений. Добросовестный и беспристрастный историк Второй мировой войны Дэвид Джонс выразил эту дилемму в следующей форме: «Чем больше я узнавал о чудовищных преступлениях немцев, тем больше страданий доставляла мне собственная позиция беспристрастного наблюдателя. Реальную боль приносила даже не война, а необходимость поиска объяснений и оправданий вместо прямого участия в борьбе»11.

Сесил Дэви, родственная душа в том же конфликте, счел этот вопрос неразрешимым:

Вильфред Оуэн говорил, что он быЛ беспристрастным наблюдателем с больной совестью, и мне кажется, что у большинства людей, старающихся быть беспристрастными наблюдателями, начинает болеть совесть. Например, я до сих считаю, что правильно и беспристрастно описывал события Второй мировой войны, то есть я делал то, что считал правильным в тот момент, когда я это делал, но возможно, если бы я знал о Холокосте, мое поведение могло бы измениться.... Жизнь — непростая штука 12 .

Все так, и «Дилемма заключенного» лишний раз убеждает нас в этом. Однако на основании ее результатов трудно избавиться от ощущения, что в рамках собственных правил теории игр стратегия возмездия является «моральной», хотя бы потому, что служит приумножению добра. Стратегия «зуб за зуб» не только защищает самого игрока от эксплуатации обманщиков, но и служит укреплению безопасности всего сообщества. Заметим, что в компьютерных экспериментах более мягкие формы стратегии TFT способствуют появлению обманщиков и оппортунистов-«павловцев», угрожающих всему сообществу в целом. Безусловная готовность к сотрудничеству более благородная и добрая форма взаимодействия, но она перекладывает тяготы защиты сообщества на другие плечи,— все той же TFT, которой трудно найти замену.

Описанный в этой главе подход выглядит плодотворным. Но при его использовании надо проявлять осторожность, поскольку его результаты легко извратить или неверно интерпретировать. Например, кто-то может наивно заключить, что TFT оправдывает смертную казнь за убийство — это при том, что исполнителем наказания выступает государство, а не индивид. На самом деле такая постановка вопроса в рамках «Дилеммы заключенного» лишена смысла. Эта игра всего лишь обучает игроков сотрудничеству при помощи простых и повторяющихся раундов игры с условиями, поощряющими совместные действия и заставляющих даже убежденных обманщиков обращаться к сотрудничеству просто потому, что такое поведение более выгодно. Аналог смертной казни в этой игре — удаление игрока, но при этом становятся невозможными следующие раунды, и игра останавливается. Кроме того, ничто в «Дилемме заключенного» не предполагает возможности обучения игроков за счет чужого опыта, так что удаление одного обманщика не может повлиять на умонастроение других обманщиков. Таким образом, успех стратегии TFT не имеет никакого отношения к проблеме отмены или введения смертной казни.

Примерно то же самое можно сказать о проблемах, связанных с накоплением ядерных арсеналов во время «холодной войны». Теория игр и игра в «Дилемму заключенного» были тогда очень популярны в Пентагоне, но все отдавали себе отчет в том, что стратегия «зуб за зуб» приносит успех лишь при многократном проигрывании ситуаций, а при единичных столкновениях, характерных для военных действий, она может привести и к поражению.

Джон Локк выражал надежду, что стратегия «зуб за зуб», применимая, по его мнению, в «естественном» состоянии человечества, будет изжита в цивилизованном обществе, и на смену ей придут закон и правосудие, которые избавят индивида от необходимости брать на себя миссию мстителя за личную обиду. Члены варварского общества не имели возможности оградить себя от обидчиков мягкими методами, например, изолировав их, вследствие чего единственным ответом на насилие оставалось само насилие. Таким образом, наказания для нарушителей социальных норм необходимы для установления общественного мира и спокойствия. В этом свете результаты экспериментов со стратегией TFT представляются естественными и ожидаемыми, однако повторю, что эта простая модель не помогает (и не может помочь) в решении проблем, связанных с формой наказаний. Разумеется, она не может подсказать нам и способы перевоспитания грешников.

Полезность игры в «Дилемму заключенного» для нас обусловлена прежде всего тем, что она позволяет избавиться от мрачного пессимизма Гоббса, не прибегая к малообоснованным оптимистическим доводам Локка. Модель еще раз доказывает, что сотрудничество вполне возможно даже в жестоком мире, лишенном альтруистических начал и принципов. В этом смысле она позволяет нам увереннее вглядываться в наше будущее и не впадать в отчаяние при размышлениях о природе человека. Мне бы хотелось закончить эту главу высказыванием Карла Поппера: «Мы должны двигаться к истине медленно и осторожно подобно тараканам, тщательно ощупывающим землю на их пути»13.

Название книги

Критическая масса. Как одни явления порождают другие

Болл Филип

ГЛАВА 18

ПОБЕДА ПАВЛОВА

ВСЕГДА ЛИ РАЗУМНА ПОЛНАЯ ВЗАИМНОСТЬ?