人民大學國政評論 - 李泉 | 「行為主義國際關係」中的「沃克學派」及其未來方向－鑽石舞台

作者簡介

李泉，武漢大學政治與公共管理學院教授。

內容提要

「行為主義國際關係」（Behavioral IR）研究在美國國際關係學界方興未艾｡沃克學派作為其重要分支，通過結合行為碼與博弈論分析，將領導人心理認知研究和國家博弈模式融合在一起，提供了一個涵蓋國際政治領域微觀和宏觀現象的完整分析路徑｡本文在系統介紹沃克學派博弈論分析過程和步驟的基礎上，通過主體建模方法彌補了其現有分析路徑的一些不足｡計算模擬仿真可以幫助深入分析複雜因果視角下的「等效性」問題，為在個體決策認知的基礎上深化關於宏觀國際政治現象的理論建構提供了一個更有效的途徑｡

【關鍵詞】：行為碼；操作碼；行為主義國際關係；沃克學派；主體建模

前言

自2002年卡尼曼（Daniel Kahneman）獲得諾貝爾經濟學獎，特別是2017年諾貝爾經濟學獎頒發給塞勒（Richard H. Thaler），表彰其在行為主義經濟學領域的貢獻之後，美國的社會科學研究興起了新一輪行為主義熱潮｡在國際關係領域，明茨（Alex Mintz）於2005年提出了「行為主義國際關係」（Behavioral IR）這一概念。沃克學派（the Walker School，赫德森語）作為行為主義國際關係研究中的重要分支，發展至今已經形成了涵蓋微觀心理認知和宏觀國家博弈行為的系統分析方法和路徑，其體系包含行為碼分析和博弈論分析兩個步驟。國內學術界關於行為碼分析的邏輯、操作過程以及具體運用已經相對成熟，但對於行為碼步驟之後的博弈論分析目前還沒有系統的介紹與運用。本文第一部分首先梳理了「行為主義國際關係」的起源、特徵和發展趨勢；第二部分系統介紹沃克學派博弈論分析方法的基本邏輯；第三部分以特朗普為例展示具體分析過程和結果；第四部分指出沃克現有分析路徑的兩個局限，並運用主體建模（agent-based modeling）方法嘗試進行了初步改進。仿真模擬的結果表明相較於傳統的博弈論解析求解方式，主體建模方法的獨特優勢將有助於我們進一步研究個體心理認知和宏觀決策之間的複雜關係｡

—、行為主義國際關係研究的起源和發展

20世紀末21世紀初，「新古典現實主義」（Neoclassical Realism）和「行為主義國際關係」先後被提出，推動了國際關係和國際政治理論研究的範式創新。以對外政策中層理論為發端的「新古典現實主義」推動傳統國際關係研究向對外政策分析領域移動，而基於政治心理學的「行為主義國際關係」則推動傳統對外政策分析向國際政治領域移動。這兩個範式經過前期的發展，目前都開始更強調進行跨層次綜合，嘗試發展出能夠包含從微觀、中觀到宏觀的一般性理論。前者以諾林·里普斯曼（N. M. Ripsman）、傑弗里·托利弗（J. W. Taliaferro）以及斯蒂芬·洛貝爾（S. E. Lobell）在2016年出版的《新古典現實主義國際政治理論》為代表，致力於發展一個能夠全面解釋國際政治現象的研究綱領和分析框架，既包括解釋國家的短期危機決策和大戰略制定，也包括解釋國際體系層面國家政策互動的結果和國際體系結構的演化變遷過程。

「行為主義國際關係」由明茨於2005年在國際研究協會（ISA）夏威夷年會上提出。在2006年國際研究協會聖地亞哥年會上，相關學者進一步探討了這一研究範式的淵源、發展前景和潛在弱點，最後由明茨在2007年初步總結了「行為主義國際關係」的核心假設、關鍵研究問題、關鍵方法，以及開闢這個研究領域的必要性與邏輯。明茨認為，六個基本前提假設構成了行為主義國際關係研究的主要特徵：（1）國家領導人往往做出不完全理性和次優的決定，而非最大化效用；（2）領導人處理信息的能力有限，決策中往往依靠運用經驗法則（rules of thumb）和認知捷徑（cognitive shortcuts），並且只能關注有限的選項和維度；（3）認知偏見在個人､團體和組織層面的決策過程中的影響無處不在；（4）行為主義國際關係研究同時關注過程和結果，而不僅僅是過程；（5）由於框架效應､情緒等因素的影響，理性選擇決策模型中的不變性假設（the invariance assumption）往往不成立；（6）損失厭惡（loss aversion）在個人和團體的決策中扮演了關鍵角色。

就研究對象而言，明茨認為「行為主義國際關係」不僅應該研究國家領導人，還可以納入一般意義上的政治、商業、軍事精英，以及國家機構、政黨和普通大眾的行為。通過結合情境因素（situational factors）、環境因素（contextual factors）和個人因素（individual factors），利用實驗、計算模型､仿真模擬､行為—實驗博弈論（behavioral-experimental game theory）、空間模型、統計分析、比較案例分析、社會調查、內容分析（content analysis），以及精英訪談（elite interviews）等方法，「行為主義國際關係」可以通過建立更加符合現實和實際的心理認知及決策機制來增加對國際關係、國際政治問題的解釋力｡

在目前的「行為主義國際關係」研究中，明茨和沃克（S. G. Walker）的研究構成了兩個主要並且仍在不斷拓展的分支，其研究重點和方式既有聯繫也有區別。明茨的多元啟發理論（polyheuristic theory）和多元迷思綜合徵理論（polythink syndrome）更多從心理學的角度出發來研究個體決策的內在心理機制和團體決策的互動機制，而沃克則在系統測量決策者信念體系的基礎上更側重於決策者在國家層面行為互動的結果。

二、沃克學派的分析框架

沃克及其學生將他們的研究定位為「新行為主義國際關係」（Neo-behavioral Movement in IR）中的一部分。與傳統的行為研究相比，他們對國際關係理論中的「理性」和「權力」概念進行了補充，加入了信念、情緒和動機的影響及作用｡這樣做的目的在於通過發展一種中觀理論，將微觀和宏觀的國際政治現象黏合起來，從而可以更有力地解釋世界政治中的權力運用這一核心問題。在赫德森（V. M. Hudson）看來，沃克的這個研究路徑融合了現實主義、理性主義和認知主義的思想，通過對理性和權力概念進行更豐富、嚴格、縝密的概念化與測量，可以在一個更加堅實的行為模型的基礎上去解釋國際體系層面的事件和演化過程。

沃克學派的分析方法集中體現在三本書中。第一本詳細解釋了行為碼的生成邏輯，以及如何將行為碼反映出的偏好整合進博弈論模型，推導出國家間的互動結果。第二本引入了二元角色理論（binary role theory），嘗試從整體上描述並解釋微觀層面的決策者信念如何導致宏觀層面的國際體系結果｡第三本對行為碼的主要維度進行了補充，增加了關於領導人行為動機的分類，將權力（power）、從屬（affiliation）和成就（achievement）動機與行為碼的特定維度相匹配，同時還嘗試將不同維度的行為碼用於分析不同的議題領域，借用複雜適應性系統的相關概念來模擬國家層面的互動結果。

整體而言，沃克的分析框架包括兩個組成部分：一個是信念世界（the world of beliefs）；一個是事件世界（the world of events）。前者以語境動詞（verbs in context system，VICS）為基礎開展行為碼分析，後者借鑑布拉姆斯（S. J. Brams）的博弈論研究，經由行為碼分析的結果推導出領導人戰略偏好和國家間博弈結果。信念世界由領導人的認知、情感和動機構成，事件世界則由不同行動人（actors）的行為構成。行為碼分析所勾勒出的領導人信念體系將外部事件世界表徵為概括外部政治環境的哲理性信念（philosophical beliefs）和對戰略制定、戰術選擇具有指導作用的工具性信念（instrumental beliefs），這些信念進一步決定行動人在相互博弈中的戰略、戰術和行動。

國內目前對沃克學派的運用主要集中於行為碼分析，還沒有學者對其博弈論分析進行詳細梳理和運用。因此本文將首先針對如何從行為碼過渡到博弈論分析進行說明，然後以美國前總統特朗普為例展示具體的運用過程。

（一）如何推導博弈偏好

在博弈論分析中，確定博弈雙方對博弈結果的偏好排序是獲得分析結果的前提。沃克在設計如何推導博弈偏好時，建構了兩種分析路徑：第一種是自下而上；第二種是自上而下。沃克將這兩種推導路徑統稱為「偏好推導理論」（A Theory of Inferences about Preferences，TIP）｡

就自下而上的路徑而言，沃克將其稱為「遭遇假設」（the first encounter hypothesis），主要產生於以下四個場景：（1）對方國家是新建立的國家；（2）雙方各自的領導人都發生變更；（3）國際環境的外部衝擊導致雙方的博弈環境發生顛覆性變化，比如冷戰結束和「9·11」恐怖襲擊；（4）雙方博弈進入一個全新的領域，比如全球變暖或者核擴散。

在這四類情況下，雙方或者至少一方的歷史行為軌跡模糊不清。由於無法通過歷史經驗來判斷彼此固有的信念體系和戰略偏好，因此只有通過雙方實際的連續互動行為來推測各自的戰略和行動偏好。這種由觀察實際行動來歸納博弈偏好的路徑就被沃克稱為自下而上的路徑。

沃克在概念上將言辭（words）和行為（deeds）的組合視為具體的行動（moves），雙方連續交替的行動構成不同的戰術（tactics）。比如在雙方遭遇之初，我方（Self）首先以言語威脅，對方（Alter）回報以言語威脅。這樣在第一個回合的互動中雙方都使用了言辭。第二個回合開始如果我方調動軍隊，就是採取了具體行動。如果接下來對方轉而採取了展示合作姿態的行動，那麼這時候就可以判斷對方在第一回合第二步中的言語威脅不過是虛張聲勢。

現實中雙方的實際互動組合可以非常複雜，沃克在分析中將言辭和行為的類型簡化為升級緊張局勢（E，escalatory）和緩和緊張局勢（D，de-escalatory）兩大類，這樣雙方互動所構成的戰術選擇就可以通過不同的D、E組合來表示。在上述例子中，我方和對方的四步互動順序就可以表示為EEED。我方第一步言語威脅是升級緊張局勢E，對方言語威脅也是升級緊張局勢E，我方調動軍隊是升級緊張局勢E，對方第四步讓步合作是緩和緊張局勢D。

通過上述EEED這兩個回合的互動，雙方可以推導出各自的行為偏好。就我方而言，戰術組合以E開始，中間經過對方的E，最後以我方的行動E結束，所以可以表示為EEE。沃克將我方的這種戰術模式定義為「懲罰」。因為在EEE這三步中，我方升級後，對方也升級，但我方選擇再次升級，立場強硬。

就對方而言，對方的行為順序是EED，被沃克定義為「虛張聲勢」。因為在這個組合中，在看到我方此前第一步升級後，對方第一步反應也是升級，但在看到我方再次升級後，對方最後一步的反應反而是緩和，那麼對方最初第一步的升級反應就被判斷為虛張聲勢。基於同樣的邏輯，沃克還定義了其他六類戰術（表1）：

從表1可以看出，根據不同的行動組合，沃克歸納了八種戰術，分別是「綏靖」（Appease）「回報」（Reward）「威懾」（Deter）「壓榨」（Exploit）「虛張聲勢」（Bluff）「逼迫」（Compel）「懲罰」（Punish）和「霸凌」（Bully）。在這八種戰術的基礎上，沃克又將我方和對方的偏好具體化為合作與衝突兩種戰略取向，分別以加號（+）和減號（-）來代表。加號代表偏好合作，減號代表偏好衝突。除此之外，沃克還考慮了雙方對博弈結果的相對掌控能力，根據相對能力的差異分別以大於（>）、等於（=）和小於（<）來代表。「大於」代表我方的掌控能力大於對方，「等於」表示雙方的掌控能力相等，「小於」表示我方的掌控能力弱於對方。這樣就構成了由行動組合可以推導出的不同信念組合。沃克將表1所展示出的這個推導過程稱為「認知不確定交換」（Cognitive Uncertainty Exchange，CUE）。

在實際分析運用中，這一部分的信念推導過程並不需要依賴行為碼分析。從雙方可觀察到的實際互動中推導出不同的信念組合之後，就可以利用與信念組合相對應的博弈偏好來進行下一步的博弈論分析。從沃克及其合作者發表的研究成果來看，採取這種自下而上推導路徑的研究少於另一種基於行為碼分析的自上而下推導路徑。

就自上而下的分析路徑而言，在通過行為碼分析中的「情景動詞法」（Verbs in Context System，VICS）得到的結果中，I-1、P-1和P-4被沃克定義為行為碼中的「關鍵信念」（master beliefs）。I-1測量我方的總體戰略取向（strategic orientation），也就是領導人講話文本中所透露出的自我戰略取向。P-1測量我方關於對方的總體戰略取向判斷。P-4測量我方對自身掌控事件走向的相對能力（locus of control））的判斷，即對局面掌控力的自我評估和認知｡與自下而上的推導路徑相同，沃克也將我方和對方的戰略取向具體簡化為合作與衝突兩類，分別以加號（+）和減號（-）來代表｡掌控事件走向的相對能力也分別以大於（>）、等於（=）和小於（<）來代表。「大於」意味着我方認為自身的掌控能力大於對方，「等於」意味着我方認為自己的掌控能力和對方一致，「小於」意味着我方認為自己的掌控能力弱於對方｡

與自下而上利用觀察到的行動來推導信念組合不同，在運用行為碼結果進行自上而下的推導中，沃克將I-1、P-1和P-4這三個關鍵維度與一個由全球不同國家領導人所構成的基準組進行比較。I-1和P-1的值如果高於基準組的平均值，得到的結果就是加號（+），低於基準組的平均值就是減號（-）。P-4如果低於基準組平均值一個標準差，就是小於（<），大於基準組平均值一個標準差就是大於（>），在正負一個標準差之內就是等於（=）。

通過和基準組比較得到的結果與自下而上的推導結果類似，也是六種情況（表2）：

通過自下而上或者自上而下的分析得出雙方的博弈偏好之後，下一步就進入具體的博弈模型建構。與將行為碼分析得到的信念體系簡化為戰略取向和局面控制力兩個維度類似，就博弈過程而言，沃克將雙方的互動簡化為選擇合作（CO）還是衝突（CF）。如果雙方都選擇合作，結果被定義為「和解」；雙方都選擇衝突，結果被定義為「僵局」；在一方選擇衝突，而另一方選擇和解的情況下，兩個結果分別被定義為「主導」和「退讓」（表3）。

依據表3中的定義，將雙方博弈得到的結果整合在一起，就獲得如表4所示的基本博弈模型，該模型由於是單獨基於我方視角出發對自身和對方的判斷，因此被沃克稱為「主觀博弈」（subjective game）。

在「主觀博弈」中，每一方都面臨四個可能的結果。如要推導出博弈均衡態就需要假設雙方對四種結果的不同偏好。沃克根據前述自下而上或者自上而下路徑推導出的信念組合，歸納了六種策略及其對應的結果偏好（表5）。

（二）博弈論分析過程

以上通過自下而上或者自上而下的分析路徑，得出分析對象對自我和對方的博弈結果偏好判斷之後，就完成了博弈論分析的第一部分，也就是沃克所謂「偏好推導理論」（TIP）這一步｡接下來就需要進行博弈論分析求得雙方的博弈均衡結果。在這一階段沃克借用了布拉姆斯1994年發表的「行動理論」（Theory of Moves）。

布拉姆斯的分析邏輯可以由表6的例子加以說明。在這個博弈中，其納什均衡為（3，2）。如果雙方博弈的起始點位於此象限，運用布拉姆斯的「前瞻邏輯」（the logic of 「thinking ahead」），雙方就將在（4，3）達成新的均衡｡這個均衡被布拉姆斯稱為「非短視均衡」（non-myopic equilibrium）。具體推導過程如下｡

使用逆向歸納法（backward induction），雖然（3，2）是雙方的實際起始狀態，但在推理過程中可以先將（3，2）視作雙方博弈的終點，然後反向推理回到（3，2）這個實際的起點。在（3，2）這個位置，雙方都需要考慮兩種選擇，是留在原位，還是移動至新的位置。就我方而言，採用順時針推理。上一步，如果雙方在（2，1），那麼對方有動力移動到（3，2），因為對方的收益會從1增加到2；上兩步，我方沒有動力從（4，3）移動到（2，1），因為我方的收益將從4減少到2；上三步，對方沒有動力從（1，4）移動到（4，3），因為那樣對方的收益將從4減少到3，所以在（3，2）這個位置，經過前瞻性思維，我方會選擇留在原位，而不會移動到（1，4）。

但對方同樣運用前瞻性思維時，會選擇從（3，2）移動。從（3，2）出發，對方採用逆時針推理。上一步，我方會從（1，4）移動到（3，2），因為我方的收益將從1增加到3；上兩步，對方不會從（4，3）移動到（1，4），因為對方知道一旦移動到（1，4），雖然收益會從3增加到4，但我方會隨即移動到（3，2），這樣對方的收益最終從（4，3）中的3下降到了（3，2）中的2；上三步，我方會從（2，1）移動到（4，3），因為我方的收益將從2增加到4，這就給了對方從（3，2）移動到（2，1）的動力。因為這樣移動之後，我方就會從（2，1）移動到（4，3），對方在（4，3）最終獲得的收益是3，大於在初始狀態的收益2。

假設雙方都洞悉對方的推理過程，以及雙方都能夠自主行動，在對方會從（3，2）起始狀態選擇移動的情況下，也就是移動到（2，1），我方就會選擇移動到（4，3）。在（4，3）處，根據上述推理邏輯，雙方將不再移動，所以（4，3）就是新的均衡。在這個位置雙方的收益都要好於納什均衡。

以上例子只是基於雙方一組偏好的結果。在雙方都有六種偏好的情況下，這些偏好兩兩組合一共有15種方式。但是根據沃克的解釋，有些特定偏好組合在邏輯上存在矛盾。因為在沃克的設計中，決定偏好的第二個維度是P-4，代表我方自身和對手的局面掌控力。這個主觀判斷如果要做到邏輯自洽，那麼在（<）、（=）、（>）三種可能情況中，判斷一方掌控程度低，另一方就必須是掌控程度高，或者雙方的掌控能力一致，不能出現雙方都低或高的情況。因此沃克實際考慮了12種博弈，每一種模式中在不同起始狀態下能夠形成哪些「非短視均衡」，沃克在書中根據布拉姆斯的研究成果都已經給出，可以直接運用，而無須使用者重複分析（見本文附件）。

整體而言，沃克認為對外政策決策就是領導人在國家的戰略互動中所做的選擇。基於這個認識，他通過信念空間和事件空間這兩個概念將微觀的心理認知和宏觀的行為互動結合起來。信念空間中的元素定義了領導人所有可能的心理認知狀態；事件空間中的元素定義了所有可能的行動選擇。兩個空間的互動降低了各自空間中的熵，也就是降低了各自空間中的隨機程度或者說不確定程度，從而達到某種可以觀察到的均衡狀態。為了便于歸納論述，沃克借用1930年代出現的角色理論，從角色認知、角色建構和角色行為的層面將領導人心理認知狀態簡化為戰略取向和局面掌控力兩個維度，將行為選擇簡化為合作和衝突兩個選項，建構了被他稱為「二元角色理論」的分析體系（binary role theory），即上述從行為碼到博弈論的分析過程。如圖1所示，通過雙方的行動互動或者行為碼分析，利用偏好推導理論，得出雙方的博弈結果偏好，然後基於行動理論，得到博弈的「非短視均衡」結果。

三、以特朗普為例的博弈論分析

為了進一步展示沃克方法的實際運用過程，本文以美國前總統特朗普為例，分析特朗普任內美國與他國博弈的幾種可能結果。依據加州大學聖巴巴拉分校維護的總統文件網站，作者選取了從2017年至2020年特朗普任內55篇有關美國對外政策的正式講話。以年為單位，使用Profiler7.3.2軟件進行集中分析，得到了特朗普的行為碼（表7）。

依據本文第二部分介紹的分析邏輯和步驟，如表7所示，通過將特朗普的I-1、P-4分值與基準組分值相比較，得到特朗普的信念組合在2017年是（-，=），此後從2018年到2020年都是（+，=）。也就是說特朗普在2017年的總體戰略取向是偏向於採取對抗措施，而之後則偏向於採取合作措施。如果假設特朗普公開講話的宣示反映了他真實的戰略偏好，而且特朗普在行動中也會遵循這一偏好，那麼根據沃克的「偏好推導理論」，我們可以得出特朗普的博弈結果偏好。

根據表5，（-，=）對應的是囚徒困境策略，結果偏好排序為主導（Dominate）>和解（Settle）>僵局（Deadlock）>退讓（Submit）；（+，=）對應的是保證策略（Assurance），結果偏好排序為和解（Settle）>僵局（Deadlock）>主導（Dominate）>退讓（Submit）。

從沃克列出的12種偏好組合中，可以建構四種模型，涵蓋特朗普和任何一個國家的一般博弈情況。在特朗普的信念組合是（-，=）的情況下，有兩種博弈模型：

圖2中第一個模型表示當特朗普判斷對方的信念組合為（+，=）時，博弈模型的非短視均衡結果（下劃線部分）為（CO，CO）或者（CF，CF），也就是和解或者僵局；第二個模型中當特朗普判斷對方的信念組合為（-，=）時，非短視均衡結果相同，也是和解或者僵局。具體得到哪一種均衡結果有賴於雙方的起始狀態（見附件）。第一個模型中，如果起始狀態是和解或者僵局，最後的均衡態就是和解；如果起始狀態是一方主導，一方退讓，最後的均衡態就是僵局。第二個模型中，如果起始狀態是和解，最後的均衡結果也是和解；在其他三種起始狀態下則都會導致僵局。

當特朗普的信念組合在2018-2020年從（-，=）轉變為（+，=）時，兩種可能的博弈模型結果如圖3所示，結果也是和解或者僵局。

具體而言，當特朗普判斷對方的信念組合和自己一樣，也是（+，=）時，無論雙方的初始狀態如何，最後的均衡態都是和解；當特朗普判斷對方的信念組合是（-，=）時，如果初始狀態是和解，或者特朗普主導，對方退讓，那麼最後的均衡態是和解；如果初始狀態是對方主導，特朗普退讓或者僵局，那麼最後的均衡態就是僵局。

從對方的視角出發，假定特朗普的信念組合為（-，=），無論雙方的起始狀態是和解還是僵局，如果對方的言行讓特朗普判斷出對方的信念組合是（+，=），那麼雙方在這種偏好下的博弈結果是和解。但如果雙方的起始狀態是一方主導，而另一方退讓的不平衡狀態，那麼即使對方展示出的信念組合是（+，=），也就是謀求合作，雙方博弈的結果也是僵局。如果對方展示的信念組合是（-，=），在雙方的起始狀態是和解的情況下，即使雙方都展示出選擇衝突（-）的姿態，最後的博弈結果也還是和解。不過如果雙方的起始狀態是其他三種情況，也就是一方主導，另一方退讓，或者已經陷入僵局的情況下，那麼雙方最後的博弈結果就是僵局。

當特朗普的偏好從（-，=）轉為（+，=），也就是特朗普的姿態從尋求對抗轉為尋求合作時，如果對方也是（+，=）的姿態，那麼無論雙方的起始狀態如何，最後的博弈結果都是和解。但是如果對方採取（-，=）的姿態，那麼最後的博弈結果就既可能是和解，也可能是僵局，要視雙方博弈的初始狀態而定。比如在對方占主導，而特朗普退讓的情況下，或者已經形成僵局的情況下，當特朗普展現出合作的姿態，如果對方此時展示出對抗的姿態，那麼最後的博弈結果就是僵局。

以上以特朗普為例的分析一方面演示了從行為碼分析至博弈論分析的全過程，另一方面探討了基於特朗普所表現出的信念和結果偏好，對方不同應對模式下各種可能的博弈結果。就分析的完備性而言，目前的分析方法還存在很大的改進空間。

四、針對沃克方法的改進和拓展

赫德森（V. M. Hudson）在評價沃克的研究時，高度讚揚了他有關決策者信念體系的研究，認為他在很大程度上打開了理性假設的黑箱，讓我們得以從信念和動機的角度來綜合考察微觀行為和宏觀系統結果之間的關係。但赫德森也指出，沃克基於布拉姆斯博弈論模型來建構「事件世界」，並進一步推導國際體系層面國家互動結果的這樣一個分析路徑仍然值得商榷。赫德森認為把國家間複雜的互動模式簡化為合作與衝突這兩種選擇的方式過於抽象了。

布拉姆斯關於雙人博弈的研究相對於傳統的完全信息條件下的靜態博弈是一個進步，因為他納入了雙方交替行動的過程，成為完全信息條件下的動態博弈。但布拉姆斯在書中也指出自己的研究僅僅是研究更複雜策略和更多博弈主體數量的一個出發點。具體而言，布拉姆斯專注的是雙人雙策略博弈，即限定在只有兩個人兩種選擇的情況下的可能博弈結果。與傳統的完全信息條件下的靜態博弈相比，在納入了雙方交替行動的過程並允許雙方進行「前瞻性」判斷（thinking ahead）的前提下，布拉姆斯設計了六條博弈規則：（1）博弈的起點來自四個象限中的一個；（2）雙方中的一方首先決定是選擇留在起點還是移動到其他象限；（3）一方行動後，另一方再決定是留在原地還是移動到其他象限；（4）如果雙方都決定不再移動，博弈即終止，雙方所處的象限就是最後的均衡結果；（5）任何一方選擇移動的前提都是博弈的最終結果要好於起始狀態。如果一方預判最終的均衡結果就是初始象限，那麼就會選擇留在原地；（6）雙方都掌握完全信息，也就是各自掌握對方的完整偏好和行為。如果一方決定移動，—方決定不移動，那麼移動的一方獲得優先權，也就是一方選擇移動就可以改變雙方所處的象限位置。在進行決策時，雙方都採用逆向歸納法（backward induction）。

在這六條規則的基礎上，布拉姆斯的研究窮盡了雙人雙策略所有78種組合的結果，如前所述，與傳統的納什均衡不同，他將這些結果稱為「非短視均衡」（nonmyopic equilibria）。

沃克在行為碼基礎上發展出的博弈論分析直接借鑑了布拉姆斯的研究。不過為了使決策者的判斷和行動邏輯一致，沃克僅僅使用了布拉姆斯78個模型中的12個，這導致客觀上存在兩方面的不足。沃克在最新的研究中彌補了第一個不足，但還未涉及第二個。

首先，雖然布拉姆斯在後續的拓展研究中考慮了雙方實力不均衡以及不完全信息條件下的博弈結果，但沃克的分析尚未涉及。儘管行為碼測量了決策者的心理認知特點，但其博弈論求解階段的一個重要假設是要求決策者的判斷在邏輯上保持內在一致性。也就是從決策者自身的視角出發，其對自身和對方的判斷不能在邏輯上矛盾。這也是沃克將這種基於決策者單方判斷形成的博弈模型稱為「主觀博弈」的原因。雖然這樣的博弈模型可以涵蓋決策者一方的錯誤知覺，但沃克前期的經典分析沒有考慮雙方判斷存在邏輯衝突的情況下的博弈互動結果。

針對這第一個不足，沃克在2021年最新的研究中已經做出了改進，在模型中開始使用博弈雙方的獨立判斷。比如在分析美國和俄羅斯的互動中，沃克就分別分析了普京和小布什的偏好，然後基於兩人各自的偏好建構了博弈模型，被沃克稱為「客觀博弈」（objective game）。在這樣的模型設定中，允許出現雙方在邏輯上矛盾的偏好。

仿照沃克的最新改進，以特朗普為例，可以發現博弈結果確實出現變化。從2018年至2020年，特朗普的信念偏好為（+，=），即希望採取合作而且認為自己對局面的掌控力與對方相當。假設對方獨立展示出的偏好為（+，>），也就是對方也希望合作，但對方認為自己對局面的掌控力大於特朗普，那麼雙方的博弈結果就如圖4所示。

可以看出，與此前分析不同，雙方博弈的結果既可以是和解，也可以是特朗普退讓，但對方主導。不過目前沃克的分析路徑仍然沒有完全解決的問題是說明或者解釋導致不同博弈均衡態的具體作用機制。比如在圖4中，特朗普退讓，對方主導，但特朗普反而獲得其最優結果，而對方僅獲得其次優結果。如果我們把對方認為自己的掌控局面能力大於特朗普解讀為過度自信，沃克分析方法目前還無法解釋為什麼過度自信反而讓對手得到其最優結果。

沃克分析方法的第二個不足在於沒有考慮雙方實際收益差距對博弈結果的影響。這和布拉姆斯的原始博弈模型設定有關。在布拉姆斯的研究中，雙方對不同結果的偏好是以序數效用（ordinal utility）而不是以基數效用（cardinal utility）為基礎。也就是說，代表不同結果效用的4､3､2､1這些數字只代表不同結果排序，而無法通過具體的數學運算來計算不同情況下的實際收益。如此一來，就迴避了新自由制度主義和結構現實主義關於絕對收益和相對收益的經典爭論，即國家博弈不僅關心最後的結局，還關注各自的相對收益。

關於使用序數效用還是基數效用以及策略式博弈（normal/strategic-form）和擴展式博弈（extensive-form）的優劣和適用性問題，布拉姆斯和斯通（R. W. Stone）之間曾經爆發過激烈的爭論。斯通認為序數效用過於簡化了博弈中的信息互動過程，因而很難得到有意義的普遍結論。布拉姆斯則認為通過將擴展式博弈濃縮成基於序數效用的策略式博弈可以更加簡潔地對從博弈起點到結果加以解釋。雖然布拉姆斯不反對使用基數效用，但他認為在研究博弈雙方策略選擇的初始階段，序數效用更簡潔有力。另外，他懷疑根據基數效用建構的更複雜模型並不符合實際博弈情況。由於信息和認知能力等各種因素干擾，博弈雙方會更傾向於使用簡單的經驗法則（rules of thumb）來決策。

本文認為將沃克博弈模型中的序數效用重新定義為基數效用，並使用主體建模的方法來仿真模擬多次重複或者無限次重複博弈，可以嘗試作為改進沃克方法的另一條路徑。布拉姆斯使用序數效用聚焦於博弈雙方最終的均衡態策略選擇，但這不妨礙我們使用基數效用去進一步打開博弈過程的黑箱，探究博弈過程中在均衡態形成之前雙方的策略選擇範圍。從複雜性因果（causal complexity）的視角來看，博弈中存在「等效性」（equifinality）或「殊途同歸」的現象，也就是不同的博弈路徑都可以導向同一個結果。探究「等效性」存在的範圍將進一步豐富我們對博弈過程的認識以及對最終結果的判斷。

仿真（simulation）作為一種特殊的建模方式，可以為分析「等效性」問題提供有力的支撐。目前傳統的還原論､歸納推理等方法在解釋人類社會行為這樣一個非線性複雜系統時所面臨的巨大限制已經日益凸顯。比如當下主流的定量統計模型就受到線性疊加假設的束縛。在社會科學領域，突破傳統方法的限制，針對非線性複雜行為最有效的研究手段就是計算機仿真。與基於方程的仿真方法相比，「多主體建模」方法（agent-based modeling）因為其靈活性和適用範圍而日益受到更多青睞。

本文作為一個初步嘗試，在主體建模中考慮了博弈雙方偏好邏輯一致與不—致兩種情況。前者對應雙方都保持正確認知，後者對應雙方之間發生錯誤認知。使用特朗普在2018-2020年的偏好，也就是在特朗普採用保證策略的情況下（+，=），本文為對方設置了三種策略：保證（+，=）､囚徒困境（-，=）和脅迫（-，>）。前兩個策略下雙方邏輯一致，最後一個則存在邏輯衝突，即特朗普一方判斷雙方對事態的把握能力一致，但對方認為自己的把控能力大於特朗普。這樣也可以將主體建模的結果和沃克的博弈論最新改進結果進行比較。

和沃克的方法不同，本文的主體建模方法除了採用基數效用而不是序數效用，還參考了重複博弈論中的經典戰術選擇，納入了四種戰術：保持合作､保持衝突､以牙還牙（tit-for-tat）以及延遲報復（tit-for-two-tats）。這樣就補充了沃克和布拉姆斯沒有考慮到的雙方互動的動態特點。圖5顯示了使用NetLogo編程語言所建構的博弈環境。

通過使用NetLogo中的BehaviorSpace功能，本文通過100次博弈遍歷了所有策略和戰術選擇組合情況下雙方的收益結果。首先，在特朗普採取保證策略並選擇保持合作戰術的情況下，由表8可以看出，無論對方採取保證、囚徒，或者脅迫戰略中的任何一種，特朗普的收益都是3.79，而對方的收益則在1.89-3.79之間變動。對方如果選擇保證策略，但選擇保持衝突的戰術，收益只有1.89。如果選擇保持合作，或者以牙還牙以及延遲報復這三種不同的戰術，收益最終則能達到3.79，和特朗普相等。這種狀態下雙方的均衡態是和解。其次，對方如果選擇囚徒困境策略，這個時候選擇保持衝突戰術就能獲得與特朗普選擇保持合作戰術一樣的收益，也就是3.79。其他三種戰術的收益則只有2.85。這種狀態下特朗普選擇保持合作，而對方選擇保持衝突，雙方的均衡態就是僵局。最後，如果對方採取脅迫的策略，通過衝突戰術將能夠獲得最大收益，達到和特朗普一樣的3.79，因此雙方的均衡態也是僵局。整體而言，在特朗普採取保證策略的姿態之下，對方在保證、囚徒困境和脅迫三種策略中，無論採取四種戰術中的哪—種，保證策略的平均收益最高，脅迫策略的平均收益則最低。

主體建模考慮的第二種情況是特朗普採取保證策略並選擇衝突的戰術。如表9所示，對方在採取保證和脅迫兩種策略時，通過和特朗普相同的衝突戰術都可以獲得與特朗普一樣收益，也就是2.85。而在囚徒困境的策略下，無論採取何種戰術，其收益都要低於特朗普，而且平均收益也低於保證和脅迫策略。考慮到保證策略是宣示將採取合作的姿態，而脅迫策略是宣示將採取衝突的姿態，那麼對方可以根據國內政治的需要對外採取不同的公開姿態，但在實際博弈中，通過衝突的戰術來獲得最大收益。整體而言，當特朗普採取保證策略但是選擇衝突的時候，雙方的均衡狀態為僵局。

除了上述兩大類場景，本文還考慮了第三類情況，也就是特朗普採取保證策略但是隨機選擇合作或者衝突的戰術。這種情況類似於對方由於信息受限或者特朗普的個性特徵導致對特朗普的實際戰術選擇無法做出明確判斷，導致在對方判斷中特朗普的戰術選擇類似於隨機行為。這種情況下，雙方的收益如表10。

在特朗普的戰術選擇不明確而顯得隨機的情況下，對方採取公開的保證策略和以牙還牙的戰術，得到的收益是2.49。採取囚徒困境策略和衝突的戰術，得到的收益是2.82。採取脅迫策略和衝突的戰術，得到的收益是3.27。這是唯一在收益上和特朗普相等的局面。因此整體來看，如果特朗普採取保證策略，但具體戰術不明，對方的最佳選擇是採取脅迫策略和衝突戰術，也就是以不變應萬變。這也說明如果特朗普表面上宣示保證策略這種公開姿態，也就是希望合作，但如果實際操作層面雜亂無章毫無規律可言，對方最好的應對就是公開宣示不合作並採取衝突的戰術。這樣才能夠在和特朗普的博弈中不落下風。通過引入基數效用和戰術選擇，主體建模方法的結果顯示出相較沃克方法更多層次的戰略互動可能性。

五、討論

作為行為主義國際關係研究中的重要分支，沃克學派的行為碼和博弈論分析提供了一個將微觀心理認知和宏觀國家行為融合在一起的途徑。本文在詳細介紹沃克博弈論分析的基礎上，利用主體建模的方法對沃克的分析路徑進行了初步改進和拓展。

沃克方法目前直接將領導人的心理偏好等同於國家的心理偏好，將領導人之間的個人博弈等同於國家博弈。在博弈論分析中只使用了序數效用和完全理性條件下的完全信息博弈。通過採用基數效用並且比較博弈雙方相對收益的大小，本文的主體建模分析結果顯示，在行為碼心理分析的基礎之上，除了獲得對決策者戰略偏好的判斷，在國家博弈層面，還需要增加對決策者戰術偏好的判斷，兩者結合之後可以對雙人博弈展開更加深入的分析。本文的主體建模模型結果表明，看似矛盾的戰略和戰術組合可以取得相同的相對收益，這為將來進一步研究國際博弈中推動特定國家選擇特定戰略和戰術組合的國內機制因素打開了空間。複雜性因果中的「等效性」或「殊途同歸」問題在國際關係中的表現有待進一步發掘。最後，通過模擬隨機狀態下的最佳戰略和戰術應對，本文也展示了如何在非完全理性條件下探索國家間可能的互動規律。

目前最前沿的「行為主義國際關係」研究正在超越運用認知心理學對傳統理性選擇模型進行糾偏和修補這一路徑，嘗試綜合神經科學、生物學、生理學和遺傳學來探究環境和人類基因演化之間的互動如何決定人的行為。除了這一更廣泛的跨學科研究路徑，本文的主體建模研究顯示，複雜非線性系統視角下的模擬仿真可以進一步挖掘傳統博弈論中尚未得到充分利用的理論資源。在未來的研究中，主體建模方法還可以納入博弈雙方的時間觀念、可靠信號機制以及學習機制，並將雙方博弈擴大到多方博弈，從而進一步推動「行為主義國際關係」研究路徑在個體認知的基礎上去拓展針對國家宏觀博弈規律的研究。

六、附件

此附件中的博弈模型根據謝佛和沃克2006年所編輯的書的第60頁製作。博弈模型中的四個象限的編號從左上象限順時針分別為0、1、2、3。基於起始象限不同，