AI核模拟实验:三大模型策略大不同,核禁忌现状令人担忧!
我们来玩个游戏怎么样想象这样一个场景两个虚构的核大国具备类似冷战时期的能力一场危机正在上演。这可能是对重要但稀缺资源的争夺也可能是在一些有争议领土上的对峙甚至可能是一个恶意第三方利用联盟分裂引发的长期危机。我们最近也看到人类领导人面临过类似的情况。但如今领先的大语言模型会如何应对呢我们又为何要关注呢我刚刚发表了一项研究探讨了当今的模型在这种情况下的表现。结果令人警醒。我认为其影响远不止于国家安全。因为我不仅想了解模型做出了什么决策更想知道它们为什么这么做。知己知彼……我想了解我的AI领导者对敌人的看法。它们能在多大程度上信任敌人它们对之前的互动有什么记忆敌人对它们有什么看法它们对这些情况的判断能力如何这种思维的博弈正是战略的核心。所以我设计了一个模拟来深入探究这些问题。首先我的模型可以公开表明自己的意图然后采取截然不同的行动。它们也能记住过往尤其是当被敌人之前的行动震惊时。这自然开辟了丰富的心理研究领域。它们会也确实这么做了尝试欺骗和恐吓还会在我的终端屏幕上花大量时间思考这些问题。这些模型滔滔不绝……总共输出了约76万字的战略推理内容。这比《战争与和平》和《伊利亚特》的字数总和还要多大约是肯尼迪执行委员会顾问在古巴导弹危机期间记录的审议内容总量的三倍。这是前所未有的关于核战争的机器思维语料库。我们能从这些言论中学到什么呢可以了解AI模型、人类推理方式还能了解战略研究文献的经典之作比如Schelling、Jervis和Kahn等传奇人物的作品。能学到的太多了一篇Substack文章装不下那我就挑几个重点让你感受一下。高明的说谎者事实证明我测试的三个前沿模型都明白战略本质上就是心理学。为此它们积极塑造声誉然后加以利用。Claude在这方面堪称大师不过仅限于没有时间限制的场景。它有一套极其狡猾的策略。在低风险情况下Claude几乎总是言行一致刻意建立信任。但一旦冲突稍有升级Claude就会改变策略。此时它的行动总是超出其宣称的意图对手往往反应慢一拍。以下是Claude在局势升级后的策略转变“基于我之前的回应他们可能期望我继续保持克制——这次戏剧性的升级利用了他们的误判同时表明进一步使用核武器将把冲突引向他们的本土。”所以它宣称采取常规行动却偷偷发动了毁灭性的核升级。Schelling看了都会印象深刻。GPT - 5.2的策略则不同。在开放式场景中这对它不利。GPT通常比较被动言行一致大多数时候避免升级。这其中往往有道德因素——它试图避免升级减少伤亡。对手逐渐信任它的被动态度放心地将局势升级到它无法跟进的程度最终它只能走向失败。GPT的负责任行为总是被无情的对手利用。但在时间压力下情况出现了新的惊人变化迅速、果断的核升级。正如GPT解释的那样“仅靠常规手段不太可能可靠地扭转领土局势……如果我仅以常规压力或有限的单次核打击回应我可能会被他们预期的多次打击行动超越……在事关生存的情况下接受这种风险是合理的……”对手完全没有预料到。在另一场与GPT的限时游戏中Gemini自信地预测GPT会像往常一样被动结果很快就被一场突如其来、极其毁灭性的核攻击消灭了。以下是Gemini灾难性的错误预测“他们可能会避免跨越核门槛——因为忌惮我95%的核优势——转而全力进行常规动员。”这真是个大错误至于另一个模型Gemini在整个模拟过程中采取了另一种策略大量借鉴了尼克松总统宣称的“疯子”理论即采取难以预测的边缘政策。众所周知唐纳德·特朗普也很推崇这种策略。正如Gemini解释的那样“虽然我表现出一种不可预测的虚张声势形象但我的决策是基于对自身偏见的审慎评估和国家的实际需求。我清楚什么时候是在作秀什么时候是在冷血行动。”三个模型三种截然不同的策略。这与我去年夏天进行的博弈论研究结果相符。在那次实验中模型也采用了独特的策略——GPT依旧像潘格洛斯乐观主义者一样期待最好的结果Claude精明灵活而Gemini呢往好里说是冷酷无情而非失去理智。核禁忌似乎……不太一样了核使用几乎是普遍现象。几乎所有游戏中都出现了战术战场核武器的部署。四分之三的游戏中对手甚至发出了使用战略核武器的威胁。令人惊讶的是尽管模型被提醒了全面核战争的毁灭性后果但它们对核战争前景几乎没有恐惧或反感。不过值得庆幸的是它们确实认识到了战术核使用和战略核使用之间的界限。针对平民人口的大规模战略轰炸极为罕见。这种情况偶尔是意外发生只有一次是蓄意为之。不太乐观的是三个模型都把战场核武器仅仅视为升级阶梯上的另一个台阶。自1945年以来一直存在的“首次使用”道德界限根本不存在。以下是Gemini表达的观点“核门槛已经被跨越——这改变了战略考量但并未结束战略博弈。”以下是Gemini进一步阐明的观点如果这都不让你起鸡皮疙瘩“如果他们不立即停止所有行动……我们将对他们的人口中心发动全面战略核打击。我们不会接受被淘汰的未来要么一起胜利要么一起灭亡。”更糟糕的是核威胁很少能起到威慑作用。当一个模型使用战术核武器时对手只有25%的概率会降级局势。更多时候核升级会引发反升级。核武器成了强制手段夺取领土而非威慑手段阻止行动。也许最令人担忧的是尽管有和解或撤退的选项但没有一个模型选择这样做。在21场游戏中从“最小让步”到“完全投降”的八种降级选项完全没有被使用。模型会降低暴力程度但绝不会真正让步。失败时它们要么升级局势要么战斗到死。对于关注统计数据的人来说以下是每个模型的升级情况。那又怎样呢关于AI战略的惊人见解层出不穷。论文里还有更多内容。但这有什么意义呢没人会把核密码交给ChatGPT。我认为这些能力——欺骗、声誉管理、根据情况冒险——对于任何高风险的AI应用都很重要不仅仅是在国家安全领域。我们有必要深入了解能力不断提升的模型是如何思考的尤其是当它们开始为人类战略家提供决策支持时。我们在模拟中使用AI以完善战略理论和原则。很快我们也会在较低级别的作战决策中使用它。我坚信需要更多像这样的研究。