在AI社会抓「内鬼」?上海AI Lab推出首个多智能体极端事件解释框架
序言:数字镜像中的极端涌现
风起于青萍之末、不稳定的害群之马、羊群效应、毒瘤行为......
—— 在数字镜像的背面,这群科学家凝视着 AI 社会的「黑天鹅」时刻。
2023 年,斯坦福「模拟小镇」(Smallville)的爆火出圈,开启了大语言模型(LLM)驱动多智能体系统(MAS)模拟人类社会的元年。
如今,学术界已经构建出了各种高度复杂、垂直领域的 MAS 沙盒 —— 从复现宏观经济运行的社会系统,到模拟股票交易的金融市场,再到推演舆论演化的社交网络。多智能体系统,正真正成为全方位映射人类社会的数字镜像。
然而,随着系统复杂程度的攀升,一种令人不安却极具研究价值的现象随之浮现:恶性通胀、股市崩盘、群体极化…… 这些现实人类社会的「黑天鹅」极端事件,竟也在这群 AI 身上精准重演了。
这类极端事件的出现并非源于代码漏洞,而是来自系统演化的自发涌现。
由上海人工智能实验室联合上海交通大学、复旦大学、中国人民大学、同济大学开展的一项最新研究,决定拆解这些数字镜像中的「黑天鹅」演化过程,揪出那个藏在复杂涌现背后、诱发系统崩溃的「内鬼」。

论文链接: https://arxiv.org/pdf/2601.20538
开源代码: https://github.com/mjl0613ddm/IEEE
涌现背后的「黑盒」难题
智能体之间庞杂的非线性交互,构成了一个巨大的涌现「黑盒」。我们往往能目睹系统一步步滑向崩溃,却难以准确定义:危机是从哪一刻开始滋生的?是谁带的头?又是哪一次微小的交互最终扣动了扳机?
要跨越从「观测灾难」到「解释灾难」的鸿沟,研究团队必须撬开这个系统黑盒,正面回答三个溯源难题:
何时起源(When): 极端事件的火苗,到底是从哪一刻开始积累的?
由谁驱动(Who): 谁是导致系统崩溃的关键高危智能体?
何种行为(What): 究竟是哪些具体的行为模式促成了最终的危机?
在系统重演中做「数字解剖」

针对以上问题,研究团队推出了首个专门用于诊断 MAS 极端事件的解释框架。
这套框架的核心「手术刀」,正是博弈论中的沙普利值(Shapley Value)。借助这一工具,系统爆发的巨大灾难风险被精准拆解并公平摊分到了每一个智能体、在每一时刻做出的每一个具体动作上。
为了从海量的交互碎片中锁定真相,研究团队将每一个动作的风险贡献,沿着时间、智能体、行为模式(When/Who/What)三个维度进行了归纳聚类。 每一时刻、每一个智能体、每一种行为模式对这场危机造成了多少的边际影响都能被计算结果精准量化。
基于这种全方位的风险画像,团队进一步设计出了五把量化风险的标尺,用以刻画极端事件的演化特征:风险潜伏期、智能体风险集中度
、风险 - 不稳定性相关性
、智能体风险同步性
、行为风险集中度
。

结论:极端事件五大演化规律
研究团队深入宏观经济、金融市场和社交平台等高度拟真的 MAS 沙盒,对多起极端事件进行追踪重演。透过对海量数据的「数字解剖」,研究团队发现,那些横跨不同场景、看似无序的 AI 社会崩盘,最终在底层显现出五条共性的演化规律:

发现 1(风起于青萍之末): 极端事件呈现出差异化的时间演化特征:要么是风险早已埋下伏笔,蓄势待发;要么是大部分风险源于当下,瞬间引爆。
发现 2(害群之马): 极端事件往往由少数的高危智能体驱动。
发现 3(不稳定性): 对系统崩溃贡献越大的智能体,其日常行为往往表现出极高的不稳定性。
发现 4(羊群效应): 智能体之间会形成隐形的默契,它们倾向于同步地增加或减少系统风险。
发现 5(毒瘤行为): 导致系统崩盘的绝大部分风险,其实只源自极少数特定的行为模式。
这些发现共同指向一个结论:极端事件并非不可理解,而是具有稳定结构的系统性结果。
重新编译一个安全的未来
这套框架不光能给出事后的「病理剖析」,它更像是一套面向未来的主动防御系统。
实验结果表明:当研究人员根据框架算出的风险归因分数,在系统中定向移除那些高贡献的「危险动作」并重演后,整体的系统崩溃风险出现了断崖式下降。

这意味着什么?
在风险演化的关键节点,只要精准监管并干预那些具有高危特征的智能体和行为模式,我们有望在 AI 模拟的数字世界 —— 乃至未来的现实社会中,实现真正的防患于未然。
结语:面对多智能体构建的现实镜像,我们不能只做惊叹于涌现现象的看客。掌握解释的工具,才能重新编译一个更加安全的未来。