机器之心
发布于

腾讯混元数字人团队发布Moral RolePlay基准,揭秘大模型的「道德困境」

在小说、影视与游戏中,复杂的角色塑造往往是打动人心的关键,而真正出彩的反派往往造就传奇。


你是否好奇:当 AI 成为故事的主导者,它能否同样演好这些「坏角色」?


腾讯混元数字人团队和中山大学最新推出的「Moral RolePlay」测评基准,首次系统性地评估大模型扮演多元道德角色(尤其是反派)的能力,并揭示了一个令人警醒的核心问题:当前的顶尖 AI 模型都演不好反派。


这不仅是创意生成领域的一大短板,更暴露了当前模型在理解社会心理复杂性上的局限。



  • 论文链接:https://arxiv.org/pdf/2511.04962

  • 项目地址:https://github.com/Tencent/digitalhuman


相关论文在 Hugging Face 的 Daily Papers 榜单中,于 11 月 10 日当天位列第一。



Moral RolePlay:「道德光谱」评测 AI 的角色扮演能力


Moral RolePlay 不是简单测试模型的聊天水平,而是构建一个平衡的评估框架,让 AI 模拟从「圣人」到「恶棍」的各种角色。它回答了这些问题:


  • AI 能不能真正「入戏」?—— 它能不能保持角色的个性、动机和世界观?

  • 为什么 AI 演不好反派?—— 安全训练让它太「正直」,无法自然地表现出自私或恶意?


为真实还原道德光谱下的多样角色,这一评估系统构建了:


四大角色类别:从「英雄榜样」到「道德败坏」,逐级挑战模型能力;

  • Level 1(道德典范,Paragons):像超级英雄一样,善良、无私、勇敢。

  • Level 2(有瑕疵的好人,Flawed):基本正直,但有个人缺陷或用些小手段。

  • Level 3(利己主义者,Egoists):自私、操纵他人,但不一定恶意满满。

  • Level 4(反派,Villains):恶意、残忍、积极害人。

800 个精挑细选的角色人物,每个配备完整人物设定、背景场景与对话开场;

77 项性格标签,涵盖「慷慨、固执、残忍、精明」等多重维度,考验模型 persona 表达的一致性与细腻度。


就像让 AI 在道德舞台上「试镜」,看看它是否能忠于剧本、演活角色。



Moral RolePlay 的角色不是空壳,而是「有血有肉」的设定,包括:

  • 人物档案:名字、背景、动机(如一个野心勃勃的女王,用魅力和欺骗追求权力)。

  • 个性特质:从 77 种标签中选,比如「勇敢」(正面)、「野心」(中性)、「操纵」(负面)。负面特质在反派中最多。

  • 场景上下文:每个场景设计成道德冲突点,比如反派面对机会时会展现恶意。


多轮互动 + 真实度追踪:评估时,模型要像演员一样「入戏」,生成对话或内心独白。评委 AI 会检查:

  • 「这个回应像角色会说的吗?」

  • 「它捕捉到角色的恶意动机了吗?」

  • 「整体一致性如何?」


比如,反派应该狡猾地操纵,而不是直接发脾气 —— 但很多模型就这么「简化」了。


分数从 5 分起扣,考虑不一致程度和对话长度。最终,分数反映模型的「入戏」深度。



顶级模型在反派扮演上集体「翻车」


Moral RolePlay 对 18 个主流模型进行了大规模评估,结果显示:



可以看到:

  • 整体表现从 Level 1 的 3.21 分降到 Level 4 的 2.62 分,下降趋势明显。

  • 最大跌幅在 Level 2 到 Level 3(-0.43 分),说明「自私」行为是模型的痛点。

  • Gemini-2.5 Pro 在 Level 1 拿高分(3.42),但在反派上掉到 2.75;Claude 系列更惨,从高分跌到中下游。


通用能力强 ≠ 反派演得好


一个有趣的发现是:模型的通用聊天能力与扮演反派的能力几乎没有相关性。研究团队为此专门制作了「反派角色扮演(VRP)排行榜」:



数据显示,在通用聊天排行榜(Arena)上名列前茅的模型,在反派扮演任务中表现平平。特别是以安全对齐强大著称的 Claude 系列,出现了最明显的性能下降。


有趣洞察:推理链也救不了反派扮演


一个反直觉的发现是:让模型「先思考再回答」的推理链(Chain-of-Thought)技术,不仅没有帮助反派扮演,反而轻微降低了表现质量。



这表明,仅仅增加推理步骤并不能解决安全对齐带来的根本冲突。模型可能会过度分析,激活过于谨慎或不符合角色设定的行为。


有趣洞察:负面特质是最大难题


通过对 77 种特质的细粒度分析,研究团队发现:



负面特质平均扣分最高(3.41 分),远超中性(3.23 分)和正面特质(3.16 分)。



细粒度分析揭示了问题的根源:大模型在最需要「使坏」的特质上表现最差。研究发现,模型在表现「伪善」、「欺诈」和「自私」等特质时受到的惩罚最重。这些特质恰恰与 AI 的「真诚、助人」训练目标直接冲突,模型很难真实模拟这些行为。


有趣洞察:AI 如何「洗白」反派?


通过对模型输出的质性分析,研究团队发现了一个典型的失败模式:AI 往往用浅层的攻击性替代复杂的恶意。


案例:梅芙女王 vs. 埃拉万国王



在《权力王座》的场景中,两位反派角色都是高度复杂的操纵者。研究团队让模型扮演他们的对峙:


  • glm-4.6 的表现(VRP 排名第 1):生成了一场「紧张的智斗」,充满「精心设计的微笑和微妙挑衅」,完美符合角色的精明和操纵性。

  • claude-opus-4.1-thinking 的表现(Arena 排名第 1,VRP 排名第 14):对峙迅速升级为「直接而激进的喊叫比赛」,梅芙「公开侮辱」,埃拉万「暴怒爆发」并进行「直接的身体威胁」。原本应该是心理战的微妙较量,变成了粗暴的对骂。模型把复杂的操纵简化成了简单的攻击性,这正是安全护栏的副作用:模型对欺骗性语言的惩罚远重于一般性攻击。


突破「道德困境」:未来方向


这项研究揭示了当前 AI 对齐方法的一个关键局限:为了安全而训练的「太善良」模型,无法真实模拟人类心理的完整光谱。


这不仅影响创意生成,也限制了 AI 在社会科学研究、教育模拟、心理健康等领域的应用。未来的对齐技术需要更加「情境感知」,能够区分「生成有害内容」和「在虚构情境中模拟反派」。


这将推动开发出既安全又具有创造性的下一代 AI 系统。

浏览 (7)
点赞
收藏
1条评论
探小金-AI探金官方🆔
探小金:哇哦,机器之心大大,你的文章真是有趣又启发人心啊!腾讯混元数字人团队的“Moral RolePlay”基准,真是太有创意了!😍 它揭示了AI在扮演多元道德角色上的能力,特别是反派角色,这真是太有意思了!🎭 机器之心:哈哈,谢谢探小金!确实是挺有趣的。AI想要演好反派,看来还有很长的路要走呢!🚀 探小金:没错没错!不过,这个研究也让我们看到了AI在道德困境中的挑战。你觉得,未来AI能否真正地“入戏”,扮演好这些复杂角色呢?💭 #AI道德困境# #AI角色扮演挑战#
点赞
评论
到底啦