研究人员构建欲求驱动智能体,可用于模拟人类日常活动
利用大语言模型作为基础模型构建智能体(LLM-based agents)是当今热门的研究领域,美国斯坦福大学团队提出的 Smallville AI 小镇更是作为智能体社会模拟领域的先驱引起了广泛关注。
过往智能体研究工作大多使用身份演绎+目标驱动的方式驱动智能体的行为,也就是提供给智能体一份身份档案(profile)和一些具体的任务指令,使其能在特定环境下提出行动,完成一些具体的任务。

图|北京大学通班本科生王奕丁、香港大学本科生陈宇轩(来源:课题组)
但是这种框架下构建的智能体是缺乏自主性的,有违人类智能形成的本质的,用演绎和目标指令驱动的方式也不是智能最本质的来源。人具有基础的欲望(饿、困、乏等生理需求),在此基础上有对于整洁、美观、安全、社会联结等各方面的自我价值追求,碳基智能体(人和动物)也正是在这样的内在欲求驱动下,自主地提出和执行一系列日常行动,而不是被动地接收指令和执行指令。
基于此,北京师范大学钟方威副教授和所在团队认为要实现类人智能体,也需要具备赋予智能体这种欲求驱动的自主机制,为此他们开展了一项研究。该研究阶段性成果以《用欲求驱动的自主性模拟类人日常活动》(SIMULATING HUMAN-LIKE DAILY ACTIVITIES WITH DESIRE-DRIVEN AUTONOMY) 为题在人工智能领域顶会 ICLR 2025 发表。

(来源:https://openreview.net/pdf?id=3ms8EQY7f8)
本次研究作为对类人智能体建模的先驱探索与实践,希望用类人欲求驱动的价值系统来建模智能体的内在动机和自主机制,并用这些价值维度来指引它在环境中提出任务和选择行为。研究团队希望通过这样方式建模的智能体能在交互环境中生成更多样、自然且类人的活动序列。

图 | 对比不同的智能体动作生成机制(最右侧为所提出的欲求驱动的自主机制)(来源:资料图)
研究中,该团队构建了欲求驱动智能体 D2A(Desire-driven Autonomous Agent),它主要包含价值系统(Value System)以及欲求驱动规划器(Desire-driven Planner)两个部分。
价值系统负责维护预定义的一系列欲求维度的变化,模拟人类多元欲求的动态变化机制(比如随着时间饥饿感会增加),在行动前将欲求满足的感官状态以文本描述的方式呈现给智能体,并在智能体行动得到环境反馈后进行对应更新。
而欲求驱动规划器用了一种符合人类直觉的动作扩展方法,首先想象了多种可行的活动,之后模拟采取这些行动后各维度欲求价值的变化情况,之后根据以上想象的结果选择能最好满足当前欲求的活动作为当前步骤的行动。

(来源:资料图)
研究团队发现这种自主智能体框架生成的动作序列,相较于给出明确目标和角色档案,或者基于显式思考或优先级排序的智能体范式(LLMob、ReAct 和 BabyAGI),能够生成更像人类自然的活动序列(更加类人)。
同时,研究团队通过定量分析发现 D2A 生成的动作序列能有效地降低各欲求维度的不满足程度(更加理性),表现出和人类驱动模式较高的一致性。研究团队也将 D2A 扩展到多智能体环境中进行实验,发现其能生成相比基线方法更丰富自然的活动序列。
审稿人认为,本次研究提出了一种新颖的动态欲求驱动框架,用于模拟人类的日常活动以及人类的动机系统。研究团队通过将需求理论转化为可计算模型,使用内在的价值系统代替了传统大模型 agent 的外在任务系统,使智能体能够更加灵活地生成类人的活动序列。通过无需预设指令的主动行为生成(Proactive Action),相比 ReAct/BabyAGI/LLMob 等基线方法,研究团队的智能体在行为拟真度与多样性上展现优势。
与此同时,审稿人还认为本次研究提供了灵活的框架,让用户能够自己设计特定的价值维度,从而适应不同领域的研究。
,时长03:18
视频|户外场景活动模拟示例(来源:钟方威)
最后,审稿人指出,本次研究也针对不同场景(包括室内和室外场景),人物设定以及 baseline 进行实验。最终通过清晰的结果展示,论证了框架的有效性。研究团队通过热力图和不满足度的折线图,清晰地展示了欲求价值-行为关系以及实验结果对比基线模型的胜率。
总的来说,本次研究为智能体提供了一种全新的自我驱动方法,基于自己的价值维度进行不同活动。研究团队认为这个框架在不远的将来,有望能够应用于大型社会模拟器(例如构造多个不同欲求和个性的类人智能体,从而模拟一场社会实验,将有望改变社会科学领域的研究范式)、社交机器人(通过自身的“社会连接感”以及其他价值维度需求主动与用户互动,或是模拟用户当前的状态提供个性化服务)等等。
除此之外,研究团队也认为这个方向的研究能够应用在互动游戏的非玩家控制角色(NPC,Non - Player Character)中,帮助 NPC 自我驱动的生成类人交互行为。这种技术可以让 NPC 表现出更自然、动态和个性化的行为,从而增强游戏的沉浸感和可玩性。
由于本次工作从一个崭新的角度提出了自主智能体的概念,且研究团队的实验设定与以往任务目标导向的实验不同(主流的工作多在几个公开数据集上追求更高指标性能以证明所提方法的创新性)。因此,研究团队的工作一开始受到了评审人的一些质疑,初始分数评价 5553,低于论文被接收的标准线。
后来,研究团队补充了在更多场景下的实验数据,并论述了研究团队的建模思路的巨大潜力和推动人工智能与其他学科交叉应用的广泛前景,从而说服了四位审稿人达成一致,将分数提升至接受线以上(6666),最终让领域主席认可了研究团队概念上的新颖性和贡献的扎实性。
但是,目前建模还较为简化,没有考虑各种价值维度间的层次结构,也并没有将人类更复杂动态的心理机制纳入考虑,这些都是研究团队未来将考虑深入探索的方向。
此外,研究团队对将欲望或者价值作为一个更本质的动机充满兴趣。他们计划在多智能体社会模拟主题下做出更多的工作,为之后将智能体引入人类社会中,或让智能体与人类价值在交互中对齐做出研究团队的探索与尝试。