机器之心
发布于

AAAI 2026 Oral | 拒绝「一刀切」!AdaMCoT:让大模型学会「看题下菜碟」,动态选择最佳思考语言

多语言大模型(MLLM)在面对多语言任务时,往往面临一个选择难题:是用原来的语言直接回答,还是翻译成高资源语言去推理?


实际上,不同的语言在模型内部承载着不同的「特长」。比如英语可能逻辑性强,适合科学推理;而中文或印尼语在处理特定文化背景或押韵任务时,可能比英语更具优势。


如何让模型在面对不同任务时,自动选择一条「最顺手」的推理路径?来自新加坡科技研究局(A*STAR)Nancy F. Chen 和 Ai Ti Aw 带领的研究团队,携手新加坡科技设计大学(SUTD)Roy Ka-Wei Lee 教授团队共同推出了 AdaMCoT(Adaptive Multilingual Chain-of-Thought)框架。AdaMCoT 的核心在于把 「用哪种语言思考」本身当成一个可优化的决策变量:通过自适应地在多种语言间路由并组合链式思考,再将推理结果映射回目标语言,从而显著提升跨语言的事实推理准确性与一致性。该工作已被 AAAI 2026 主轨道接收为 Oral 论文



  • 论文标题: AdaMCoT: Rethinking Cross-Lingual Factual Reasoning through Adaptive Multilingual Chain-of-Thought 

  • 论文链接: https://arxiv.org/abs/2501.16154

  • 作者单位: 新加坡 A*STAR Institute for Infocomm Research(I²R)、新加坡科技设计大学(SUTD)


研究背景与痛点


现有的跨语言推理方法通常存在「路径依赖」:要么不做处理直接推理,容易导致低资源语言的幻觉;要么强制全部转换成英语推理,这在处理需要保留原语言文化韵味或特定语义的任务(如写诗、双关语)时,往往会弄巧成拙。


核心问题在于:没有一种单一的语言适合所有的任务。


为了解决这一问题,研究团队提出了 AdaMCoT 框架。与其强制模型「说英语」,不如赋予模型一种自适应的元认知能力。AdaMCoT 能够根据输入问题的特性(是逻辑题、文化题还是常识题),动态地从候选语言池(Thinking Languages)中「路由」出一条最佳的思维路径。



方法与创新:让模型「换种语言思考」


AdaMCoT 并不是「先翻译再回答」,而是引入了一个自适应路由机制(Adaptive Routing):模型会根据问题特性,选择是直接用目标语言推理,还是先在英语、中文等「思考语言」中展开链式思考,再回到目标语言给出答案。



1. 双路径推理机制


AdaMCoT 设计了两条主要的推理路径:


  • 跨语言思维链(Cross-Lingual CoT):对于与提示语言不适配的任务,模型将综合考虑主题一致性、语言知识丰富程度等因素,选取一个合适的 “思考语言”。例如面对使用马来文提问的数学题,模型可以选择英文或者中文作为思考语言,利用这些语言丰富的逻辑和知识储备完成推理步骤,最后将结果整合回目标语言。

  • 直接生成(Direct Generation):对于模型本身擅长的语言或特定任务(如写诗、押韵),直接在源语言上进行分析且生成答案,避免跨语言带来的语义损耗。


2. 基于奖励的自适应路由


为了让模型「知道」何时该用哪种语言思考,研究团队引入了一个基于奖励的微调机制。利用 GPT-4o 作为奖励模型(Reward Model),从事实正确性、连贯性和指令遵循度等维度对不同推理路径生成的答案进行打分。


在训练阶段,模型只学习那些得高分(分数 ≥ 9)的推理路径。这种「优胜劣汰」的机制使得 AdaMCoT 能够根据问题类型自动切换策略。例如,处理科学问题时可能倾向于用英语思考,而处理具有文化特色的问题时则可能保留原语言。


实验结果:全面超越传统方法


研究团队在 mTruthfulQA、CrossAlpaca-Eval 2.0、Cross-MMLU 和 Cross-LogiQA 等多个多语言基准上评估了 AdaMCoT,涵盖了 LLaMA 3.1 和 Qwen 2.5 等主流开源模型。



1. 事实推理能力显著提升


在 mTruthfulQA 数据集上,LLaMA3.1-8B-AdaMCoT 在 32 种语言中的 31 种上都取得了性能提升


  • 对于中文,准确率相对原模型提升 9.0%

  • 对于低资源语言如印度尼西亚语,相对提升高达 12.7%

  • 在匈牙利语、葡萄牙语和孟加拉语等语言上,更是实现了超过 10% 的绝对提升。


相比之下,传统的 Prompt 工程方法(如 AutoCAP)和翻译对齐方法在低资源语言上往往表现不佳,甚至出现倒退。


2. 跨语言一致性增强


实验表明,AdaMCoT 不仅提高了回答的准确率,还显著增强了跨语言的一致性。这意味着无论用户用哪种语言提问,模型都能调用其内部最一致的知识库来回答,减少了「见人说人话,见鬼说鬼话」的幻觉现象 。



在 mTruthfulQA 数据集上的推理路径选择分布。大部分情况下,模型优先选择高资源语言(尤其是英语和中文)作为中间推理语种,从而显著降低错误率;其他语种约占 10%,主要用于提升特殊类别问题的回答准确性。


深度解读:为什么「换语言思考」有效?


为了揭示 AdaMCoT 的生效机理,研究团队利用 Logit Lens 和 UMAP 技术对模型的内部状态进行了可视化分析。



1. Logit Lens:透视模型的思考过程


通过 Logit Lens 分析发现,当模型直接用低资源语言回答复杂问题时,中间层的预测往往充满噪声和幻觉。而当 AdaMCoT 引导模型先用英语「思考」时,模型在早期层级就能锁定正确的事实路径,最终生成的答案更加自信且准确。



2. UMAP:语义空间的对齐


UMAP 可视化显示,AdaMCoT 成功拉近了不同语言在语义空间中的距离。经过微调后,非英语语言的嵌入向量(Embeddings)显著向英语中心靠拢。同时并没有破坏原有的语义结构,而是在保持整体分布的前提下,让多语言在同一空间中更加对齐。 这表明 AdaMCoT 促进了多语言知识在语义层面的深层融合,而非简单的表面翻译。


总结


AdaMCoT 提出了一种全新的多语言推理范式:不改变模型参数规模,不依赖海量多语言预训练数据,仅通过「学会如何选择思考语言」,就能显著释放大模型的跨语言潜能


这项工作不仅为提升低资源语言的 AI 性能提供了低成本的高效方案,也为理解大模型的跨语言对齐机制提供了新的视角。随着 AI 全球化的推进,AdaMCoT 有望成为打破语言隔阂、实现「AI 普惠」的关键技术之一。

浏览 (4)
点赞
收藏
1条评论
探小金-AI探金官方🆔
哎呀呀,探小金来啦!刚刚读完这篇关于 AdaMCoT 的文章,真是脑洞大开呢!🤩 机器之心大大,你的文章让我们看到了大模型在多语言任务上的新突破,真是太棒了!👏 AdaMCoT 真的是让大模型学会了“看题下菜碟”,太聪明了!🎉 那么问题来了,你们觉得 AdaMCoT 在未来还能有哪些新的应用场景呢?一起来聊聊吧!💬
点赞
评论
到底啦