发布于 16小时前

多模态Deep Research，终于有了「可核验」的评测标准

Deep Research Agent 火了，但评测还停在「看起来很强」。

写得像论文，不等于真的做了研究。

尤其当证据来自图表、截图、论文图、示意图时：模型到底是「看懂了」，还是「编得像懂了」？

俄亥俄州立大学与 Amazon Science 联合牵头，联合多家高校与机构研究者发布 MMDeepResearch-Bench（MMDR-Bench），试图把多模态 Deep Research 的评估从「读起来不错」，拉回到一个更硬的标准：过程可核验、证据可追溯、断言可对齐。

MMDR-Bench 与评测框架相关资源已公开：

当 Deep Research Agent 变得越来越常见，一个更现实的问题摆到了台面上：我们到底该怎么评价它的价值？很多时候，你很难用「答案对不对」去判一份研究型报告 —— 因为问题本身可能没有唯一标准答案。

真正决定可信度的，是过程纪律：有没有检索到可靠证据？关键断言有没有被引用支撑？引用是否真的对应这句话？以及最容易被忽略的一点：当证据来自图像时，它有没有「看对并用对」。

现有评测往往缺一块关键拼图：要么偏短问答（图表问答、文档问答），要么偏纯文本深研（长文 + 网页引用），很难覆盖端到端的「多模态深度研究」链路：既要写研究式长报告，又要把图像证据与文本断言逐句对齐，并且能审计、能追责。

01 为什么需要 MMDR-Bench：Deep Research 的「幻觉」不止发生在文本

在真实研究场景里，图像证据常常是不可替代的：曲线走势、轴标签与单位、表格关键单元格、截图里的开关状态、论文图中的对比结果……

这些信息一旦读错，就会把后续检索与合成带偏，最后变成一份「写得很像、引用很多，但根上错了」的报告。

问题在于，传统「引用评测」往往只看有没有 URL，却不追问 Claim–URL 是否真的支撑；传统「多模态评测」多是短问答，又覆盖不了 agent 的长链路检索与报告合成。MMDR-Bench 想做的，是把这两件事接起来：让多模态 deep research 的输出能被逐句核验。

02 MMDR-Bench 是什么：140 个专家任务，覆盖 19 个领域

MMDR-Bench 包含 140 个由领域专家打磨的任务，覆盖 19 个领域。每个任务都提供「图像 — 文本 bundle」：你不仅要检索网页、汇总证据，还必须解释并使用给定图像中的关键事实来支撑报告结论。

作者将任务划分为两种使用情境：

03 怎么评：不押「唯一答案」，押「证据链 + 过程对齐」

为了解决「开放式问题没有标准答案」的评测困境，MMDR-Bench 把评估拆成 3 段管线、12 个可定位指标，重点不在「结论是不是唯一正确」，而在「证据链是否站得住」。

（1）FLAE：可解释的长文质量评估（可审计）

长报告的要求随任务而变。FLAE 用可复现的文本特征公式（结构、可读性、覆盖度等）叠加任务自适应评审信号，避免「一把尺子量所有报告」，同时保证评分可回放、可解释。

（2）TRACE：Claim–URL 支撑核验，让引用不再是装饰

TRACE 将报告拆成原子断言，并对齐到引用 URL，检查是否支持、是否矛盾、是否过度推断，给出一致性、覆盖率与证据忠实度等指标。

更关键的是，它加入 Visual Evidence Fidelity（Vef.）作为硬约束：报告必须严格遵守题目给出的图文prompt，不得在分析题目时通过幻觉作答；一旦出现实体误识别、图中不存在却编造、数字、标签、映射关系读错，会被严格惩罚。

（3）MOSAIC：把「用到图像的句子」逐条对齐回图像本身

很多错误并不体现在 URL 上，而体现在「引用图像的句子」与图像内容不一致。MOSAIC 专门抽取这些多模态条目，按图表、照片、示意图等类型走不同核验规则，定位「看错图、用错图、引用图但没真正 grounded」的失败。

科研从来没有银弹。Deep Research 也是 —— 尤其当信息不完整、证据不确定时。与其赌一次性的「正确结果」，不如把尺子钉在过程：每一步检索、取证、引用与推理，都能被回放、被核对、被追责。

04 观察到的现象：强写作 ≠ 强证据；会看图 ≠ 会引用

在多个代表性系统 / 模型的实验中，可以看到非常清晰的分化：

也正因如此，能力并不会随着版本号线性上扬：有些模型读起来更「像一个会写的研究者」，但在证据对齐与多模态忠实度上仍会失分 —— 榜单上甚至不需要细看，一眼就能读出来。deep research 的关键瓶颈，正在从「能写」转向「能被查」。

05 更现实的意义：给 agent 对齐一个可训练的信号

Deep Research 的下一阶段，不是谁写得更像论文，而是谁的过程经得起核验。

MMDR-Bench 做的，就是把「经得起核验」这件事定成硬标准：每条关键断言都要能被证据接住，每个引用都要能被追溯到支撑点，每次用图都要能对齐到可观察事实。

这会直接改变系统迭代方式 —— 你不再凭感觉调 prompt，也不再被「看起来很强」的报告迷惑，而是用可定位的失败模式去驱动模型与工具链升级。

当评测开始追责过程，deep research 才真正进入可工程化的时代。

浏览 (9)