英伟达XR-AI Scientist亮相:丛乐、王梦迪团队把“AI科学家”送进实验室|甲子光年

从CRISPR-GPT到LabOS,他们想把人从实验中解脱出来。
作者|苏霍伊
编辑|王博
10月底,英伟达官网悄然上线了一个专题页面:NVIDIA XR-AI。
NVIDIA XR-AI是一个将XR设备(如轻量化AR/AI眼镜或头戴式显示器)与组织的全部算力资源连接起来的平台,由英伟达和丛乐团队等合作发布。它让具备空间感知能力的智能体(agents)能在云端、数据中心、工作站及边缘环境中无缝运行。
简单来说,这是一套令XR设备“真正变聪明”的AI平台。
过去的AR眼镜,更多像是一个“显示屏”,只能把信息投射在你眼前。而他们合作的核心就是给这些设备接上强大的算力和模型,让它们变成一个能看、能听、能理解、还能做决策的智能体。
这正源自丛乐和王梦迪在做的LabOS。

丛乐(图左)、王梦迪(图右),图片来源:受访者
斯坦福大学医学院病理学与遗传学系终身教授丛乐、普林斯顿大学电气与计算机工程系兼统计与机器学习中心教授王梦迪团队联合英伟达与XR智能眼镜厂商VITURE,通过多项突破性系统,率先推进XR-AI在实验室科学中的深度融合与应用。
其中主要涉及两项技术突破:LabOS和CRISPR-GPT。
LabOS是一个AI-XR协同科学家(AI-XR Co-Scientist),能够在真实实验室中“看见、推理、并与人协作”的智能体,把干实验室里的研究设计,与湿实验室的实际操作、机器人智能执行无缝衔接起来。
而CRISPR-GPT则可提供AI指导的基因编辑能力,使研究人员在首次使用由LabOS驱动并基于NVIDIA XR AI平台的智能眼镜时,成功完成基因敲除和表观遗传修饰的实验。
在上个月举办的华盛顿GTC中,黄仁勋主题演讲前的开幕视频就展示了丛乐和王梦迪团队的这项成果。

丛乐和王梦迪团队的LabOS演示画面出现在GTC上,动图来源:英伟达
11月18日,英伟达在其硅谷总部组织了一场闭门会。「甲子光年」了解到,丛乐、王梦迪团队与英伟达还共同推出了面向实验驱动科学的AI+XR基准体系——LabSuperVision(LSV)Benchmark标准,以及对应的Leaderboard模型排行榜。“同时我们和英伟达从XR一个部门的合作拓展到三个部门合作:XR部分, healthcare部门,Robotics/World Model部门。”丛乐介绍。
相比于单一的“agent功能模块”,LSV希望构建XR-AI在实验科学中的统一基准:让不同实验室贡献数据和场景,形成可跨项目、跨团队复用的“实验环境理解”能力。
目前在LSV排行榜上,Gemini2.5Pro的表现不错,领先所有商业模型。但拿下最高分的仍是LabOS团队开发的LabOS-VLM-235B,而且比Gemini的分数高出47%之多。

LSV Benchmark 的官方模型排行榜(LLM Leaderboard),图片来源:受访者提供
过去相当长一段时间,XR的主流价值仍停留在“沉浸感”层面——娱乐、培训、数字孪生更多是锦上添花,而非生产流程的核心工具,原因在于其缺乏智能决策能力、难以融入真实业务闭环,导致技术光环大于实际产出。
XR一度被视为“过气”技术,本质是它还是停留在“看得更真实”,而不是“干得更有效”。
丛乐、王梦迪团队推动的“XR-AI”,很可能成为改变这一局面的关键力量。它将XR从“感知终端”升级为“智能执行界面”,通过AI赋予其理解环境、判断情境、实时介入操作的能力,让其真正嵌入科研这样的高价值场景,成为流程中的“决策节点”而不是旁观工具。
“LabOS可以被当做是AI导师,不需要手把手培训或长时间试错,就能指导新手达到专家级水平。”王梦迪告诉「甲子光年」。当真人科学家走进实验室时,无论是没有按无菌规范操作,还是将试剂孵育时间做出了偏差,LabOS都会把这些细节逐条记录,并给出提醒和纠正建议。
“如果把LabOS理解成一个操作系统,CRISPR-GPT就是其中一款应用。”丛乐说。与LabOS那种“把导师的眼睛装进实验室”的方式不同,CRISPR-GPT更像是把整套“基因学”封装进了一个始终在线的虚拟研究助理中,让它能提供专家级的实验室“辅助驾驶”(copilot)。
CRISPR(成簇规律间隔的短回文重复序列)是一种源自细菌免疫机制、可对DNA进行精准“剪切和改写”的革命性基因编辑技术,被誉为改写生命代码的“基因剪刀”。
丛乐团队主要负责数据、模型与实际应用场景的开发,而王梦迪团队更专注于强化学习。在双方团队的努力下,实验室不再只是一个“操作空间”,而开始变成一个能够学习、理解并参与实验推演的系统:一个过去只能依赖“人”的实验现场,正在被重新定义;科研的边界,也因此开始出现新的可能性。
1.CRISPR-GPT:
一个能够加速实验进程的智能体,有望拯救更多生命
实验室里的现实常比想象更“混乱”一些。
研究人员在脑海中把路径画得清清楚楚:哪一步该做什么、哪一条反应链会往哪里走、最后应该看到什么结果。但真正站在实验台前,许多事情并不会按照思想的轨道运行。如试剂温度比预期低了半度,混匀的力度略微轻了一些,手上不自觉的一个停顿,就足以让结果偏出原本的方向。
这种落差并不是谁的错,而是实验本身的样子。
生物、材料这些学科至今没有一个足够精确的模拟系统来替代反复试验,人只能在一次次操作中摸索、修正。
更让人无奈的是,结果并不会因为你意识到这个问题而变得“更听话”。2016年Nature团队曾发布了一项再现性调查里,超70%的生物医学研究者无法复现别人的实验,超50%的研究者连自己的实验都难以重复。
不是科学家不够谨慎,而是实验执行天然带着太多隐含的变量。思想很清晰,动作却无法完全对齐;设计很正确,执行始终不够稳定。
“实验执行过程中的跑偏多数和设计无关 ,是你的手、眼和注意力无法保持机器般的稳定。”丛乐告诉「甲子光年」,“所以我想把智能眼镜、机器人和AI拉到同一张实验台前。”
由此在2023年,丛乐把目光先落在了最锋利、也最难驾驭的一把“基因剪刀”上——CRISPR。
事实上,在麻省理工学院读博期间,他便是第一批CRISPR成功用于哺乳动物基因编辑并证明其可行性的人,也是全球最早、最核心的CRISPR技术推动者之一。
CRISPR这项基因编辑技术足够强大,却也格外“任性”。
实验时如果想在DNA上精准落刀,科学家除了需要判断哪个片段是真正的“罪魁祸首”,还得在海量可能方案里选出一条相对安全的路径:哪里切、切几次、用什么载体、怎么控制脱靶等。
即使是经验丰富的研究人员,也得常在文献、实验记录、导师口耳相传的经验之间“辗转反复”,经过一轮又一轮试错,才能把一套操作流程走顺。
而CRISPR-GPT就是把这一段最耗时、最依赖经验的部分,交给不会疲惫的大脑来先“过一遍”,就像在原有流程上加了一层“缓冲区”:把错误尽可能拦在“脑海里的设计”和“真正操作的手”之间。
但起初,项目的推进并不顺利。
丛乐尝试联系多家基因编辑实验室,希望获得更多数据来支撑论文。只是回应寥寥,进入论文的外部数据大多来自他们搭建的一个社区论坛。
“技术走得太前,也会‘脱节’。”丛乐感叹。对他而言,技术超前反倒成了项目早期实现的阻力。当时大部分AI Agent相关论文甚至连实验验证都没有,他是最早让AI Agent真正跑进实验室的那批人。
甚至AI Agent还不是一个广为人知的概念。那段时间,丛乐与实验室沟通时,总会从同一个问题开始:“什么是AI Agent?”
认知落差、执行端的缺口,以及模型与实验之间的缝隙,都让“开发GRISPR-GPT”变得更为迫切:如果没有一个由科学家自己参与研发,能把设计、观察、引导与执行接起来的系统,这类agents就不能真的被科学家们信任和使用。
在斯坦福医学院,丛乐团队用十余年的专家讨论记录和已发表论文,训练出一个面向CRISPR的大模型,它能理解科学家习以为常的输入方式:一段实验背景、一段目标描述或一串序列信息。CRISPR-GPT再生成一套“有理有据”的设计,包括为什么选这条通路;类似实验里哪些步骤容易出问题;哪里需要增加对照;哪些参数可以作为第一轮尝试的起点等。

CRISPR-GPT的结构拆解,图片来源:受访者
丛乐的期待并不“空洞”。
他希望新药开发的早期试错不再以“以年为单位”来计算,可以被压缩到几个月甚至更短的尺度。“拥有一个能够加速实验进程的智能体,最终有望帮助拯救更多生命。”丛乐告诉「甲子光年」,即便是第一次接触CRISPR的学生,无需通过在黑板和冰箱门之间来回抄写配方完成训练,仅在这位‘随叫随到的资深助理’协助下,就能快速完成一套规范实验。
比如他课题组的一名学生,在CRISPR-GPT的帮助下,从黑色素瘤细胞中成功激活了特定基因,这名学生给系统输入得只是一句“日常对话”式的请求:“我想在人体肿瘤细胞上做一次CRISPR激活实验,应该怎么做?”

CRISPR-GPT把研究者的一句话逐步拆解成可执行的实验方案的流程图,来源:受访者提供
以往这种尝试意味着反复确认、来回修改、一次次“看起来差不多”的失败,而他第一次就做对了。丛乐说,很多科研训练是在“反复撞南墙”中完成的,“如果有一天能变成‘试一次就成功’,那会是完全不同的科研体验”。
为了适应不同阶段的研究者,CRISPR-GPT被分成了几种工作方式:可以像导师一样按部就班拆解每一个概念;也能像同行评审那样与专家一起推演复杂方案;还可以在研究者只想确认某一个细节时,快速给出类似“医生查房式”的回答。相比传统论文,它的回答更成体系,也更贴近真实决策场景:给出唯一标准答案同时,也会把选项空间和过往教训摊开在用户面前。
但人的最终决策权没有让渡。
受访过程中,丛乐一直在表达“最后拍板的仍然是人类科学家”。AI不做决策,做的是把信息组织得更清楚,把潜在错误暴露得更早,让原本只能“自己踩坑”才能获得的经验,提前放到屏幕上。在此基础上,系统还会检查研究者已经写好的设计,并尝试将成熟的框架迁移到新的疾病、新的细胞类型上,让一个实验室里积累的“know-how”更容易跨团队复用。
需要注意的是,CRISPR-GPT处理的不是普通文本,而是与生命系统直接相连的“操作指令”。
它设计的每一步,都可能改变一个细胞的命运,涉及病毒、基因突变、干细胞和人类遗传信息。只要链路有一个环节失控,风险便会溢出虚拟世界,可能造成无法挽回的生物学后果。因此CRISPR-GPT的安全阈值必须远高于通用大模型,以防止模型生成危险内容和实验者在无意中跨过生物安全边界。
CRISPR-GPT的安全约束一开始就被写进底层逻辑中。丛乐把这一点称作“三层保护”,后来扩展到LabOS的整体架构中也是同样的原则。“因为它要serve所有的agent,”他说,“安全的阀门必须一直开着。”
第一层来自模型本身的判断。一旦用户的输入带有明显越界的倾向——例如涉及病毒编辑,或指向人类胚胎的修改要求,系统会在语言模型的第一步检测中直接拒绝执行。对话不会继续,指令不会下发,链路会在源头被截断。
第二层针对序列信息的敏感性。基因编辑的设计不可避免要接触DNA序列,但只要序列长度超过20个碱基,就可能泄露个人遗传信息。所有超过阈值的序列都不会被送入外部大模型和任何共享的记忆模块,而是交给一套独立的、本地化的私有模型处理。即便系统内部调用了ChatGPT这样的外部API,它看到的永远是一段经过截断和脱敏后的输入,不能被反推出个体信息。
第三层来自攻击面的验证。团队在论文附录中加入了系统性的越狱(jailbreaking)与白名单(whitelisting)测试,让不同研究者尝试用各种方式诱导模型生成危险内容——比如设计某类病毒、修改某种病原体。所有测试过程与结果都被完整记录,只为确认系统在极端情况下仍不会给出有安全风险的响应。
同时团队也在计划与监管和标准制定机构合作,把这种“AI 参与实验设计”的能力纳入更清晰的伦理与合规框架中。
丛乐还补充道,他做CRISPR-GPT不为了替代谁,是为了让这条“思想到行动”的链路不再被无形的误差不断拉扯。把看不见的变量变得可见,把经验性的动作变得可记录,把那些重复但又无法跳过的步骤交给不会疲倦、不会分心的系统,让人可以把力气用在真正需要判断和创造的地方。
2.LabOS:让AI真正成为实验中的协同科学家
CRISPR-GPT是以对话形式进行交互的,但在丛乐向其博士导师张锋等教授介绍AI Agent时,他们都给出了同一个反馈:“你有没有想过,实验中最累、最慢、最费精力的不是在电脑上做设计,而是做实验本身。”
丛乐也意识到,CRISPR-GPT的AI能力不应停留在“回答问题”层面。如果设计可以通过对话生成,为什么执行还要靠人去翻步骤、对照文档?既然设计链路已经被AI接住,为什么不让AI接住整个实验?
LabOS的想法正是从这冒出的。它把对话生成的设计、视觉模型的理解、XR的引导和机器人的动作串成一个系统,再被直接执行。

LabOS示意图,图片来源:受访者提供
在实际操作中,AI始终以实时方式参与实验流程。
当研究人员完成某一步骤时,AI立即在界面上作出响应,然后根据需要调整显示位置。头显设备在此充当了贴身的AI助手,让人机协作在繁琐步骤中实现无缝衔接。
研究人员完成关键动作后即可离开转向其他工作,后台AI Agent能够实时理解其操作意图,自动将任务衔接给机器人,机器人无需额外指令即可继续执行流程。秘诀在于,头显内置的摄像头会持续回传实验画面,机器人本体也同步上传视野数据,所有信息最后都会进入 LabOS。
依托这些数据,LabOS 在“看”的同时,也能够理解实验的推进逻辑,实时掌握人类操作细节。当研究人员将试管交给机器人时,系统已自动判断流程进度,机器人亦随即进入下一步操作。整套流程在人、AI和机器人之间自然流动起来。
“你不需要提供任何指示,Agents和AI控制的机械手完全知道该做什么。”丛乐说。

如视频所示,在CRISPR基因编辑干细胞实验中,研究人员先把一段又枯燥又耗时的步骤交给机器人:持续地搅拌、混匀,让溶液达到稳定、均一的状态。机械臂在台前反复运转,而人则可以暂时离开这张实验台取要编辑的人体细胞。等他把细胞拿回来时,机器人已经把这一阶段的准备工作做完了,实验随即进入下一步更精细的操作,目前这部分仍然很难完全交给机器人,只能由人接手完成。
丛乐分享,这种协作模式已经扩展到其他实验场景,比如他们刚完成一套量子材料实验室的接入方案。“几乎任何学科的科学实验都可以通过类似方式被‘接入’和‘服务’。”只是在材料实验室里,系统不会再调用“ScienceGPT”,而是换成面向材料研究的“MaterialGPT”。
“本质上,我们想做的就是一种操作系统级的体验解决方案。”他说。
3.让实验真正从“设计”一路通向“执行”
为什么LabOS会选择眼镜和机器人?
丛乐解释道:“现在包括英伟达都看到了,机器人不可能在明天就取代所有人类工作,也不可能立刻进入所有科研场景。所以如果人、机器人和AI需要实现协同,就必须在目前这个2.5代阶段,用眼镜和机器人一起配合。”
只有人、机器人与AI在同一个流程里看见同样的东西、理解同样的语境,并在同一时刻参与决策,这样干湿实验的闭环才真正被跑起来。
那CRISPR-GPT与LabOS又是怎么协作的?
丛乐没有强调技术细节本身,而是回到一个中心:AI、混合现实、视觉模型与自动化流程的组合,并非为了让科研“看起来更未来”,是为了让实验真正从“设计”一路通向“执行”,成为一个连续而加速的链条。
如果研究者提出一个基因编辑的实验需求,比如通过“CRISPR-GPT”生成实验流程,得到的设计可以直接通过LabOS 投递到XR眼镜的界面中。团队为此专门训练了一个视觉多模态模型VLM,能够同时理解protocol的内容和眼镜里看到的人类操作。
“AI可以对齐这两件事,”他说,“既理解agent设计的步骤,也理解人正在做什么。”
整个过程被丛乐拆成三层:
第一层是“设计”——AI agent生成实验流程,并在混合现实的空间里以沉浸式方式呈现;
第二层是“观察”——眼镜实时回传画面,AI根据视觉理解来观察操作是否正确;
第三层是“反馈”——AI向研究者指出需要纠正的步骤,或在必要时直接将指令发送给机器人执行下一步操作。
“这就是我们为什么同时使用眼镜和混合现实技术。”他说。研究者、AI 和物理实验之间通过视觉模型被编织成一个可追踪的闭环。
在LabOS中,研究者登录系统后可以创建一个新的实验项目,与CRISPR-GPT进行交互,提出“我想编辑人类的多能干细胞”这样的目标。AI 会在界面右侧自动展开完整的workflow,从实验步骤到DNA序列设计,每一项内容都会被逐步生成。
“所有序列都会自动出来,然后生成一个报告,告诉你每一步应该怎么做。”丛乐介绍。这些内容随后可以直接同步到XR眼镜,让研究者在实验过程中看到步骤提示,实现从构思到执行的连续协作。
改变不止于模型的思考能力,还有系统对实验现场的支持方式。但关于实验实时性的问题也接踵而来:这样一个强大的实验系统,需要依赖网络实时连接吗?一旦连接中断,会不会导致操作半途失灵?
丛乐的答案是“本地化”底层的设计原则。
LabOS无需远程服务器就能在本地GPU上完成推理与反馈;智能眼镜通过WiFi或蓝牙将画面和动作实时传回,这种近距离的无线通信足以保证延迟可控。即使网络抖动,实验进行中的关键步骤也不会被中断。为了支持这种运行方式,他们训练的模型规模被刻意控制在235B(基于Qwen模型)的量级,让它既能理解复杂的实验流程,又能在常规硬件上保持稳定。
从实验桌的角度看,这种系统并不是要替代实验者,而是要让实验者不再被冗余、重复、容易出错的环节拖慢手脚。只要人能稳稳地拿起一个试管,AI就能把后面的链路接住。整个科研训练体系门槛也被重新塑造:不拉低标准地让每个人都能更早进入“思考”而非“纠错”的阶段。
现在丛乐团队正在沿着两个方向推进研究。
一是自动化。在实验环境中,一个可靠的自动化系统必须整合更多感知能力:触觉、压力、力反馈、震动信号……这些都是人类在无意识中依赖的能力。团队正在把这些底层传感器与更灵活的机械手整合进LabOS,让机器人不仅能“动”,还能“感知”。
二是多模态大模型。在原有VLM的基础上做新的尝试,同时与普林斯顿大学邓嘉教授、纽约大学计算机学助理教授谢赛宁团队、及OSU李伏欣教授合作,探索更强的“视觉-动作-语义”对齐方式,让系统理解实验画面的同时,还能对环境做稳定的推理。“像谢赛宁团队最近提出了一个新的概念,叫‘super sensing(超级感知)’,我们现在正在合作尝试把这个概念直接用到实验室AI4Science系统里。”丛乐说。
4.“人应该做更有意义的工作”

交流中,丛乐语速一直很快。
他试图解释一个在学界仍争议不断的观点:科研自动化的真正瓶颈不在于算法的能力,关键在于AI在物理世界中的“不够好”。
在丛乐看来,今天的科研仍被实验执行效率所束缚,学界在如何推动AI参与真实实验方面争论已久。“论文里不能写得太狠,”他笑着说,“因为外界会以为我们已经在做‘AI取代人类研究者’了,但实际并没有。”
与许多团队的路径不同,丛乐的选择往往是“自己动手”。他提到,最初将头显技术从游戏应用推向科研场景,就是他主动促成的。“当时几乎所有智能头显公司都在做消费场景,学生也不想戴眼镜做实验,我需要不断努力推动团队,也很感谢团队及合作方的信任。”丛乐说。
消费场景之外,并非简单的“用眼镜辅助科研”。
为了让AI能够帮忙执行实验,丛乐和团队从最底层开始搭建系统。这是一项庞大的工程,学生在实验中采集数据;实验流程(protocol)自己写;AI agent也是团队内部开发的。模型的性能让他颇为自豪,在某些任务上,团队研发的VLM已经能够超越包括Gemini,GPT-4在内的主流模型。
比结果更重要的往往是动机。
丛乐谈到自己动机:他不认为“AI 取代人”是威胁,而是科学前进必需的过程。
“为什么人要做那么费劲的实验?人应该提出更牛的想法,比如要上火星,或者基因编辑治好阿尔茨海默症。”他说。实验执行本身枯燥且耗时,但这正是机器和AI更擅长的部分。
丛乐认为,这个世界上必然会存在的有两种人:一种是拒绝被取代,也不愿意接受AI的;另外一种就是希望被AI取代的。
他显然属于后一类。
丛乐说得很直接,对他而言“被取代”不代表离开科研领域,而是把耗时、重复、但又不可跳过的实验执行环节交给机器,让人从漫长的操作中抽离出来,做真正推动科学前进的事:提出问题、判断方向、设计新的假设。
换言之,他更在意的是让科学家从“做”中解放出来,回到“思考”的位置上。
“如果你的目标是开发治疗方案,那是不是要花几年再学一遍CRISPR?”过去需要博士生花数年训练才能熟练掌握的流程,现在缩短成几天乃至几小时的设计周期。
传统实验室里,从“会拿试管”到“能独立做基因编辑和干细胞实验”,并不是一个学期或一年能跨过的门槛。干细胞对手势、温度、速度的敏感度远超教科书描述,CRISPR的每一步设计与递送也充满隐形变量。大多数研究者要在长时间的试错和积累之后,才真正具备独立操作这些高精度实验的能力。
但当LabOS与CRISPR-GPT介入之后,耗时多年的学习曲线被几乎重新塑造。尤其在设计环节被CRISPR-GPT自动化之后,实验现场也开始被重构。
在这个重构的实验室里,研究者只需要掌握最基础的实验动作,如试管怎么拿、移液枪的刻度怎么看、无菌台该如何摆放耗材等。剩下的判断、流程、参数设计,都可以交给LabOS和CRISPR-GPT组成的“智能实验系统”来完成。丛乐表示,一个生物医学专业的大一新生,只要上完最基本的课程,就能在这套系统的辅助下完成过去要博士后才能尝试的实验。比如干细胞相关的基因编辑,以前看似遥不可及,如今在严格的引导下变得可触碰、可执行。
既然LabOS、AI agent已经能把那么多事做到位,一名科学家真正不可替代的能力还是什么?丛乐的回答很干脆:创造性和前瞻性。
无论是大模型还是LabOS,本质上学的都是人已经做过的事情,“人没做过的东西,它能自己做出来吗?”在他看来,机器人可以把人类已经验证过的流程执行得更好,但“这个地球上还不存在的东西”从哪里来,仍然得靠人去想。“AI for science在很长一段时间里都难被取代,”丛乐补了一句,“因为最难的是看到现在完全不存在的世界。”
目前,智能协作已经不再局限于生物研究。丛乐介绍道,他们已经在构建量子材料实验室的接入方案。当场景更换,系统调用的模型可以从“ScienceGPT”变成“MaterialGPT”,但核心机制一致:人机协同、AI推演、现场感知三者组成的闭环,能够被复制到“几乎所有”实验体系中。
这也是他做LabOS和CRISPR-GPT的初心。
丛乐始终认为,数字世界中的AI已经证明了自己的价值,如AlphaFold等。如果AI能在物理实验中像在数字世界那样快速迭代,科研将迎来全新的加速度。他相信这件事“应该会发生”,也确信总会有人迈出那一步。
至于谁会率先实现这一点,丛乐没有做更多延伸,只是淡淡地说:“是我们,还是别人?但总得有人去做。”
(封面图来自斯坦福大学丛乐实验室,取自NVIDIA XR AI页面。)



