Engram 创始人:模型再大,记不住也是白搭

提示词调到极致,也比不上等一个新版本。这是 Engram 联合创始人 Dan Biderman 的判断,也是这家公司创立的起点——当整个行业都在卷上下文工程、RAG、工具调用,Biderman 和他的搭档 Jessy Lin 却把目光投向了另一条路:训练。不是训练更聪明的模型,而是训练模型去记住你。
Biderman 出身神经科学,Lin 来自 NLP 与认知计算方向,两人组建了一支小而精的团队,成立了一家被称为"Neolab"的新兴 AI 实验室。Engram 不做通用大模型,它的客户是每一家需要让 AI 真正理解自身业务的团队——Notion、Microsoft、Harvey 等公司已经在用它训练自己的"专属模型",让引擎不仅仅是回答问题,而是像一个老员工一样,记住每一次决策、每一轮迭代和每一个领域特有的暗知识。
在本期 45 分钟的播客专访中,两位风投背景的主持人带着一个核心问题追问到底:当 AI 模型已经足够聪明,下一个瓶颈是什么?Engram 的回答很干脆——记忆。不是把更多东西塞进上下文窗口,而是让记忆刻进模型的权重里。
本文编译自 YouTube 播客专访《Memory and Continual Learning: Engram's Dan Biderman and Jessy Lin》。以下是完整编译。
1
"我们的模型始终在训练"——打破预训练与后训练的边界
Engram 官网有一句话让主持人一开始就追问:"我们不从预训练或后训练的视角看世界。我们的模型始终在训练。"
这是什么意思?
Jessy Lin 的解释直接:"今天的模型已经非常聪明了。但让这些模型更有用的瓶颈,不再是原始智能,而是理解新的、持续变化的上下文——比如你正在做的新任务,或者某个公司特有的工作方式。问题是:我们怎么把这些东西烘焙进模型的权重里,就像预训练把'法国首都是巴黎'烘焙进去一样深?"
Dan 用一个更感性的比喻补充道:"就像我们人类,每天睡一觉,第二天回到工作上,大脑里不只有笔记,还有一种新的直觉——知道该往哪儿看,该怎么想。现在的 AI 解决方案,都是外部化记忆:把东西写进上下文、写进笔记。但这有两个问题:第一,你每天产生的 token 很快会到达数千万级别,检索成本极高;第二,外部记忆没有真正的理解,只有查找。"
两人的共识是:上下文工程(context engineering)、RAG、工具调用——这些都有价值,但有一个严重被低估的工具:训练。用和前沿实验室训练顶级数学/代码模型同样的方式,去训练任何一个垂直领域、任何一家公司的私有数据。
1
Engram 架构:把公司知识"烘焙"进模型权重
Engram 做的事情,用一句话概括:训练每个团队的专属模型,让它深度理解这个团队的上下文,并随时间持续进化。
Jessy 描述了产品的工作方式:他们接入 Notion、Microsoft、Harvey 这类有大量长期工作数据的平台,把其中的文档、对话、反馈——这些人们日常工作产生的原始信号——转化为训练数据,然后通过 LoRA(低秩自适应)等 adapter 微调技术,把这些知识烘焙进模型的权重。
目标不是"在推理时把文件读一遍",而是让模型像一个在公司工作了多年的老员工那样理解公司:
知道公司的各项战略方向 理解这里特有的做事方式 熟悉招聘流程、写作风格、内部惯例 能够在不检索任何文档的情况下,直接给出准确答案
Dan 给出了一个量化的冲击感:当前最好的前沿模型,要回答一个关于公司内部知识的问题,可能需要消耗 10 万个 token 来检索和推理;而 Engram 训练好之后,同样的问题可能只需要 100 个 token——节省幅度可达 100 倍,不是 50%,是两个数量级。
技术上,Engram 需要白盒访问模型权重,因此更偏向开源模型,同时也可以与有闭源权重的公司合作。任何基于 Transformer 架构的模型,都可以接受 Engram 的处理。

1
记忆到底该不该放进权重?——RAG 的局限
一个绕不开的问题是:RAG(检索增强生成)难道不能解决这个问题吗?
主持人追问,Dan 给出了一个精妙的类比:
"你需要内化你家的门禁密码吗?需要,因为你每天用。你需要内化去年在某家酒店的房间号吗?不需要,写下来就好。"
但他随即指出 RAG 的核心局限:你知道自己该搜什么吗?
检索系统解决的是"存什么、放哪里"的问题,但真正难的是"知道该找什么"。很多时候,有价值的关联是无法被预先查询的——比如,当你看到团队某人在做某个研究方向,你凭直觉想起另一个相关的事情,这种"不请自来"的联想,只能发生在权重里,无法发生在检索系统里。
Jessy 补充了另一个角度:如果你总是依赖 RAG,你就永远在做静态检索,无法在知识上做累积和组合。"就像你总是重新看笔记,而不是真正消化——你的理解永远不会加深。"
Dan 更直接地说:Engram 的方向,是某种意义上的 "RAG killer"——不是说 RAG 没价值,而是对于那些需要被真正内化的知识,训练进权重是更优的选择。
1
什么叫"重要的事才记"——遗忘是智能的一部分
一个深层的哲学问题浮出水面:大模型把所有事实都记进权重,这是 feature 还是 bug?
Jessy 给出了她的看法:"你不可能把事实记忆和技能记忆完全分离。有些研究者尝试过把模型里的'事实'都剥离出去,只保留'算法能力'——结果模型变得非常不自然,连基本问题都答不上来。你需要内化一些东西,才能在它们之上构建更抽象的概念。"
但她也承认了问题的核心:不是所有事实都值得记。现有的学术 benchmark 常常要求模型记住"某个非洲国家某座桥的长度"——这种信息毫无必要占用模型的容量。
Dan 用神经科学视角切入:"人类记忆是有损的(lossy)。这不是缺陷,这是智能的一部分——压缩重要的,过滤不重要的。深度学习的魔法恰恰在于:梯度下降能把海量信息压缩进极少数的参数里。70B 的 Llama 模型,参数文件大约 100GB,却能记住整个互联网的精华;但如果只是缓存一篇泰勒·斯威夫特的维基百科文章的 KV cache,就需要 80GB 的 GPU 内存——你把几十 KB 的文字变成了 80GB 的'大脑状态'。"
他的结论是:训练就是压缩。 如果能把那 80GB 离线压缩成几百兆,加载速度会快 1000 倍,这对整个推理基础设施都有颠覆性的意义。

1
为什么大模型厂商自己不做这件事?
主持人问了一个尖锐的问题:OpenAI、Anthropic 这些前沿实验室,为什么不自己把持续学习做掉?
Dan 的回答很坦率:
"前沿实验室的 P0 是 AGI——一个在编程和数学上极度通用的超级模型。要推进这个,路径是明确的:更多预训练、更大模型、更多数据、更多 RL、更多推理计算。这是他们 95% 的精力和资金所在。"
他并不认为大厂没在想记忆和持续学习——事实上,DeepMind 的 Demis Hassabis 在 Sequoia 活动上明确说过"这个领域需要新突破"——但对大厂来说,这更多是一个产品层面的问题,还没有被当作核心研究挑战来攻克。
Jessy 补充了另一个维度:这个问题需要研究和产品的深度整合。在大厂的现有模式里,研究者训好模型,扔给产品团队,产品团队再做上下文工程和提示词工程。但在 Engram 的世界里,用户的每一次交互就是训练信号——研究和产品必须在同一个闭环里运转,这是一种完全不同的组织方式。
她还提到了另一个结构性差异:每个人、每家公司想要的东西,往往是私有的、冲突的。"我的写作风格和你的不一样,我的工作流和你公司的也不一样。这些东西永远不会出现在任何后训练数据集里。"
1
记忆钱包、个人模型与终极愿景
对话的最后,主持人提出了一个有趣的畅想:既然我们现在有"token 钱包"可以带着走,未来会不会有"记忆钱包"——把你在某家公司学到的技能、养成的工作方式,带到下一份工作?
Dan 认为这是终极圣杯之一:
"你在工作中创造了大量价值,IP 和机密留给公司,但你自己学到的技能、你独特的思考方式——某种经过'消毒处理'的东西——应该能带走。我们在生物层面一直这样做,只是靠 NDA 和职业道德来约束。数字化版本会更有意思,因为它会迫使每个人把 AI 更深地融入自己的工作,然后因此获得回报。"
Jessy 的愿景则更具体:人人都有自己的模型——真正不同于别人的模型,不同于前沿模型,服务于你个人或你的团队。
Dan 用神经科学里的一个发现收尾:大脑中负责记忆和负责导航的神经回路,几乎是同一套——记忆本质上是一种在认知空间里的导航。他想象中的 Engram,是一个"神经接口"——不是文件系统的索引,而是对整个数据平面的大脑状态表示,关联性更强、效率更高、更贴近人类理解信息的方式。
"这有点像 Databricks 或 Oracle,"他说,"只不过我们存的是神经记忆,模型是个性化的,而且会有数亿个。"
1
语言 vs 视觉——一个"疯狂理论"
播客临近尾声,主持人 Sean 分享了他酝酿已久的"疯帽子理论":
为什么语言模型最终超越了视觉模型?他的假设是:在生物界,视觉的信息带宽远超语言(光子 vs 声波),所以大脑把更多的"计算资源"分配给视觉。但在计算机世界里,一切都是电子信号,视觉和语言的处理成本被"拉平"了——语言模型因此获得了在生物界不曾有过的公平竞争机会。
Dan 和 Jessy 认为这个方向有一定道理,但也提醒:人类现在做的大量知识工作(写备忘录、读文档、和 AI 聊天)本来就不是进化设计的——我们的大脑并不为这些任务优化,但语言 AI 恰好很擅长。视觉在图像/视频领域仍有巨大潜力,但在知识工作的战场上,语言暂时占优。