发布于 16小时前

Engram 创始人：模型再大，记不住也是白搭

提示词调到极致，也比不上等一个新版本。这是 Engram 联合创始人 Dan Biderman 的判断，也是这家公司创立的起点——当整个行业都在卷上下文工程、RAG、工具调用，Biderman 和他的搭档 Jessy Lin 却把目光投向了另一条路：训练。不是训练更聪明的模型，而是训练模型去记住你。

Biderman 出身神经科学，Lin 来自 NLP 与认知计算方向，两人组建了一支小而精的团队，成立了一家被称为"Neolab"的新兴 AI 实验室。Engram 不做通用大模型，它的客户是每一家需要让 AI 真正理解自身业务的团队——Notion、Microsoft、Harvey 等公司已经在用它训练自己的"专属模型"，让引擎不仅仅是回答问题，而是像一个老员工一样，记住每一次决策、每一轮迭代和每一个领域特有的暗知识。

在本期 45 分钟的播客专访中，两位风投背景的主持人带着一个核心问题追问到底：当 AI 模型已经足够聪明，下一个瓶颈是什么？Engram 的回答很干脆——记忆。不是把更多东西塞进上下文窗口，而是让记忆刻进模型的权重里。

本文编译自 YouTube 播客专访《Memory and Continual Learning: Engram's Dan Biderman and Jessy Lin》。以下是完整编译。

"我们的模型始终在训练"——打破预训练与后训练的边界

Engram 官网有一句话让主持人一开始就追问："我们不从预训练或后训练的视角看世界。我们的模型始终在训练。"

这是什么意思？

Jessy Lin 的解释直接："今天的模型已经非常聪明了。但让这些模型更有用的瓶颈，不再是原始智能，而是理解新的、持续变化的上下文——比如你正在做的新任务，或者某个公司特有的工作方式。问题是：我们怎么把这些东西烘焙进模型的权重里，就像预训练把'法国首都是巴黎'烘焙进去一样深？"

Dan 用一个更感性的比喻补充道："就像我们人类，每天睡一觉，第二天回到工作上，大脑里不只有笔记，还有一种新的直觉——知道该往哪儿看，该怎么想。现在的 AI 解决方案，都是外部化记忆：把东西写进上下文、写进笔记。但这有两个问题：第一，你每天产生的 token 很快会到达数千万级别，检索成本极高；第二，外部记忆没有真正的理解，只有查找。"

两人的共识是：上下文工程（context engineering）、RAG、工具调用——这些都有价值，但有一个严重被低估的工具：训练。用和前沿实验室训练顶级数学/代码模型同样的方式，去训练任何一个垂直领域、任何一家公司的私有数据。

Engram 架构：把公司知识"烘焙"进模型权重

Engram 做的事情，用一句话概括：训练每个团队的专属模型，让它深度理解这个团队的上下文，并随时间持续进化。

Jessy 描述了产品的工作方式：他们接入 Notion、Microsoft、Harvey 这类有大量长期工作数据的平台，把其中的文档、对话、反馈——这些人们日常工作产生的原始信号——转化为训练数据，然后通过 LoRA（低秩自适应）等 adapter 微调技术，把这些知识烘焙进模型的权重。

目标不是"在推理时把文件读一遍"，而是让模型像一个在公司工作了多年的老员工那样理解公司：

知道公司的各项战略方向
理解这里特有的做事方式
熟悉招聘流程、写作风格、内部惯例
能够在不检索任何文档的情况下，直接给出准确答案

Dan 给出了一个量化的冲击感：当前最好的前沿模型，要回答一个关于公司内部知识的问题，可能需要消耗 10 万个 token 来检索和推理；而 Engram 训练好之后，同样的问题可能只需要 100 个 token——节省幅度可达 100 倍，不是 50%，是两个数量级。

技术上，Engram 需要白盒访问模型权重，因此更偏向开源模型，同时也可以与有闭源权重的公司合作。任何基于 Transformer 架构的模型，都可以接受 Engram 的处理。

记忆到底该不该放进权重？——RAG 的局限

一个绕不开的问题是：RAG（检索增强生成）难道不能解决这个问题吗？

主持人追问，Dan 给出了一个精妙的类比：

"你需要内化你家的门禁密码吗？需要，因为你每天用。你需要内化去年在某家酒店的房间号吗？不需要，写下来就好。"

但他随即指出 RAG 的核心局限：你知道自己该搜什么吗？

检索系统解决的是"存什么、放哪里"的问题，但真正难的是"知道该找什么"。很多时候，有价值的关联是无法被预先查询的——比如，当你看到团队某人在做某个研究方向，你凭直觉想起另一个相关的事情，这种"不请自来"的联想，只能发生在权重里，无法发生在检索系统里。

Jessy 补充了另一个角度：如果你总是依赖 RAG，你就永远在做静态检索，无法在知识上做累积和组合。"就像你总是重新看笔记，而不是真正消化——你的理解永远不会加深。"

Dan 更直接地说：Engram 的方向，是某种意义上的 "RAG killer"——不是说 RAG 没价值，而是对于那些需要被真正内化的知识，训练进权重是更优的选择。

什么叫"重要的事才记"——遗忘是智能的一部分

一个深层的哲学问题浮出水面：大模型把所有事实都记进权重，这是 feature 还是 bug？

Jessy 给出了她的看法："你不可能把事实记忆和技能记忆完全分离。有些研究者尝试过把模型里的'事实'都剥离出去，只保留'算法能力'——结果模型变得非常不自然，连基本问题都答不上来。你需要内化一些东西，才能在它们之上构建更抽象的概念。"

但她也承认了问题的核心：不是所有事实都值得记。现有的学术 benchmark 常常要求模型记住"某个非洲国家某座桥的长度"——这种信息毫无必要占用模型的容量。

Dan 用神经科学视角切入："人类记忆是有损的（lossy）。这不是缺陷，这是智能的一部分——压缩重要的，过滤不重要的。深度学习的魔法恰恰在于：梯度下降能把海量信息压缩进极少数的参数里。70B 的 Llama 模型，参数文件大约 100GB，却能记住整个互联网的精华；但如果只是缓存一篇泰勒·斯威夫特的维基百科文章的 KV cache，就需要 80GB 的 GPU 内存——你把几十 KB 的文字变成了 80GB 的'大脑状态'。"

他的结论是：训练就是压缩。 如果能把那 80GB 离线压缩成几百兆，加载速度会快 1000 倍，这对整个推理基础设施都有颠覆性的意义。

为什么大模型厂商自己不做这件事？

主持人问了一个尖锐的问题：OpenAI、Anthropic 这些前沿实验室，为什么不自己把持续学习做掉？

Dan 的回答很坦率：

"前沿实验室的 P0 是 AGI——一个在编程和数学上极度通用的超级模型。要推进这个，路径是明确的：更多预训练、更大模型、更多数据、更多 RL、更多推理计算。这是他们 95% 的精力和资金所在。"

他并不认为大厂没在想记忆和持续学习——事实上，DeepMind 的 Demis Hassabis 在 Sequoia 活动上明确说过"这个领域需要新突破"——但对大厂来说，这更多是一个产品层面的问题，还没有被当作核心研究挑战来攻克。

Jessy 补充了另一个维度：这个问题需要研究和产品的深度整合。在大厂的现有模式里，研究者训好模型，扔给产品团队，产品团队再做上下文工程和提示词工程。但在 Engram 的世界里，用户的每一次交互就是训练信号——研究和产品必须在同一个闭环里运转，这是一种完全不同的组织方式。

她还提到了另一个结构性差异：每个人、每家公司想要的东西，往往是私有的、冲突的。"我的写作风格和你的不一样，我的工作流和你公司的也不一样。这些东西永远不会出现在任何后训练数据集里。"

记忆钱包、个人模型与终极愿景

对话的最后，主持人提出了一个有趣的畅想：既然我们现在有"token 钱包"可以带着走，未来会不会有"记忆钱包"——把你在某家公司学到的技能、养成的工作方式，带到下一份工作？

Dan 认为这是终极圣杯之一：

"你在工作中创造了大量价值，IP 和机密留给公司，但你自己学到的技能、你独特的思考方式——某种经过'消毒处理'的东西——应该能带走。我们在生物层面一直这样做，只是靠 NDA 和职业道德来约束。数字化版本会更有意思，因为它会迫使每个人把 AI 更深地融入自己的工作，然后因此获得回报。"

Jessy 的愿景则更具体：人人都有自己的模型——真正不同于别人的模型，不同于前沿模型，服务于你个人或你的团队。

Dan 用神经科学里的一个发现收尾：大脑中负责记忆和负责导航的神经回路，几乎是同一套——记忆本质上是一种在认知空间里的导航。他想象中的 Engram，是一个"神经接口"——不是文件系统的索引，而是对整个数据平面的大脑状态表示，关联性更强、效率更高、更贴近人类理解信息的方式。

"这有点像 Databricks 或 Oracle，"他说，"只不过我们存的是神经记忆，模型是个性化的，而且会有数亿个。"

语言 vs 视觉——一个"疯狂理论"

播客临近尾声，主持人 Sean 分享了他酝酿已久的"疯帽子理论"：

为什么语言模型最终超越了视觉模型？他的假设是：在生物界，视觉的信息带宽远超语言（光子 vs 声波），所以大脑把更多的"计算资源"分配给视觉。但在计算机世界里，一切都是电子信号，视觉和语言的处理成本被"拉平"了——语言模型因此获得了在生物界不曾有过的公平竞争机会。

Dan 和 Jessy 认为这个方向有一定道理，但也提醒：人类现在做的大量知识工作（写备忘录、读文档、和 AI 聊天）本来就不是进化设计的——我们的大脑并不为这些任务优化，但语言 AI 恰好很擅长。视觉在图像/视频领域仍有巨大潜力，但在知识工作的战场上，语言暂时占优。

AI资讯

浏览 (4)