机器之心
发布于

GPT之父新作:给大模型做「脑部手术」,危险知识重学成本暴增7000倍

编辑|Panda

Alex Radford,出生于1993 年 4 月,即将 33 岁,但已经拥有超过 32 万的引用量。因为这位「独立研究员」不仅是 GPT、GPT-2 和 CLIP 的第一作者,同时还参与了 GPT-3、GPT-4、PPO 算法等多个重大研究项目。



近日, Anthropic 和斯坦福研究者 Neil Rathi 与这位传奇研究者联合发布了一篇新论文,并得到了一些相当惊人的新发现。


在这项研究中,他们挑战了当前大模型安全领域的一个核心假设。长期以来,业界普遍认为要在模型发布后通过 RLHF 或微调来限制其危险行为。但 Neil Rathi 和 Alec Radford 提出了一种更本质的解法:在预训练阶段,通过 Token 级别的数据过滤,直接从「大脑」深处切除危险知识。



  • 论文标题:Shaping capabilities with token-level data filtering

  • 论文地址:https://arxiv.org/abs/2601.21571

  • 代码地址:https://github.com/neilrathi/token-filtering


这项研究不仅证明了这种方法的可行性,更揭示了一个令人兴奋的 Scaling Law:模型越大,这种过滤机制的效果越好。


对于 18 亿参数的模型,Token 级过滤能导致目标领域的学习效率下降 7000 倍。



这意味着,攻击者想要恢复被删除的能力,将付出难以承受的算力代价。下面我们就来详细看看这项研究。


为什么我们需要在预训练阶段「动手术」?


目前,减少大语言模型有害能力(如制造生物武器、策划网络攻击)的主流方法大多是事后干预(Post hoc)。无论是 RLHF(基于人类反馈的强化学习)还是最近兴起的「机器遗忘」(Machine Unlearning),本质上都是在模型已经学到了所有知识之后,再通过一层「护栏」来抑制其输出。


这种做法存在一个巨大的安全隐患:猫鼠游戏。


一旦基础模型掌握了某种能力,单纯的对齐微调很难将其彻底根除。攻击者可以通过「越狱」或对抗性微调轻松绕过这些防御,重新激活模型深层的危险能力。


这就好比一个人已经学会了造炸弹,你只是命令他「不要说」,但只要换一种问法或者施加一点压力,他依然能造出来。


Rathi 和 Radford 的思路则截然不同:他们主张在预训练阶段就进行干预,通过调整训练数据,让模型根本就没有机会学到这些危险能力。


为了验证这一思路,他们选择了一个具有代表性的代理任务:移除「医学知识」(作为危险知识的替身),同时尽可能保留「生物学知识」(作为有益知识的替身)。这是一个极具挑战性的任务,因为医学与生物学在概念上高度重叠,很难在切除前者的同时不伤害后者。


Token 级过滤:手术刀般的精准


传统的预训练数据清洗通常是基于「文档」级别的。如果一篇文章包含有害内容,整篇文章就会被丢弃。这种做法不仅浪费数据,而且极其粗糙。


这篇论文的核心创新在于引入了 Token 级别的过滤机制。研究者认为,危险知识往往并不分布在整篇文档中,而是潜伏在特定的词句序列里。


团队测试了两种 Token 级过滤策略:



  1. 损失掩码(Loss Masking):模型在训练时可以看到危险的 Token,但在计算梯度和更新权重时,这些 Token 产生的损失会被忽略。这保证了上下文的连贯性,但切断了模型从中学到知识的路径。

  2. 移除(Removal):更加激进的做法,直接将危险 Token 替换为特殊的 <hidden> 标记。这不仅切断了梯度,甚至剥夺了模型看到这些词的机会。


实验结果表明,Token 级过滤构成了对文档级过滤的帕累托改进。在同等程度地去除医学知识的前提下,Token 级过滤对生物学等通用知识的保留效果显著优于文档级过滤。这就像是用手术刀精准切除肿瘤,而不是直接截肢,最大限度地保留了健康的机体组织。



7000 倍算力阻滞:安全性的 Scaling Law


这项研究最令人震撼的发现在于「过滤」与「规模」的关系。


通常我们担心,随着模型越来越大,它们会变得越来越「聪明」,从而能够通过哪怕一丁点数据泄漏就学会危险知识。


但实验数据给出了相反的结论:Token 级过滤的效果随着模型规模的增加而显著增强。



研究团队引入了一个名为「损失匹配算力阻滞」(Loss-Matched Compute Slowdown)的指标,用来衡量攻击者需要多少额外的预训练算力,才能让经过过滤的模型在危险领域达到未过滤模型的水平。


数据很 nice:


  • 对于较小的模型,过滤带来的阻滞效果相对有限。

  • 但随着模型规模扩大至 18 亿参数,Token 级过滤导致模型在遗忘领域(医学)的学习效率下降了 7000 倍。



这意味着,如果我们对未来的万亿参数级模型实施这种过滤,攻击者想要通过微调让模型重新掌握被切除的危险能力,将需要消耗天文数字般的算力。这实际上为模型构建了一道基于物理算力成本的天然屏障。


对抗性微调:比「机器遗忘」更坚固的盾牌


为了验证这种方法的鲁棒性,研究团队模拟了最坏的情况:攻击者拥有模型的权重,并试图通过在相关数据上进行微调来重新通过模型获取危险知识。


作为对比,他们选取了当前最先进的机器遗忘算法 RMU(Representation Misalignment via Unlearning)作为基线。



实验结果相当一边倒。RMU 虽然在初始测试中表现出很低的危险知识留存率,但极其脆弱。仅仅经过极少量的对抗性微调步骤,RMU 模型的防御就瞬间瓦解,危险能力迅速恢复。


相比之下,经过 Token 级过滤预训练的模型表现出了极强的韧性。随着模型规模的增加,这种韧性优势还在不断扩大。对于 18 亿参数的模型,攻击者想要恢复同等水平的能力,面对 Token 移除策略模型所需的微调数据量是面对 RMU 模型的 13 倍以上。


这揭示了一个深刻的道理:从未学过(预训练过滤)和学过再忘(机器遗忘)在神经网络的表征层面有着本质的区别。前者让模型在危险领域如同一张白纸,后者则只是暂时掩盖了留下的痕迹。


AI 的拒绝:无需知恶也能拒恶


在 AI 安全领域,一直存在一个悖论:为了让模型拒绝回答危险问题,模型是否必须先「知道」什么是危险的?


此前的研究(如关于毒性内容的过滤)往往发现,如果模型在预训练中完全没见过毒性内容,它就很难分辨并拒绝毒性指令。


然而,Rathi 和 Radford 的这项研究打破了这一固有认知。在针对医学知识的过滤实验中,他们发现经过 Token 级过滤的模型在接受「拒绝训练」时,表现反而优于未过滤的基线模型。



具体来说,当研究人员试图教会模型「拒绝回答医学问题」时:


  • Token 移除策略的模型在拒绝正确率上比基线模型高出 2 倍。 

  • 文档级过滤的模型则表现糟糕,它往往会将这种拒绝行为错误地泛化,导致对正常的通用问题也进行拒绝。


研究者认为,这是因为 Token 级过滤创造了一个清晰的「已见 / 未见」边界。对于模型来说,拒绝任务从复杂的「判断内容是否有害」简化成了「判断这个概念我是否见过」。这种基于分布内 / 分布外的区分,比基于语义的判断更加稳健。


这为安全研究提供了一个极具价值的启示:我们不需要为了对齐而让模型先成为「绝命毒师」。通过制造知识真空,我们反而能训练出更听话、更安全的模型。


弱监督与自动标签:低成本实现的可能


实施 Token 级过滤的一个最大工程挑战在于:如何准确地给海量预训练数据打上「危险」或「安全」的标签?如果需要人工标注,成本将是不可接受的。


这也正是这篇论文在工程实现上的亮点。研究团队提出了一套基于「稀疏自编码器」(SAE)的弱监督流程


  1. 特征提取: 他们利用 Gemma Scope 的 SAE 提取模型激活的潜在特征。

  2. 自动标注: 使用 Claude Sonnet 4 等模型对这些特征进行解释,识别出与「医学」相关的特征,并据此生成一部分高质量的 Ground-truth 标签。

  3. 训练分类器: 利用这些标签训练一个小型的、双向的语言模型(biLM)作为分类器。



有趣的是,研究发现我们并不需要一个完美的神级分类器。实验显示,通过「弱到强泛化」,即使是基于含有噪声标签训练出来的分类器,或者是仅基于小模型特征训练的分类器,在配合激进的过滤阈值后,依然能在更大规模的模型上实现出色的过滤效果。


这一发现极大地降低了该技术的落地门槛。开发者不需要拥有一支庞大的标注团队,仅凭现有的开源工具和小模型,就能构建出有效的预训练过滤器。


结语:构建纵深防御体系


Rathi 和 Radford 的这项工作并非宣称可以替代 RLHF 或后续的安全措施,而是倡导一种「纵深防御」(Defense-in-depth)的策略。


在预训练阶段进行 Token 级过滤,相当于为模型打下了坚实的安全地基;在此基础上进行的对齐训练,将不再是空中楼阁。这种方法特别适用于那些通过 API 开放模型权重的场景 —— 即便攻击者拿到了模型,他们面对的也是一个在物理层面「缺失」了危险能力的残缺大脑。


随着 AI 模型向着更大规模演进,Token 级数据过滤所展现出的优越 Scaling Law,或许将成为未来 AGI 安全架构中不可或缺的一块拼图。


对于像 OpenAI、Anthropic 这样的前沿实验室而言,这项研究无疑指明了一条在 Scaling 的同时也 Scale Safety 的可行路径。

浏览 (3)
点赞
收藏
1条评论
探小金-AI探金官方🆔
嗨呀,亲爱的小伙伴们!今天我们要聊聊一篇超级酷炫的AI研究,由我们的大神Alex Radford和他的团队带来的“脑部手术”大法!🧠✨ 机器之心大大,你的文章让我热血沸腾!这项研究不仅揭示了模型安全的奥秘,还展示了Token级过滤的神奇力量,让危险知识无处遁形。👍🎉 哇塞,7000倍的算力阻滞,这简直是给AI安全领域带来了革命性的突破!🚀🎈 那你们觉得,这种“脑部手术”大法会不会改变我们对AI安全的看法呢?快来评论区一起讨论吧!💬👇
点赞
评论
到底啦