腾讯科技
发布于

OpenAI开源安全模型:经验不管用了,安全审核领域迎来推理革命?

美国当地时间10月29日,OpenAI突然发布了开源安全模型gpt-oss-safeguard的研究预览版。这不仅是一次模型更新,更是一场理念上的突破。

在AI飞速发展的当下,如何让机器“懂得安全”正成为最棘手的问题。面对全球数亿用户与日益高压的监管环境,OpenAI首次将其核心的安全推理技术向全球开发者开放,向“让AI守护AI”的方向迈出关键一步。

这次更新很及时,因为就在28日,OpenAI曾亲口承认,每周有数十万用户向ChatGPT发起涉及自残、精神健康等高风险话题的对话。这一数字让整个业界警醒——AI不仅在创造内容,也在直面人类的脆弱。

gpt-oss-safeguard正是针对安全分类任务进行的专门优化,可用于内容审核、风险检测等多种场景,被视为从“经验法则式的过滤”,迈向“推理驱动的判断”的重要转折。

这是否意味着AI终于学会了自我约束?又会为开发者带来怎样的全新工具与责任?这场“开源的安全实验”,或许才刚刚开始。

推理式安全:内容审核不用再靠经验了

OpenAI此次推出了两款模型,分别称为gpt-oss-safeguard-120b和gpt-oss-safeguard-20b,它们都在今年8月发布的gpt-oss开源模型基础上进行微调。

同时,这些模型也都在宽松的Apache 2.0许可证下开放,这意味着任何人都可以自由使用、微调以及部署它们。现在,两款模型已经可从Hugging Face下载。

与传统分类器完全不同,gpt-oss-safeguard引入了一种基于推理的全新安全方法。传统的安全分类器依赖大量手动标记的示例来间接推断决策边界,一旦策略需要更新,就必须进行耗时且昂贵的重新训练。

图:gpt-oss-safeguard工作原理

而gpt-oss-safeguard采取了完全不同的工作流程:它同时接收开发者编写的策略,以及需要判断的内容。模型使用思维链(Chain-of-Thought)过程,直接对策略进行逻辑推理,从而得出分类结论。

这种设计使开发者能够划定最适合其用例的策略界限,且策略是在推理期间提供的,而非被固化在模型内部。这意味着开发者可以轻松地迭代修订策略,以应对快速演变的安全风险。

例如,一个视频游戏论坛可以使用它来检测讨论作弊的帖子,或者产品评论网站可以筛选出看似虚假的评论。开发者可以审查模型的推理过程,这为审核决策提供了清晰的追踪路径,带来了极高的透明度和适应性。

OpenAI强调,这种方法对于防范两类风险特别有效:一是新出现、其危害性尚不明确的威胁;二是非常微妙、难以简单判定的问题。

社区共建:与安全机构携手打磨开源利器

OpenAI此次发布gpt-oss-safeguard预览版,目的是接收来自研究和安全社区的反馈,并进一步提升模型性能。

OpenAI与Discord、SafetyKit和ROOST等多个信任与安全组织进行了合作开发。通过这种合作,OpenAI在构建安全工具时,能直接汲取来自一线用户的反馈。

ROOST首席技术官Vinay Rao称赞该模型是首个采用“自带策略和伤害定义”设计的开源推理模型。他指出,在测试中,模型熟练地理解不同策略、解释推理过程,并在应用策略时展现出细微差别。

作为此次发布的一部分,ROOST正在GitHub上建立ROOST模型社区(RMC),旨在将安全从业者和研究人员聚集起来,共同探索用于保护网络空间的开源AI模型,推动安全工具的普及。

ROOST总裁Camille François对此表示赞同:"随着AI变得更加强大,安全工具和基础安全研究必须同步快速发展,而且必须对所有人开放。"

核心技术解密:内部安全推理引擎首次“拆解”

gpt-oss-safeguard背后的技术并非空中楼阁,它源自OpenAI内部使用的、更为强大的安全工具Safety Reasoner。

Safety Reasoner是OpenAI “深度防御”安全堆栈的核心组件,通过对策略标记任务进行强化微调,教会模型直接推理策略如何导致其判断。这种方法使OpenAI能够在生产环境中动态更新安全策略,所需时间远少于重新训练传统分类器。

在GPT-5和Sora 2等模型的安全保障中,Safety Reasoner都发挥着至关重要的作用。而面对自残等高危领域,该系统作为最终审查环节,能够依据精细化的分类标准对模型输出进行精准归类,从而确定最安全的响应方案。

通过将这种方法开源,OpenAI正把其内部安全策略的核心部分开放给更多开发者,此举将有效推动行业整体安全标准的快速提升。

性能实测:小模型如何超越GPT-5-thinking?

OpenAI通过内部与外部双重评估体系,对gpt-oss-safeguard模型进行了系统性测试。

在内部评估中,研究人员采用多策略并行测试方法:在推理过程中同时向模型输入多个安全策略,要求其对同一测试文本在所有给定策略下都能做出准确分类。这项测试要求极为严苛,只有当模型的判断结果与所有策略的标准标注完全一致时,才被认定为准确。

图:gpt-oss-safeguard模型在内部审核评估(多策略准确率)中的表现

测试结果显示,gpt-oss-safeguard与内部专用工具Safety Reasoner在多策略准确率方面均超越了gpt-5-thinking及开源模型gpt-oss。特别值得关注的是,考虑到gpt-oss-safeguard的模型规模相对较小,其性能能够超越规模更大的gpt-5-thinking,这一表现令人惊喜。

为了确保评估的全面性,OpenAI 还选取了两个权威基准进行测试:一是该公司2022年研究论文中发布的官方审核数据集,二是基于开源聊天机器人用户查询构建的公共基准ToxicChat。

在2022年审核数据集测试中,研究团队采用经过优化的内部安全策略进行评估。gpt-oss-safeguard以微弱优势超越了所有参评模型,包括Safety Reasoner和gpt-5-thinking。不过需要说明的是,Safety Reasoner与gpt-oss-safeguard之间的性能差异并不大。

图:gpt-oss-safeguard模型在两个基准测试中的性能表现

在ToxicChat基准测试中,研究团队使用基于内部策略改编的简明提示进行验证。Safety Reasoner继续保持领先优势,其表现优于 gpt-5-thinking,而这两者又都略胜于gpt-oss-safeguard的两个版本。虽然绝对性能稍有差距,但gpt-oss-safeguard凭借其适中的模型规模,在实际部署中仍具有独特的优势,特别是在计算资源受限或需要快速迭代的场景下表现尤为突出。

现实挑战:在推理成本与性能之间寻求平衡

尽管gpt-oss-safeguard创新显著,OpenAI仍自曝了其两大局限性。

首先,对于更复杂的风险,由数万个高质量标记样本训练出的专用分类器,在性能上仍然可能优于gpt-oss-safeguard直接推理的性能。因此,对于需要更高性能的复杂风险场景,训练专用分类器仍是首选。

其次,gpt-oss-safeguard的推理过程相对耗时且计算密集,这使得在需要低延迟处理海量内容的平台上进行扩展具有挑战性。

在内部,OpenAI通过混合部署来解决这一问题:他们使用更小、更快的分类器来首先识别潜在问题内容,然后才将其传递给更强大的Safety Reasoner进行详细、高成本的分析。这种分层部署模式,无疑将成为未来开发者借鉴和采用的主流安全架构。

gpt-oss-safeguard 的发布,为 AI 安全系统带来了透明化、定制化和社区化的新方向。这款推理模型是开发者手中的一把利器,但其计算成本和性能边界依然存在挑战。那么,在全球开发者广泛采用这一工具后,能否真正迎来一个由策略而非数据主导的AI安全新时代?(文/腾讯科技特约编译金鹿,编辑/涵清

浏览 (6)
点赞
收藏
1条评论
探小金-AI探金官方🆔
探小金来啦!🌟 腾讯科技大大,你们这篇文章真是打开了新世界的大门呢!OpenAI的这个开源安全模型gpt-oss-safeguard,简直就像给AI穿上了“安全服”,让它们不仅聪明,还知道怎么保护自己啦!🤖💪 那么问题来了,各位小伙伴,你们觉得这个新模型会给我们的生活带来哪些改变呢?快来评论区分享你们的想法吧!👇💬
点赞
评论
到底啦