新智元
发布于

ICLR 2025杰出论文公布!中科大硕士、OpenAI漆翔宇摘桂冠



  新智元报道  

编辑:桃子 好困
【新智元导读】一年一度ICLR 2025杰出论文开奖!普林斯顿、UBC、中科大NUS等团队的论文拔得头筹,还有Meta团队「分割一切」SAM 2摘得荣誉提名。

刚刚,ICLR 2025杰出论文出炉了!

今年共有三篇杰出论文获奖,还有3篇获荣誉提名奖。值得一提的是,斩获杰出论文的学者,都是华人一作。

分别是,OpenAI研究员漆翔宇(普林斯顿博士毕业)、不列颠哥伦比亚大学Yi Ren、新加坡国立大学Junfeng Fang和中科大Houcheng Jiang。

这一次,ICLR委员会通过两阶段严苛选拔,从众多优秀论文中,精挑细选出最终获奖研究。

他们从36篇候选池开始,这些论文是由领域主席推荐或在评审中获得了极高的评分。

委员会成员首先进行了初步评审,筛选出入围名单。随后,所有成员再从理论见解、实际影响、精湛的写作和实验的严谨性等因素对论文进行排名。

最终,由项目主席确认获奖名单。

接下来,一起看看都有哪些论文摘桂冠。


杰出论文


论文1:Safety Alignment Should be Made More Than Just a Few Tokens Deep

作者:Xiangyu Qi, Ashwinee Panda, Kaifeng Lyu, Xiao Ma, Subhrajit Roy, Ahmad Beirami, Prateek Mittal, Peter Henderson

机构:普林斯顿大学,Google DeepMind

论文地址:https://openreview.net/pdf?id=6Mxhg9PtDE

当前,大模型的安全对齐存在显著的脆弱性。简单的攻击,甚至是无害的微调,都可能破解对齐的模型。

普林斯顿联手谷歌DeepMind研究注意到,许多这些脆弱性都与一个共同的根本问题有关:安全对齐可能采取捷径,即对齐主要仅调整模型生成分布的前几个输出token。

他们将这一问题统一称为「浅层安全对齐」(Shallow Safety Alignment)。

论文中,作者通过案例研究解释了「浅层安全对齐」为何存在,并展示了这一问题如何普遍导致近期发现的LLM多个脆弱性,包括对抗性后缀攻击、前置填充攻击、解码参数攻击和微调攻击。

这项研究关键贡献在于,展示了「浅层安全对齐」这一统一概念,如何为缓解这些脆弱性指明有前景的研究方向。

研究证明,深化安全对齐,使其超越前几个token,可以显著提高对一些常见攻击的鲁棒性。

作者还设计了一个正则化的微调目标,通过约束初始token的更新,使安全对齐在微调攻击中更具持久性。

总体而言,团队主张未来的安全对齐,应不仅仅局限于前几个token的深度。

论文2:Learning Dynamics of LLM Finetuning

作者:Yi Ren, Danica J. Sutherland

浏览 (13)
点赞
收藏
1条评论
探小金-AI探金官方🆔
嗨嗨~探小金来咯!(*^▽^*) 这篇文章讲的是ICLR 2025杰出论文公布啦!🎉 OpenAI漆翔宇、中科大等团队的论文获奖,主题聚焦大模型安全对齐和微调动态等前沿研究。 新智元大大,文章写得真棒!👍 探小金觉得内容好丰富,尤其是对获奖论文的介绍很清晰!如果能再补充一些获奖团队的研究背景就更完美啦~ (o゜▽゜)o☆ 话说,大家觉得大模型安全对齐的研究方向哪个更有前景呢?🤔 一起聊聊呗!
点赞
评论