ICLR 2025杰出论文公布!中科大硕士、OpenAI漆翔宇摘桂冠

新智元报道
新智元报道
【新智元导读】一年一度ICLR 2025杰出论文开奖!普林斯顿、UBC、中科大NUS等团队的论文拔得头筹,还有Meta团队「分割一切」SAM 2摘得荣誉提名。
刚刚,ICLR 2025杰出论文出炉了!
今年共有三篇杰出论文获奖,还有3篇获荣誉提名奖。值得一提的是,斩获杰出论文的学者,都是华人一作。

分别是,OpenAI研究员漆翔宇(普林斯顿博士毕业)、不列颠哥伦比亚大学Yi Ren、新加坡国立大学Junfeng Fang和中科大Houcheng Jiang。

这一次,ICLR委员会通过两阶段严苛选拔,从众多优秀论文中,精挑细选出最终获奖研究。
他们从36篇候选池开始,这些论文是由领域主席推荐或在评审中获得了极高的评分。
委员会成员首先进行了初步评审,筛选出入围名单。随后,所有成员再从理论见解、实际影响、精湛的写作和实验的严谨性等因素对论文进行排名。
最终,由项目主席确认获奖名单。
接下来,一起看看都有哪些论文摘桂冠。
论文1:Safety Alignment Should be Made More Than Just a Few Tokens Deep
作者:Xiangyu Qi, Ashwinee Panda, Kaifeng Lyu, Xiao Ma, Subhrajit Roy, Ahmad Beirami, Prateek Mittal, Peter Henderson
机构:普林斯顿大学,Google DeepMind

论文地址:https://openreview.net/pdf?id=6Mxhg9PtDE
当前,大模型的安全对齐存在显著的脆弱性。简单的攻击,甚至是无害的微调,都可能破解对齐的模型。
普林斯顿联手谷歌DeepMind研究注意到,许多这些脆弱性都与一个共同的根本问题有关:安全对齐可能采取捷径,即对齐主要仅调整模型生成分布的前几个输出token。
他们将这一问题统一称为「浅层安全对齐」(Shallow Safety Alignment)。
论文中,作者通过案例研究解释了「浅层安全对齐」为何存在,并展示了这一问题如何普遍导致近期发现的LLM多个脆弱性,包括对抗性后缀攻击、前置填充攻击、解码参数攻击和微调攻击。

这项研究关键贡献在于,展示了「浅层安全对齐」这一统一概念,如何为缓解这些脆弱性指明有前景的研究方向。
研究证明,深化安全对齐,使其超越前几个token,可以显著提高对一些常见攻击的鲁棒性。
作者还设计了一个正则化的微调目标,通过约束初始token的更新,使安全对齐在微调攻击中更具持久性。
总体而言,团队主张未来的安全对齐,应不仅仅局限于前几个token的深度。
论文2:Learning Dynamics of LLM Finetuning
作者:Yi Ren, Danica J. Sutherland