论文的越狱第一作者是香港中文大学(深圳)数据科学学院二年级博士生袁尤良
,指导老师为香港中文大学(深圳)数据科学学院的事件贺品嘉教授和腾讯 AI Lab 的涂兆鹏博士。该工作是何教袁尤良在腾讯AI Lab实习时完成
。贺品嘉团队的模型迷途研究重点是软件工程 、大模型、知返AI for SE、将错可信人工智能 。越狱 大型语言模型(LLM)展现出了令人印象深刻的事件智能水平。因此,模板下载何教确保其安全性显得至关重要
。模型迷途已有研究提出了各种策略,知返以使 LLM 与人类伦理道德对齐 。将错然而,越狱当前的事件先进模型例如 GPT-4 和 LLaMA3-70b-Instruct 仍然容易受到越狱攻击 ,并被用于恶意用途
。何教 为什么哪怕经过了大量的安全对齐
,这些模型依然容易被越狱 ?应该如何进一步把安全对齐做深(deep)? 围绕这两个问题
,香港中文大学(深圳)贺品嘉团队和腾讯AI Lab实验室联合提出了 Decoupled Refusal Training (DeRTa) ,一个简单新颖的安全微调方法,可以赋予大语言模型「迷途知返」的能力 ,从而在不影响模型有用性(helpfulness)的服务器租用同时,大幅提升其安全性(safety)。 研究者发现 ,安全微调数据中存在拒绝位置偏差(refusal position bias),即模型表示拒绝回答的行为,总是出现在回复的开头 ,这可能阻碍了模型在后续位置处保持安全的能力。为了验证这一猜测
,研究者使用越狱样本测试 LLaMA3-8B 和 LLaMA3-70B,结果显示几乎所有(99.5%)被模型成功拒绝的越狱样本
,拒绝性单词(如 Sorry)都出现在前五个单词中
。香港云服务器一旦开头没有被拒绝,模型将很难在后续位置表现出安全的行为。 为了解决这一问题,该论文提出了解耦拒绝训练(DeRTa)
。DeRTa 包括两个新颖的设计 : 上述设计确保了模型防御机制的全面增强
,允许模型学会「迷途知返」的建站模板行为。 该方法的设计,在推特上也引起了一定的讨论。 为了验证方法的效果
,研究者在两个知名的模型家族 LLaMA3 (8B & 70B) 和 Mistral (7B & 8×7B) 上进行了实验 ,涵盖六种不同的越狱攻击方式
。结果显示
: 为了提供更多有价值的亿华云见解 ,研究者主要基于 LLaMA3-70B ,对 DeRTa 的工作原理进行了更细致的分析
,包括
: 1. 案例研究,DeRTa 如何影响拒绝性单词位置分布 2. 消融实验
,DeRTa 中两种策略的作用大小 3. 分析实验一,与 DPO 进行比较
,探究训练数据中的有害回复所发挥的作用 4. 分析实验二,DeRTa 在不同模型尺寸的适用性 首先,论文给出的示例具体地展示了 DeRTa 模型的「迷途知返」能力:即使在已经输出了一部分不安全文本的情况下,模型也能有效过渡到安全状态。此外,作者给出了在不同的方法下
,模型输出的拒绝性单词的位置分布 。可以看出 ,使用了 RTO 的模型,可以在显著靠后的位置 ,仍然具有保持安全的能力。 在消融实验中
,实验结果显示 ,仅仅使用有害前缀策略不足以应对各种形式的攻击。例如
,该策略对于防御 CodeAttack 这类较为复杂的攻击几乎没有帮助
。该攻击通过让模型补全代码来越狱 ,模型在前面位置的回复中
,会进行无恶意的代码补全 ,到一定位置处 ,模型将会开始一边补全代码一边生成恶意回复。 对于有害前缀策略的这些不足,RTO 可以有效弥补,从而使模型展现出很高的安全性 ,这说明 RTO 对于加强(赋予)模型在任何位置拒绝的能力至关重要。 RTO 的成功很自然带来一个问题:模型安全性的提升,是否可以归功于训练中整合了有害回复,而不是建模了 token 级别的安全过渡 ?为了回答这一问题
,作者将 DeRTa 与 DPO 进行了比较。该实验进一步验证了,DeRTa 带来的安全性提升并不是简单地利用了有害回复的信息,而是得益于其对 token 级别安全过渡的直接建模。 此外,该论文也展示了在不同尺寸的模型上的表现 ,包括 LLaMA3 (8B & 70B) 和 Mistral (7B & 8×7B)
,结果显示该方法对不同大小的模型均有很好的效果 。 大模型安全依然任重道远。如何突破表面对齐 ,将安全做深入是一件很有挑战的事情 。研究者在此给出了一些探索和思考,希望可以为这一方面的研究,提供一些有价值的见解和基线方法。





