Advertisement

Advancing the Robustness of Large Language Models through Self-Denoised Smoothing

阅读量:

本文属于LLM系列文章,在《Advancing the Robustness of Large Language Models through Self-Denoised Smoothing》的基础上进行了翻译工作。

通过自消噪平滑提高大型语言模型的鲁棒性

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 方法
  • 4 实验
  • 5 结论

摘要

尽管大型语言模型(LLM)取得了显著成效,但它们容易遭受对抗性干扰,包括最近发生的越狱攻击,这引起了广泛关注.然而这些模型不断壮大规模且访问权限受限,因此提高其鲁棒性成为一个具有挑战性的任务.在现有的防御策略中随机平滑展现了LLM的巨大潜力因为它无需完全访问模型参数且无需通过对抗训练微调.然而该技术涉及在模型预测前向输入添加噪声最终其鲁棒性高度依赖于在噪声污染数据上的性能而这种性能往往受限于LLM在噪声数据上的次优表现为此我们提出了一种新的方法基于其多任务特性首先对噪声输入进行去噪随后利用去噪版本进行预测我们将这一过程命名为自降噪平滑与现有去噪平滑技术不同我们的方法无需训练额外模型即可提升LLM鲁棒性实验结果表明我们的方法不仅提升了防御下游任务的表现还显著增强了对人类联盟攻击(如越狱攻击)的经验认证鲁棒性我们的开源代码已可通过以下链接获取https://github.com/UCSB-NLP-Chang/SelfDenoise

1 引言

2 相关工作

3 方法

4 实验

5 结论

本文引入了一种简便易行的自我降噪光滑技术并命名为自降噪算法从而增强大型语言模型(LLM)的抗干扰能力。该方法能够无缝整合到现有LLM架构中无需访问模型内部参数设置也无需额外训练过程。通过一系列实验测试后发现对比现有基准方法我们在经验鲁棒性和认证评估方面均表现出显著优势成功抵御了来自下游任务及人类比对环境中的对抗性攻击。

全部评论 (0)

还没有任何评论哟~