Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue
发布时间
阅读量:
阅读量
本文探讨了大型语言模型(LLM)在多轮对话中的安全漏洞,指出LLM在多轮对话中可能产生非法或不道德的反应。尽管已有研究关注单轮对话的安全问题,但多轮对话的复杂性和潜在风险却被忽视。作者提出,人类可以通过多轮对话诱导LLM产生有害信息,即使LLM不拒绝危险查询,多轮对话中每回合都有恶意目的。实验表明,LLM在多轮对话中的安全机制存在不足,暴露了新的漏洞,为LLM的安全性带来了新的挑战。
本文属于LLM系列文章, 本文为《Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue》的翻译。
说话不按顺序:大型语言模型在多轮对话中的安全漏洞
-
摘要
-
1 引言
-
2 背景
-
3 LLM在多轮对话中的安全漏洞
-
4 实验
-
5 讨论与缓解
摘要
大型语言模型(LLM)已证实会产生非法或不道德的反应,尤其是在遭受“越狱”事件时。对越狱的研究突显了LLM的安全问题。然而,现有研究主要集中在单轮对话场景,未能充分考虑多轮对话中潜在的复杂性和风险,而多轮对话是人类与LLM交流的重要模式。在此研究中,我们发现人类能够通过多轮对话诱导LLM生成有害信息。即使在多轮对话中,LLM也不愿拒绝警告性或边缘不安全的查询,只要每个子查询都有明确的恶意目的。因此,通过将一个不安全的查询分解为多个子查询,并在多轮对话中逐步引导LLM回答有害的子问题,最终可以得到总体有害的响应。在广泛的LLM实验中,我们发现LLM在多轮对话中的安全机制尚有不足。我们的研究揭示了LLM在复杂多轮对话场景中的漏洞,这对LLM的安全性提出了新的挑战。
1 引言
2 背景
3 LLM在多轮对话中的安全漏洞
4 实验
5 讨论与缓解
在本文中
全部评论 (0)
还没有任何评论哟~
