Advertisement

Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue

阅读量:

本文探讨了大型语言模型(LLM)在多轮对话中的安全漏洞,指出LLM在多轮对话中可能产生非法或不道德的反应。尽管已有研究关注单轮对话的安全问题,但多轮对话的复杂性和潜在风险却被忽视。作者提出,人类可以通过多轮对话诱导LLM产生有害信息,即使LLM不拒绝危险查询,多轮对话中每回合都有恶意目的。实验表明,LLM在多轮对话中的安全机制存在不足,暴露了新的漏洞,为LLM的安全性带来了新的挑战。

本文属于LLM系列文章, 本文为《Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue》的翻译。

说话不按顺序:大型语言模型在多轮对话中的安全漏洞

  • 摘要

  • 1 引言

  • 2 背景

  • 3 LLM在多轮对话中的安全漏洞

  • 4 实验

  • 5 讨论与缓解

摘要

大型语言模型(LLM)已证实会产生非法或不道德的反应,尤其是在遭受“越狱”事件时。对越狱的研究突显了LLM的安全问题。然而,现有研究主要集中在单轮对话场景,未能充分考虑多轮对话中潜在的复杂性和风险,而多轮对话是人类与LLM交流的重要模式。在此研究中,我们发现人类能够通过多轮对话诱导LLM生成有害信息。即使在多轮对话中,LLM也不愿拒绝警告性或边缘不安全的查询,只要每个子查询都有明确的恶意目的。因此,通过将一个不安全的查询分解为多个子查询,并在多轮对话中逐步引导LLM回答有害的子问题,最终可以得到总体有害的响应。在广泛的LLM实验中,我们发现LLM在多轮对话中的安全机制尚有不足。我们的研究揭示了LLM在复杂多轮对话场景中的漏洞,这对LLM的安全性提出了新的挑战。

1 引言

2 背景

3 LLM在多轮对话中的安全漏洞

4 实验

5 讨论与缓解

在本文中

全部评论 (0)

还没有任何评论哟~