Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue

阅读量：

本文探讨了大型语言模型（LLM）在多轮对话中的安全漏洞，指出LLM在多轮对话中可能产生非法或不道德的反应。尽管已有研究关注单轮对话的安全问题，但多轮对话的复杂性和潜在风险却被忽视。作者提出，人类可以通过多轮对话诱导LLM产生有害信息，即使LLM不拒绝危险查询，多轮对话中每回合都有恶意目的。实验表明，LLM在多轮对话中的安全机制存在不足，暴露了新的漏洞，为LLM的安全性带来了新的挑战。

本文属于LLM系列文章，本文为《Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue》的翻译。

说话不按顺序：大型语言模型在多轮对话中的安全漏洞

摘要
1 引言
2 背景
3 LLM在多轮对话中的安全漏洞
4 实验
5 讨论与缓解

摘要

大型语言模型（LLM）已证实会产生非法或不道德的反应，尤其是在遭受“越狱”事件时。对越狱的研究突显了LLM的安全问题。然而，现有研究主要集中在单轮对话场景，未能充分考虑多轮对话中潜在的复杂性和风险，而多轮对话是人类与LLM交流的重要模式。在此研究中，我们发现人类能够通过多轮对话诱导LLM生成有害信息。即使在多轮对话中，LLM也不愿拒绝警告性或边缘不安全的查询，只要每个子查询都有明确的恶意目的。因此，通过将一个不安全的查询分解为多个子查询，并在多轮对话中逐步引导LLM回答有害的子问题，最终可以得到总体有害的响应。在广泛的LLM实验中，我们发现LLM在多轮对话中的安全机制尚有不足。我们的研究揭示了LLM在复杂多轮对话场景中的漏洞，这对LLM的安全性提出了新的挑战。

1 引言

2 背景

3 LLM在多轮对话中的安全漏洞

4 实验

5 讨论与缓解

在本文中

全部评论 (0)

还没有任何评论哟~

Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue

本文是LLM系列文章，针对《SpeakOutofTurn:SafetyVulnerabilityofLargeLanguageModelsinMultiturnDialogue》的翻译。

The Ubuntu Dialogue Corpus- A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems

ubuntu对话语料库训练数据由：1,000,000个例子组成，50%positivelabel150%negativelabel0。每个example由一个文本，这里有对话，一个表达和一个与之对应...

MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language Models

本文是LLM系列文章，针对《MTEval:AMultiTurnCapabilitiesEvaluationBenchmarkforLargeLanguageModels》的翻译。

MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues

本文是LLM系列文章，针对《MTBench101:AFineGrainedBenchmarkforEvaluatingLarge LanguageModelsinMulti MTBench101：一个...

SELF-DEMOS: Eliciting Out-of-Demonstration Generalizability in Large Language Models

本文是LLM系列文章，针对《SELFDEMOS:ElicitingOutofDemonstrationGeneralizability inLargeLanguageModels》的翻译。

LLMARENA: Assessing Capabilities of Large Language Models in Dynamic Multi-Agent Environments

本文是LLM系列文章，针对《LLMARENA:AssessingCapabilitiesofLargeLanguageModelsin DynamicMultiAgentEnvironments》的翻...

Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization

本文是LLM系列文章，针对《QueryOPT:OptimizingInferenceofLargeLanguageModelsvia MultiQueryInstructionsinMeetingSu...

A SURVEY OF LARGE LANGUAGE MODELS IN CYBERSECURITY

本文是LLM系列文章，针对《ASURVEYOFLARGELANGUAGEMODELSINCYBERSECURITY》的翻译。网络安全中的大型语言模型综述摘要 1引言 2基本概念 3相关工作 4当前...

A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine

本文是LLM系列文章，针对《AComprehensiveSurveyofLargeLanguageModelsandMultimodalLargeLanguageModelsinMedicine》的翻...

A Review of Multi-Modal Large Language and Vision Models

本文是LLM系列文章，针对《AReviewofMultiModalLargeLanguageandVisionModels》的翻译。多模态大型语言与视觉模型综述摘要 1引言 2什么是语言模型？ 3...

是否确定退出登录?

Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue

说话不按顺序：大型语言模型在多轮对话中的安全漏洞

摘要

1 引言

2 背景

3 LLM在多轮对话中的安全漏洞

4 实验

5 讨论与缓解

全部评论 (0)

相关文章推荐

Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue

The Ubuntu Dialogue Corpus- A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems

MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language Models

MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues

SELF-DEMOS: Eliciting Out-of-Demonstration Generalizability in Large Language Models

LLMARENA: Assessing Capabilities of Large Language Models in Dynamic Multi-Agent Environments

Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization

A SURVEY OF LARGE LANGUAGE MODELS IN CYBERSECURITY

A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine

A Review of Multi-Modal Large Language and Vision Models