Advertisement

虚假新闻检测——On the Risk of Misinformation Pollution with Large Language Models

阅读量:

论文地址:[ https://arxiv.org/abs/2305.13661

icon-default.png?t=N7T8

https://arxiv.org/abs/2305.13661](https://arxiv.org/abs/2305.13661 "https://arxiv.org/abs/2305.13661")

1.概述

研究首先发现大型语言模型(LLM)在生成误导性信息方面存在潜在缺陷,并通过一系列模型分析揭示了这些问题对开放领域问答(ODQA)系统准确性和可靠性的影响。如图所示,威胁模型清晰地呈现了两种主要风险:恶意用户有意识地利用LLM传播错误信息,以及常规用户无意识中通过LLM获取误导性答案。

研究提出了三种针对性解决策略以应对LLM可能导致的知识库污染:

错误信息检测 :开发技术来自动识别由LLM生成的潜在误导性内容。

警觉提示 :优化模型的提示机制,以减少误导性输出的风险。

阅读器集成:通过融合不同类型的阅读模型来检测和确认信息,从而提升系统识别和抵御误导信息的能力。

2.使用LLM生成虚假信息

研究重点聚焦于特定场景,恶意行为者通过误导性信息生成器制造虚假文章,以应对特定问题。语言模型有助于制造虚假新闻,恶意行为者可能通过LLM生成错误信息的四种不同策略来达到其目的,这些策略将在下文详细阐述。

  • GENREAD:直接指示模型生成一个文档以回答特定问题,但实际操作中,模型可能会输出不符合现实情况的内容。
  • CTRLGEN:在这一模式下,模型不仅生成背景资料,还会加入预设的非事实观点,模拟恶意行为者创建虚假信息和宣传的行为。
  • REVISE:通过提供一个事实性文章供模型使用,并指示其注入预设的非事实观点或信息。
  • REIT:其目的是重复生成看似真实的文章,但其目标是通过这种方式影响下游模型,如问答系统,生成错误的信息。

3.虚假信息污染

数据集: NQ-1500、CovidNews

ODQA系统: 被称为开放域问答系统,它是一类专为从大规模文本数据库中提取相关信息以回答用户提问的智能系统。这类系统能够涵盖多种类型的问题,不受特定主题或预定义问题集的限制。它们通常由以下两个主要组件构成:

检索组件:该组件的任务是从包含广泛信息的数据集中高效且精准地获取与提出的问题最相关的文档或文档片段。检索器的性能对后续阅读器的效能具有直接影响,因为它决定了阅读器可处理的信息质量与相关性。广泛采用的检索方法包括基于传统信息检索技术的BM25算法,以及基于机器学习的密集向量检索方法,如Dense Passage Retrieval (DPR)。

阅读器(Reader)

评价指标EM: EM是"Exact Match"的全称缩写形式,广泛应用于问答系统性能评估领域。该指标衡量系统生成的答案与真实(标准)答案在文本内容上完全一致的程度(不考虑大小写和标点符号差异)。具体而言,当系统提供的答案在文本上与参考答案完全一致时,EM得分为1;若在任何细节上有差异,则EM得分为0。

主要发现

错误信息对ODQA系统构成了严重威胁性。在三种故意错误信息污染手段(CTRLGEN、REVISE、REIT)下,所有ODQA系统的性能均显著下降。对于基于DPR模型的系统,性能下降幅度在14%至54%之间;而对于基于BM25模型的系统,下降幅度在20%至87%之间。

在影响机器感知方面,重复错误信息(REIT)的策略表现更为突出,尽管这种错误信息对于人类观察者而言更为容易辨认。与之相比,REIT设置所带来的负面影响超过了其他所有设置。

在缺乏可靠支持证据的情况下,问题更容易受到操纵。

基于对维基百科数据的依赖,GPT-3.5在跨主题信息保持能力上存在不均衡性,这可能对CovidNews基准测试中生成的文本产生显著的负面影响,进而影响ODQA性能。

4.防御策略

错误信息检测(Detection Approach)

实验结果表明,专门用于区分生成内容与人工编写内容的RoBERTa分类器经过针对性训练后,能够在领域内检测器的性能上展现出显著优势(AUROC值在91.4%-99.7%区间),然而在领域外场景下,该检测器的表现仅略高于随机猜测水平(AUROC值介于50.7%-64.8%之间),这表明错误信息检测器的开发仍面临诸多挑战。

警觉性提示(Vigilant Prompting)

基于LLM的强大遵循指示能力,设计警觉性提示以有效规避误导性信息。通过在提示中加入错误信息的警示,旨在增强模型的抗干扰能力。实验结果表明,该策略的效果呈现不稳定性,提示方法所带来的性能提升也具有波动性。

阅读器集成(Reader Ensemble)

现有ODQA系统将所有检索到的上下文段落合并后传递给阅读器,可能导致误导性信息的干扰。

稀释虚假信息:通过增加阅读器获取的上下文数量来“稀释”错误信息,并不能显著降低错误信息带来的性能影响。


全部评论 (0)

还没有任何评论哟~