Advertisement

Zero-Shot Rumor Detection with Propagation Structure via Prompt Learning(论文解读)

阅读量:

Introduction(介绍)

本文主要研究零样本谣言检测所需的有效提示方法及其在语言及领域间的迁移问题。通过分离共有的语义信息与特定语言中的句法偏差,可以显著提升提示与谣言数据间的语义交互程度。此外,由于谣言传播往往伴随着空间与时间上的关联,这些关系提供了关于谣言如何传播的重要线索,而这种关联性并不局限于某一具体领域。为此提出了一种基于响应感知提示学习的零样本框架RPL,用于在社交媒体上实现跨语言及跨领域的谣言检测任务

旨在将共有的意义信息(文本的核心信息)与特定语言中的语法差异分开处理,并避免两者混淆。这样做的目的是为了在生成提示(prompt)与谣言数据之间促进更有效的交互,并以消除由于不同语言下的语法结构带来的潜在干扰。

零样本谣言检测任务(ZRD)旨在利用源谣言数据中的经验来应用在目标语言及领域的未标注训练样本上。

训练过程中, 模型会获取一段文本, 并在此基础上随机标记一些词汇. 模型的目标是根据上下文信息预测被遮蔽的词语. 随后开展预训练工作以获取通用语言表示.

Problem Statement and Background(问题陈述和背景)

在本研究中, 将零样本谣言检测任务归类为: 基于一个源数据集, 在目标数据集中分析各个事件, 并判断其是否构成谣言. 该研究分别源自于不同语言背景及领域的来源.

具体而言:

源数据集 ,定义为一组事件表示为

,每个事件是一个三元组表示为

,其中

表示一个真实性标签{谣言,非谣言}与

论点(涉及特定事件或主题的论述、陈述或声明)相关,并且在理想情况下按时间顺序排列的所有相关微博帖子及其响应

(m为响应帖子的数量)。

目标数据集 ,定义为一组事件表示为

,每个事件是一个二元组表示为

(与源数据集相似)。

这个任务可以通过构建一个监督学习模型来实现,并训练一个适用于无语言环境的跨领域分类器

,将从源数据集学到的特征迁移到目标事件,即

在本研究中,我们将谣言检测问题视为一种基于填充模式的掩码语言建模问题.例如,在给定一个填充模式的情况下

(例如,"For this [MASK] story. " 作为提示,与主张 c 拼接成

),基于提示学习的方法利用预训练语言模型(PLMs)捕获 [MASK] 位置对应的令牌内部表示,并通过分析这些特征信息来识别填充 [MASK] 的谣言特征符号。

标签

的概率为

公式解释:

其中

是一组与谣言相关的标签词语,

是与

对应的

的子集,

该系统作为一个基于手动干预的语言处理器,在生成阶段对特定条件概率进行调整,并将其与真实条件建立对应关系。这种机制能够通过生成的预测词与真实条件之间的映射关系帮助我们判断某个主张的真实性。

Approach(方法)

模型结构图:

Response Ranking:

为了凸显社交背景并加强事件的上下文表示学习, 提出了基于证据性响应的方法. 其核心理念在于根据不同的传播线索对各类响应进行排序.

时间序列

随着时代的演进以及信息传播手段的进步,在事件发展过程中逐渐形成的倾向性特征使得响应性帖子趋于统一于某一立场。这些响应性帖子可以通过按时间顺序及逆时序进行排列。

按时间排序
按时间序列的反向顺序
传播树

除了时间顺序的角度外,进一步将传播线索表示为树结构

是一组节点,每个节点代表c的一个响应性帖子。

中节点之间响应关系的有向路径集合。

采用深度优先

深度优先搜索研究了信息从祖先流向子节点的传播模式。

以上述原理图为例:响应排名的深度优先顺序是

采用广度优先

广度优先搜索优先考虑了兄弟节点之间的用户意见交互。

以上述原理图为例:响应排名的深度优先顺序是

Hierarchical Prompt Encoding

如果依赖现有词汇中的标记符号等作为参考依据,则可能导致对特定语言语法结构产生偏见。
尽管软提示方法能够缓解这一问题,
但这种解决方案与其零样本训练方案存在矛盾。

名词解释:需要母语专家为不同语言设计与谣言相关的模式或标准。

软提示:采用了经过训练优化后的标记符号。

PLMs的较低层能够识别语法级别的特征,而PLMs的较高层能够表征语义级别的特征。基于PLMs提出了一种分层提示编码(HPE)机制,在语法和语义层面实现语言无关表示学习。在该方法中尽管句法特征与语言紧密相关但不同语言之间仍能共享语义信息。

SynEncoder层

分别复制并冻结了来自多语言PLMs编码器的前

层的参数。

对模板进行编码

公式解释:

是模板嵌入,

是SynEncoder输出状态的维度。

表示响应(responses)的数量,具体而言。

由...构成的一个矩阵,在其中每一行映射到一个响应结果中,在每一个列位置上映射到嵌入空间中的每个维度。

是嵌入空间的维度。

对事件进行编码

考虑到所有响应性帖子在训练或测试阶段均被与声明相同的语言和领域呈现, 我们可以将其用于连接到相同冻结参数后的SynEncoder中.

公式解释:

表示拼接操作(垂直拼接和水平拼接)。

是事件的嵌入。

是PLMs的最大序列长度。

其中因为PLMs的输入长度有限制,保留那些上下文连贯的帖子。

SemEncoder层

希望在不同语言之间共享语义信息。

从语义层面来看,在构建一个可训练的**语义编码器(用于捕获模板与事件间的语义关联)**时,则将其置于大型语言模型架构中的核心位置。

层)。

随后,在经过冻结后的SynEncoder架构上建立连接,并对模板与事件进行输出状态的调节,以便更深入地构建模板与事件之间的语义交互机制。

公式解释:

表示语义交互的向量

Propagation Position Modeling

为了解决社交媒体上的零样本谣言检测中提示学习与传播结构之间的差异问题,在此基础上提出了一种新的绝对与相对传播位置建模方法。通过将信息注入可调节的SemEncoder模型,在语义层面上实现了领域不变的结构特征提取。

名词解释:

提示学习和传播结构之间的差异:

语言和域差异: 社交媒体上的不同事件可能涉及不同的语言和领域,因此提示学习需要考虑如何在不同语言和领域之间进行泛化。提示是用来引导模型执行某项任务的文本片段,而社交媒体上的谣言可能以多种语言和形式出现。

传播结构的多样性: 社交媒体上的信息传播往往是复杂的,涉及到用户之间的互动、信息的传递路径等。不同事件可能有不同的传播结构,包括信息的扩散模式、时间线等。传播结构提供了关于事件演变的重要线索,但不同事件的传播结构可能存在显著差异。

对于绝对传播位置

给定来自帖子

的令牌

,我们将事件的主张

视为根,并使用响应路径从当前帖子到根的距离作为绝对传播位置:

,其中tree是传播结构

,使同一帖子中的令牌共享传播树中帖子的传播位置。我们通过将

中相应令牌的嵌入和其绝对位置嵌入相加来更新令牌

该SemEncoder的输入表示方式中采用可调节参数以实现绝对位置嵌入。

名词解释:
通过同一帖子里的各个子串共享其在传播树中的位置信息:
举例说明:
假设有一个帖子包含两条不同的回帖单元(Replies)。
每个回帖单元内都包含一定数量的子串或关键词。
在构建的传播树结构中,默认将第一个回帖单元对应节点A,
第二个回帖单元对应节点B,
依此类推。
如果一个子串来自第一个回帖单元而另一个子串来自第二个回帖单元,
则它们会被认为是共享了同一个来源的信息节点。
优点:
这种设计有助于模型更好地理解同一 thread 内不同 substring 之间的相互作用关系,
从而使得模型能够更准确地捕捉到事件间的上下文关联性。

对于相对传播位置

主要关注传播树中响应性帖子的局部上下文作为其相对传播位置。

对于帖子

,我们将考虑子树中五种关系的相对传播位置:1)Parent

;2)Children

;3)Siblings

;4)Siblings

;5)Itself,其中

/

表明relative_post在子树中的出现位置相对于current_post是前序/后序。随后拓展自注意力机制以便考虑同一子树内各post之间的配对关系,并将relative_post的位置映射至SemEncoder空间。通过这种机制可以有效识别局部子树内的相对传播模式及其相互作用情况

名词解释:

Reply 1

|

|-- Reply 1.1

|

|-- Reply 1.2

交叉检查不准确的信息:如果用户在 Reply 1.1 中提到了一些信息,而 Reply 1.2 中提到的信息与之矛盾,模型可以通过这种方式检测到不一致性。这就是所谓的 "交叉检查不准确的信息",即模型通过比较同一子树中不同回复的观点,来验证信息的准确性。

Response Augmentation

模型可能易受噪声响应的影响,并建议通过生成额外的对抗性示例来提升提示学习效果

介绍了一种新的虚拟响应增强算法,ViRA。

首先生成对抗性样本用于评估模型在遭遇可能导致性能下降的情况时的表现情况;通过该方法发现能够对模型造成最大破坏效果的数据扰动通常仅是对输入数据进行微小改动的结果

考虑到不同数据集及其模型产生的嵌入空间具有不同的数值分布特点,在实际应用中大型模型可能会面临更大的数值波动问题。这种情况下可能会导致对抗性训练过程中的不稳定现象。为此我们需要采取一系列优化措施首先是通过对嵌入空间进行层归一化处理使得各维度上的值呈现出相对均匀的分布特征随后采用特定滤波机制去除与模板及核心观点直接相关的特征分量最终在响应内容中加入人工引入的小幅调整项以确保系统的稳定性和有效性

名词解释:
层归一化: 在深度学习中,归一化是一种将输入数据标准化的方法。具体而言,在层归一化中(Layer Normalization),它通过将嵌入向量的值范围规范化为一个随机分布(random distribution),从而帮助模型更好地处理不同数据分布和架构之间的差异。
蒙版操作: 假设你有一个向量V = [v₁, v₂, ..., vₙ] ,其中每个元素代表某种特征或信息。执行蒙版操作类似于在该向量上叠加一个遮罩Mask = [m₁, m₂, ..., mₙ] ,其中mᵢ ∈ {0,1} 表示是否保留对应元素的信息(1表示保留信息位),从而得到最终的新向量V' = [v₁m₁, v₂m₂, ..., vₙ*mₙ] 。

Model Training

为了减少对具有误导性的谣言相关标签信息过度依仗某种特定语言领域专业术语的风险,在系统设计中引入了一种全新表示方法。该系统采用了基于典型实例的一种全新表示方法。主要基于同类样本中具有代表性的实例特性提取其共性特征来进行事件级别的语义建模。这不仅能够有效避免因过度依赖特定领域术语而导致的信息误判问题,并且还能够提升系统的泛化能力。无需借助与语言相关的标签标记来进行这种信息处理。

最小化原型损失

给定训练样本

标记表示

,如下所示:

公式解释:

其中

的真实标签,

表示归一化余弦相似度得分。

表示类别

的可学习原型向量,它是属于该类别的嵌入支持点的簇代表。

是类别

的可学习原型向量。通过优化上述目标函数

,谣言特征可以在语义空间中接近相应的谣言原型,并远离非谣言原型。

采用对比损失

拉升批处理中实例的类内方差并减小类间方差:

公式解释:

:表示在一个批次(batch)中,属于类别 y_i 的源示例(source examples)的数量。

:表示在批次中的不同示例的索引。

:是一个指示函数,当

不等于

时为1,否则为0。用于确保对比损失仅考虑不同的实例。

:是一个指示函数,当

等于

当两个实例属于同一类别时标记为1,否则标记为0。其作用是确保对比损失仅在同类别的实例之间进行计算。

:表示嵌入表示

之间的归一化余弦相似度。

将原型损失和对比损失结合在一起进行训练

为权衡参数设置为0.5)

然后利用响应增强的方法生产一个伪增强样本,并将其输入到可调节的SemEncoder系统中以评估新的损失

,然后使用平均损失

,反向传播使用AdamW 优化器进行,SynEncoder的层数

被设置为6。学习率初始化为1e-5。为了避免过拟合,应用了早停策略

名词解释:

AdamW优化器: AdamW 是一种用于梯度下降的优化算法,它结合了动量和自适应学习率。在这里,作者使用AdamW来更新模型的参数,以最小化损失函数。

早停策略: 早停是一种防止模型过拟合的策略。在训练过程中,模型在验证集上的性能被监测,如果性能在一定时间内没有提升,训练就会提前停止,以避免在训练数据上过度拟合,而不能泛化到新数据。

Experiments(实验)

数据集

TWITTER, WEIBO, Twitter COVID-19 和 Weibo COVID-19)。创建 CatAr COVID-19(涵盖粤语与阿拉伯语等多语言主张,并无传播迹象)。

实验设置

将模型与几种最先进的零样本谣言检测系统进行了比较:

Vanilla-Ft采用了在预训练语言模型(Devlin等,在2019年)顶层增加一个专门针对任务设计的线性层,并结合[CLS]标记的方法进行微调以实现分类功能

Translate-Ft采用的方法是基于源语言中的谣言数据进行训练,并将其转换为目标语言以进行测试(Du等, 2021)。该方法通过引入特定策略来提升鲁棒性。

Contrast-Ft:我们基于并扩展了现有少样本学习方法(Lin等,2022年),在零样本情况下进行了微调。

Adapter:冻结PLMs的参数,并为各个子任务引入少量可微调参数(Houlsby等, 2019);

Parallel-Adpt:该变体基于该适配器框架(He等،2021年),通过将前缀调整的并行地将其插入到适配器中转移至;

Source-Ppt:一种以提示为指导的优化手段(Lin等, 2021b),利用源语言中的提示对模型进行训练与评估;

Translate-Ppt:基于源语言的提示进行训练,并针对翻译后的目标语言提示进行测试(Zhao和Sch¨utze 2021);

Soft-Ppt:不同于离散标记的做法,在实现过程中采用了可调标记(Lester、Al-Rfou 和 Constant, 2021)作为提示机制;

RPL-*:我们所提出的一种响应感知提示学习框架中包含多样的传播线路,在时间序列上分别采用正向序列(Cho)、反向序列(Inv),以及树状结构中实施深度优先搜索(Dep)与广度优先搜索(Bre)。

将资源充足的TWITTER和WEIBO数据集用作源数据,

将Weibo-COVID19,Twitter-COVID19和CatAr-COVID19数据集用作目标。

使用准确性和宏平均F1,以及类别特定的F1分数作为评估指标。

实验结果

观察到RPL-Inv的性能相对较好,优于RPL-Cho。

推测其原因可能在于后期传播中,高互动性的帖子更容易倾向于判断声明是否为谣言或非谣言

然而RPL-Dep虽然展现出了令人期待的性能水平却未能达到最佳性能目标因为随着声明的传播过程不断推进在较深层次的对话与争论中语义和结构信息逐渐丰富起来的同时也会引入更多的噪声信息

整体上来看,在四个不同的RPL变体中,RPL-Bre展现出稳定且卓越的表现

我们通过在CatAr-COVID19上排除表现最佳的方法RPL-Bre的一些重要组件来进行消融研究;这些组件涉及哪些方面?

without RR, we simplistically coded the statements and did not account for the community response that takes into consideration social background factors.

w/o APP: 我们舍弃了在方程中呈现的Absolute Propagation Position。

w/o RPP: 我们舍弃了Relative Propagation Position (RPP)。

w/o ViRA: 我们忽略了Virtual Response Augmentation (ViRA) 机制。

w/o HPE: 我们设计了一个两层次transformer的核心架构, 该架构未采用我们提出的Hierarchical Prompt Encoding (HPE) 机制. 其中一个子网络负责单独处理所有响应性帖子的内容编码, 另一个子网络则基于来自第一个transformer(即预训练语言模型, PLMs)生成的内容来处理帖子序列. 第二个transformer模块与现有的PLMs模型具有相似的架构设计, 但仅包含两层, 并且其参数并未经过系统性的训练初始化.

Without PV, we developed a manually designed verbalizer to replace the Prototypical Verbalizer (PV) in the model training process.

为确保每个检查点依次扫描测试数据直至达到目标时间延迟或帖文数量

基于统一基准下的公平比较框架下,在所有基线模型中均采用了同一多语言预训练语言模型(PLM)作为编码基础。通过系统地追踪和分析实验数据的变化趋势以及性能指标的表现情况,在启动时刻之后不久就累积了相当不错的宏观F1分数,并且持续表现出比现有方法更好的性能水平。

图4表明SynEncoder不同层数(从1到12)对零样本谣言检测性能存在显著差异,并以CatAr-COVID19为目标,在TWITTER(以橙色表示)和WEIBO(以蓝色表示)作为源数据集进行分析。观察结果表明,在使用前4层PLMs进行初始化时尽管取得了一定效果但主要学习到的是数据表面特性这导致模型在处理特定语言任务时存在偏差问题这是因为较低层PLMs能够更好地捕捉到深层语言特性因此当k值设定为6(即本模型中的设置值)时模型能够达到最佳性能水平然而当k值继续增大尽管增强了模型对共享语义单元与特定语言特性的解耦能力但SemEncoder各层由于依赖先验知识而提供的提示与事件交互能力却在逐步减弱最终导致模型在跨领域谣言检测任务中泛化能力下降性能表现出现波动

Conclusion(总结)

开发了一种以提示为基础的技术方案,在无需依赖特定语言构建的谣言预防系统之上实现智能化应对机制。通过整合具有影响力的传播节点及传播路径特征用于领域适配过程,并在三个具有代表性的实际场景中的实验验证,在零样本检测方面取得了显著成效

全部评论 (0)

还没有任何评论哟~