Advertisement

【文献阅读】Adaptive Mixture of Domain-aware Experts for Detecting Social Bots

阅读量:

Abstract

域意识社交机器人检测方法(DSBD)—— 首先采用提示式的方法进行零样本学习技术的应用,以确定任何用户的准确领域分布。然后利用基于领域的融合机制对不同领域的专家表示进行整合,并将融合后的特征用于分类过程。

Introduction

早期研究主要集中在特定领域进行机器人检测,并且相关数据集往往局限于这些领域的应用范围。具体而言,在政治领域中,这类机器人主要关注于支持或反对政治候选人;在金融领域中,则会利用金融标签发布相关推文;而在商业领域中,则专注于生成与产品推广相关的大量内容。此外,在社交层面的应用中发现不同领域的社交机器人都具有其独特的表现特征

为了增强机器人检测在不同领域的泛化能力, 研究人员最近开发了一个涵盖多个领域的综合数据集并设计了一个多领域机器人检测 (MBD, Multi-domain Bot Detection) 模型。基于该广泛使用的数据集, 该模型从政治、体育、娱乐和商业等四个主要领域中筛选出具有代表性的初始用户, 并对这些用户的资料、文本和图信息进行了系统整理。一种有效的策略是采用混合专家架构 (MoE, Mixture-of-Experts) 来实现多领域分类任务, 即通过各领域的专门分类器进行判断并由投票机制得出最终结论。

然而,在单独的领域中难以将其归入单一类别。换而言之,在多个领域中活跃并表现出多种领域的综合特性

一个实际问题是,在对社交机器人进行多领域标注时会消耗大量资源并且费时。因此,在现有数据集基础上我们研究一个问题:是否能够识别出具备多个兴趣的社交机器人,并使每个机器人都被唯一地标记?

  1. 建立一个复杂关联图,并通过关系图转换模块学习每个领域的用户嵌入。
  2. 通过基于提示的分类器提取软领域标签信息,并融合多领域表征信息以获得用户的领域感知表示。
  3. 采用深度神经网络模型(如MLP)对账户进行身份分类任务训练和优化。

研究表明依据领域分布规律设计出的自适应融合策略能够超越投票机制下的专家集合方法。
在零样本场景下展现出良好的性能,在这种情况下模型是通过在一个领域的数据进行训练然后推广至其他领域的数据来实现的。
这表明该方法具备较强的泛化能力,并且能够方便地推广至新的应用场景。

Contribution:

一种用于建模高级推特机器人多兴趣特征的混合效果(MoE)框架被成功开发出来,并且其中每个专家都致力于从各自领域中提取独特的表征。
为了实现有效的多领域特征融合过程, 本研究通过综合考虑多个领域的特征信息, 使用带有提示指导的学习机制, 对用户的软标签进行分类, 并最终生成具有领域的感知能力的用户嵌入表示。
基于TwiBot-20这一广泛认可的数据集进行实验分析显示, DSBD方法无论是在通用性还是特殊性指标上都显著优于所有现有对比方法, 同时通过域感知专家模块实现的目标自适应融合机制能够在不同实验条件下展现出良好的性能水平, 特别是在完全无样本的情况下表现出最佳效果。

Methodology

在这里插入图片描述

A. Graph Construction

Text information = profile description + tweets

在这里插入图片描述

------------------------------------------------------------------------------

在这里插入图片描述

Metadata information = value-type data V + boolean-type data B

在这里插入图片描述

------------------------------------------------------------------------------

在这里插入图片描述

B. Domain Experts with Relational Graph Transformer

本文旨在通过不同领域中的专家来获取用户的多样化表达方式。为实现各领域目标设定明确的方向性指导原则,在每个研究方向上精心挑选具有丰富经验的专业人才作为核心成员组成专业团队,并结合先进的数据分析方法对各领域的数据特征进行深入挖掘与分析工作流程逐步优化以确保系统运行效率最大化借助多轮次的专业化探讨机制充分挖掘各领域的潜在价值从而实现跨学科协作下的高质量成果产出

在这一领域中采用RGT(relational graph transformer model)来充当领域专家(基于自注意力机制的设计)。

计算不同节点之间的注意力权重,并在聚合后获得节点表示:

在这里插入图片描述
在这里插入图片描述

------------------------------------------------------------------------------

在这里插入图片描述

C. Multiple Domain Aggregation Module

在主流数据集通常采用基于种子用户的简单划分方法构建领域标签。这种基于种子用户的粗略划分无法准确捕捉用户的兴趣所在。相比之下,在推文发布基础上确定的领域划分则更为精准

本文旨在获取有效的领域标签。通过预训练的bart-large-mnli模型对构建了"这段文字是关于..."提示信息的内容进行编码处理,并生成相应的概率值以表示各领域的可能性大小。用于确定分类基准的主要来源表明主流数据集涉及四个主要类别:政治、商业、娱乐和体育。从而保证分析结果能够覆盖这些核心议题类型。另外,在考虑多领域的共存情况时,在每个领域的背景下分析后,在各个领域的具体情境中分别赋予相应的软性类别作为其代表性指标。

在这里插入图片描述

------------------------------------------------------------------------------
整体的领域信息

在这里插入图片描述

考虑到多领域社交机器人,本文希望自适应地选择专家

在这里插入图片描述

D. Learning and Optimization

在这里插入图片描述

------------------------------------------------------------------------------

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~