Advertisement

论文学习笔记6:Relation-Aware Heterogeneous Graph Neural Network for Fraud Detection

阅读量:

文章目录

  • 摘录
  • 第一部分 引言
  • 第二部分 预备知识
    • 第二部分 第一节 问题定义
    • 第二部分 第二节 相关研究

三、所提方法
* 3.1 模型架构
* 提出了一个创新性的模型架构设计
* 3.2 计算图预处理
* 构建了一个预处理计算图以优化计算效率
* 3.3 异构传播机制
* 设计了一种异构传播机制用于捕捉信息间的关联性


Abstract

欺诈检测任务既是金融领域又是社交媒体领域的核心数据挖掘问题之一。传统机器学习模型主要依据单一节点属性进行风险评估;而当前基于图论的方法取得了显著进展,在分析相互关联的数据时展现出更高的准确性;特别值得注意的是,在图结构数据上的欺诈检测应用中,图神经网络(GNN)表现出色

然而由于社交网络的复杂性与异构性本文提出了一种基于关系感知异构图神经网络RHGNN模型进行欺诈行为检测方案的研究该模型能够有效地处理以异构图形式表示的数据

我们开发了一种基于计算图预处理与混合传播机制的模型。该模型旨在整合了特征与拓扑信息,并通过这一设计不仅实现了精准的欺诈检测,并且具备良好的扩展性。

具体来说,我们首先使用关系感知节点映射还原法对计算图进行预处理。

随后,在降低了计算复杂度的同时提升了邻域节点信息的收集效率,并成功保留了图数据中的欺诈行为特征的基础上

我们应用随机投影还原技术有效地管理特征维度,在处理大规模图形数据时能够保证模型保持高效的运行状态

实验结果显示,在包括亚马逊、Yelpchi以及T-Finance等在内的多个数据集上进行评估后发现,在欺诈检测任务中的准确率表现优于现有方法。

一、Introduction

欺诈行为检测技术可用于金融领域和社会媒体平台中以减少经济损失风险。例如,在信用卡欺诈方面已知的研究表明其为金融业的重要挑战之一 [4,7]。随着数字交易规模的持续扩展以及网络环境的安全威胁不断加剧 [32] ,传统的欺诈手段也在不断进化 [24] 。为了应对日益复杂的威胁环境 [32] ,构建高效可靠的欺诈检测系统至关重要 [24] 。因此,在数据挖掘领域中实现有效的欺诈检测已成为一项关键的技术任务。

该系统的欺诈检测能力可依据特定方法进行分类。传统的系统多采用基于规则的方法,并对典型的欺诈行为进行了硬编码处理,并引用了文献[33]。随着欺诈策略的发展趋势及机器学习技术的进步,在现有的框架下逐渐纳入了机器学习技术的应用,并能根据积累的历史数据实现自动化的欺诈检测功能[1]. 最近的研究表明,在复杂欺诈模式识别方面取得了显著的进步[6]. 这些系统通过对海量数据进行全面分析来识别隐藏模式及异常现象.

图神经网络(GNN)的应用开创了欺诈检测领域的新的分析框架,在提升准确率的同时开创性地关注数据间的复杂关联性[34]。这种方法带来了对数据关系深度挖掘的关注,并突出了个体节点与相互作用的重要性。

传统的基于规则的欺诈检测系统通过预设明确的标准来识别异常行为,在达到这些标准时会发出警报信号。这类系统建立于既有的欺诈模式认知和专家知识储备上,在实际应用中具有直接操作性但缺乏灵活性,并且无法根据新的策略自动调整以适应变化的情况[20]。

基于机器学习的方法提供了一种动态机制,在分析历史数据的基础上逐渐优化并提升检测性能[2]。这些技术已被广泛应用于实际场景中以识别存在于规则集中的复杂异常欺诈行为 [6,7]。这种适应性使其能够在复杂的欺诈环境中灵活应对并持续优化其检测能力。

在欺诈检测领域取得的最新进展主要体现在将基于图的方法进行整合应用。通过分析节点之间的相互作用来更有效地识别欺诈行为。这些新型方法在识别异常活动时不仅关注每个节点的独特属性还特别关注其在网络中的位置和关联情况从而能够识别出传统手段难以察觉的一些隐藏模式和潜在风险

特别指出 GNN 利用真实世界网络中的连接数据展现出显著效能[5,15]。
此外,GNN 通过将深度学习原理应用于图形数据促进信息在节点间传播从而识别出潜在的欺诈性链接模式[19,35]。
基于此关系模型我们可以更有效地发现组织化欺诈团伙之间的相互关联性

通过突破性研究结合先进的节点嵌入技术,人们进一步提升了相关算法的效果。这一系列进展显著地加深了对图中各节点间复杂关联的理解。

现有的基于图的欺诈检测方法虽然很成功但也存在局限性 虽然许多现有方法在效率上并不理想 尤其是在面对规模庞大的金融数据集时表现不佳 大多数情况下 处理大规模图数据会面临高昂的时间成本 特别是经过多次迭代运算后 计算负担会显著加重 在现实世界中 大多数实际场景下的图都是异构的 各种类型的节点与边分别代表不同的实体

如图所示,在该任务中存在三种类型的节点。大多数 GNN 模型假设图结构具有同质性,在现实世界中的复杂网络中显得过于简化。这种假设导致关键信息的丢失,并进而降低了欺诈检测的效果。

在这里插入图片描述

针对现有的局限性,在本文中提出了一种新颖的关系感知异构图神经网络(RHGNN)模型旨在解决现有基于图的欺诈检测方法存在的问题。

我们的模型通过识别并处理不同类型的节点与边的关系,并将其被视为各自独特但相互联系的部分来应对现实世界图中存在的异质性问题。该方法通过运用预设的计算图优化技术和混合传播机制,在提升整个系统的信息处理效率的同时降低了计算负担,并增强了系统的扩展性能力。利用随机投影降维技术构建的数据集成方案能够有效管理特征维度,并且即便应用于大规模数据集也能维持高效性能

解决异质性与提升计算效率的双重关注点使我们的方法脱颖而出,它带来了在庞大现实世界网络中有效识别欺诈行为更具力量与扩展性的解决方案。最后,通过在亚马逊、Yelpchi和T-Finance等基准数据集上的多维度测试,我们发现,相较于基于图的技术,我们的方法在准确性和效率这两个关键指标上均表现更为卓越。

本文的主要成果涵盖了多个领域。具体而言:

我们提出了关系感知异构图神经网络模型。该模型通过整合计算图预处理和混合传播方案来提高特征传播效率,并通过智能计算机制实现随机投影缩减从而有效降低特征维度。

III)我们通过在亚马逊、Yelpchi 和 T-Finance 等多个典型基准数据集上进行严格的数据实验,在与现有的基于深度学习的欺诈检测算法相比中,在欺诈检测准确率方面具有显著优势。

在这里插入图片描述

二、Preliminaries

在这一部分里, 我们将详细说明本文所涉及的所有符号与术语. 重点在于对异构图环境中的欺诈行为识别问题进行深入探讨. 此外, 在这一部分里我们还将回顾相关的研究进展.

2.1Problem Definition

传统基于图的技术视输入数据为同质结构,并用于识别潜在的欺诈行为。与现有方法不同的是,我们的模型通过现实世界中的交易记录或数据库自动生成异构图结构。

在这些异构图中,每个节点代表单一实体(如用户、交易或商户),而边则记录了各实体之间的关联。通过邻接矩阵 ARi 来编码每种类型的边 Ri,在此基础下我们正式定义了异构图与元路径框架下的欺诈检测问题。表 1 综合列出了相关术语。

异质图被称为 G = (V, E, A, R),其中 V 表示节点集合,
E 表示边集合,
A 代表不同类型的节点集合,
R 代表不同类型的边集合。
每个节点 v 属于其对应的类别 A,
每条边 e 关联到相应的类别 R。
例如,在金融领域中常见的异构图包含三类典型节点:信用卡、商户以及交易记录。

元路径:元路径 P 是节点类别与边属性的序列,其形式为 A₁-R₁→A₂-R₂→…—→A_l,其中A_i∈A,R_i∈R.例如,在金融异构图中,元路径可包括卡片-R₁→交易-R₂→商户.

基于图论中的欺诈检测方法:我们定义了一个用于表示现实世界中实体间复杂关系的异构图 G(V, E),其中 V 表示不同类型的节点(如用户、商家以及交易记录),E 则记录了这些节点之间发生的各种互动与关联情况。我们的研究目标在于通过分析这些节点的行为模式来判断哪些 transaction 属于异常行为(即欺诈行为)。这一问题可被视为一种监督学习任务,在这种任务中每个样本会被划分为两个类别之一:欺诈或非欺诈。为此我们需要构建一套完整的系统架构,在此架构下能够实现从数据采集到最终决策的一站式解决方案。在这个过程中我们重点关注的是如何利用图结构中的异构性特征以及元路径所捕获的关系网络来提高欺诈检测模型的效果与效率

2.2Related Works

Non-graph Based Fraud Detection. 学者们广泛采用各种机器学习和统计技术对非图欺诈检测进行了深入研究。主要采用监督学习方法等。这些方法依赖于从输入数据中人工提取特征。

近年来,在欺诈检测领域中应用越来越广泛的是深度学习技术。它能够从原始欺诈检测数据中自动提取出复杂的特征表示,并以此为基础提升欺诈检测系统的准确性[6]。然而,在现有的深度学习方法中存在一定的局限性:它们往往只能聚焦于单一实体的学习任务,并未充分挖掘实体间(如用户与交易)的关系网络。为此,在这项研究工作中我们创新性地引入了先进的异构图神经网络(HGNN),成功地从跨用户的关联性角度构建了更为完整的欺诈活动分析框架。

基于图论的方法用于欺诈检测研究。
这些基于图论的方法能够识别实体间的关系,在欺诈检测领域具有较高的知名度。
这些方法将输入数据建模为图形结构。
其中节点对应于实体(如用户、交易),边对应于它们之间的关联(如交易链接)。

图卷积网络(GCN)与图注意力网络(GAT)等技术已被成功应用于欺诈检测领域,并在实验结果中取得了显著的性能提升[29]。

旨在优化图数据中欺诈检测任务中的邻居选择策略的是CARE-GNN [5]。开发为解决欺诈检测中节点标签不平衡这一挑战的是一种新型方法是PCGNN [15]. BW-GNN [25] 是专门针对图异常检测中'右移'现象而设计的一种解决方案.GTAN [34] 是一种专为半监督学习环境下的图数据欺诈检测而开发的方法.

然而这些方法通常假设图结构具有同质性可能未能充分利用现实世界金融交易网络中内在的异质性我们的工作通过克服了这一局限性采用了可扩展的异构图神经网络HGNN它能够有效地处理金融图中存在的各种类型的节点和边

借助这些图的不同属性(即它们的异质性),我们的模型能够识别出不同类型实体之间的复杂关系和真实互动模式。值得注意的是,在不明显提高计算开销的前提下提升这种建模能力。从而使得该方法在大规模信用卡欺诈检测中既具有实用性又表现出高效率。

三、Proposed Method

本节旨在详细阐述我们提出的关系感知异构图神经网络(RHGNN)模型及其在欺诈检测中的应用方案。本节涵盖以下几大模块:首先是系统的整体架构设计;其次是数据处理流程中的关键步骤——计算图预处理;然后是信息融合机制中的异构传播环节;最后涵盖完整的监督学习流程——欺诈检测及优化评估。

3.1Model Architecture

不同于其他基于图的欺诈检测技术,在欺诈检测任务中我们将真实世界的观测数据视作异构图.例如图2所示:

在这里插入图片描述

该模型基于关系感知的异构图神经网络架构设计了一个整体框架。(1)在预计算阶段中:为充分利用混合传播效率的目的,在RHGNN的主要架构中采用交替传播迭代的方式。其中本研究引入了随机投影缩减组件(Stochastic Projection Reduction)来处理更新顶点表示时所涉及的降维问题。为了减少信息丢失并提高准确性,在特定关系信息粒度的基础上引入了一种混合传播方案;即交替关注1跳和2跳邻居、分别收集基于不同关系上下文的信息。

(2)训练阶段:在经历了 K 次迭代之后,在处理(目标顶点相关)邻接节点信息时,在系统中实现了异构图编码器的有效输入,并通过计算出目标顶点的向量表示来提升模型在准确识别和高效处理欺诈行为方面的性能。

基于信用卡欺诈检测应用的语境下,在其中交易节点被定义为‘目标’类型;而卡号与商户相关的节点则被视为其他类型。得益于研究者提出的随机投影异构图神经网络模型(RpHGNN)[9]的成功实施,在构建该系统的过程中我们充分运用了异构图神经网络(HGNN)的核心优势特性;通过深入挖掘异构图神经网络(HGNN)的能力特征进而有效捕捉欺诈检测输入数据中所蕴含的复杂多样的交互作用模式

该架构整合了高效的关系感知预处理机制与异构图神经网络,并具备高精度且具备良好扩展性的欺诈检测能力。本模型的关键组成模块主要包含

基于关系感知的节点映射这部分主要介绍了一种传播机制,在分析不同类型的本地边(即本地边类型)时能够有效地提取异常行为线索。对于每一个特定类别的节点,在其属性基础上进行深入分析后能够生成全面的特征描述,并通过消息传递机制收集和汇总邻居信息以辅助其形成完整的认知模型

在这里插入图片描述

为了管理高维空间中邻居的聚合信息 该方法采用了基于概率的降维策略。该策略不仅能够有效降低特征空间的维度 而且能够同时保留关键的信息特征 这对于提升计算效率和模型性能具有重要意义。

在这里插入图片描述

该类型的关联节点内核 在同一种类的关系中,该操作通过预定义的滤镜提取特征。 该方法整合了同一种类关系中直接相连节点的关键特性,并结合具体语境中的关键信息来提升表征质量。

该类型的关联节点内核 在同一种类的关系中 该操作通过预定义的滤镜提取特征 它整合了同一种类关系中直接相连节点的关键特性 并结合具体语境中的关键信息来提升表征质量

在这里插入图片描述
在这里插入图片描述

该过程涉及异质节点间的信息传播,在此关键步骤中通过元路径实现各类型节点及它们之间关系的信息传递与融合整合。随后该关键步骤通过元路径指导数据聚合,并整合图中所有复杂交互关系形成完整的网络拓扑结构。在此过程中通过全面的聚合机制该模型能够有效捕捉并充分利用真实世界数据结构中的细微动态变化

在这里插入图片描述
在这里插入图片描述

3.2Computation Graph Pre-process

在训练模型之前完成了计算图的预处理工作,并通过改进异构图神经网络操作来提高欺诈检测任务中的效率和效果

Relation-Aware Node Mapping.

在这里插入图片描述

Stochastic Node Reduction.

在这里插入图片描述

随机节点降维技术的主要特点是通过采用随机投影矩阵的方式,在各层中维持节点表示的空间维度保持稳定。该方法在保证原始数据特征完整性的同时显著提升了运算效率,在大规模异构图数据处理方面展现出独特优势

3.3Heterogeneous Propagation

在这里插入图片描述

Hybrid Propagation Scheme

在这里插入图片描述

Intra-Type Relation Node Convolution
确认传播方案后,在这一步骤中,在同一类别中的关系内部进行卷积操作。当确定一种传播策略时,在这种情况下定义为:针对指定的关系类型R(属于R),我们将其内部卷积运算表述为:

在这里插入图片描述

该异构节点信息传播机制通过不同节点类型及其关联关系的信息传播机制,在多种网络拓扑结构间实现高效同步与交互作用,在金融网络分析中得以应用并取得良好效果

在这里插入图片描述

其中,在信息构建过程中不仅基于多种关系与节点进行聚合,并按照所定义的关系序列构建元路径作为指导依据

全部评论 (0)

还没有任何评论哟~