Advertisement

【图神经网络】图分类学习研究综述[3]:图分类方法评价及未来研究方向

阅读量:

论文阅读: 图分类方法评价及未来研究方向

  • 图分类方法的评价与未来研究方向探讨
      • 第4章 图分类方法的评价

        • 第4章第1节 常用数据集
        • 第4章第2节 不同图分类算法的效果对比分析
        • 第4章第2节第1部分 基于不同评估指标对各算法进行性能比较
      • 第4章第2节第2部分 针对各算法的效果进行详细分析与讨论

      • 5. 图分类应用和未来研究方向

        • 5.1 图分类的应用场景
        • 5.2 未来研究方向
      • 6. 总结与讨论

图分类方法评价及未来研究方向

图分类研究综述

4. 图分类方法评价

本研究首先介绍了图分类领域中常用的主流数据集及其对应的评价指标,并进一步对比分析了若干具有代表性的图分类方法在实际应用中的性能表现。

4.1 常用数据集

目前图分类领域常用的数据显示主要包含用于二分类/多分类的生物蛋白质数据集;化学化合物数据集;社交网络类数据集;以及用于多标签图分类的气味数据集。参见表4

图分类领域常用数据集

化学化合物数据集中,一般情况下,每个图形代表一个独立的化合物.其中,顶点代表原子,连线则标识了原子间的实际结合关系.

在该生物蛋白质数据集中,在该生物蛋白质数据集中

在显著性水平α=0.05的情况下

对于单因素方差分析结果表明

当F检验结果显示P值小于显著性水平α=0.05时

在社交网络数据集中,通常一个图代表不同实体之间的互动关系,节点象征特定实体,边则表明这些实体之间存在互动关系.

气味数据集中,通常情况下每个图都会附带多个标签,并归类于多标签分类问题范畴内。具体而言,在计算机嗅觉领域中存在三种重要的气味数据集:GoodScents、Leffingwell PMP 2001以及FLavornet。每种数据集中都包含了若干化学分子实例:GoodScents包含3786个分子、Leffingwell PMP 2001包含3561个分子、而FLavornet则拥有738个分子实例。这些分子均被嗅觉专家通过一系列气味描述符进行标记(即赋予多个类别标签),以准确描述其气味特征。分类任务的目标则是基于这些标记信息预测每种气味分子所具有的全部类别属性。

4.2 图分类方法效果对比

4.2.1 评价指标

图分类方法的评价指标主要包括分类准确率、精确率、召回率、F1值以及AUC等几个关键指标。
下面分别进行详细说明:
(1)分类准确率(Accuracy)反映了模型在测试集上的整体预测效果。
其计算公式为:
Accuracy = \frac{正确分类样本数}{总样本数}
(2)精确率(Precision)衡量的是模型在预测为正类的所有样本中实际为正类的比例。
计算公式:
Precision = \frac{正确识别为正类样本数}{所有被预测为正类的样本数}
(3)召回率(Recall)表示模型能够识别出所有真实存在的正类样本的能力。
计算公式:
Recall = \frac{正确识别为正类样本数}{所有真实存在的正类样本总数}
(4)F1值是精确率与召回率的调和平均数,
常用于评估类别分布不均衡情况下的模型性能。
计算公式:
F1 = \frac{2 \times Precision \times Recall}{Precision + Recall}
(5)AUC(Area Under the ROC Curve)即ROC曲线下的面积,
其中ROC曲线表示不同阈值下模型的真正例率与假阳性率的变化关系。
AUC不仅衡量了模型的整体表现,
还能够反映其在不同阈值下的区分能力。
具体而言,
AUC等于将随机选取的一个正样本与一个负样本进行比较时,
该模型判定该正样本为真的概率,
其取值范围通常在0.5到1之间,
数值越大表示模型性能越优。

4.2.2 效果评价

表5呈现了若干具有代表性的核计算法在生物化学数据集及社交网络数据集上的实验结果。
或者
表5展示了部分典型的图核算法在生物化学数据库与社交网络样本中的分类效果。
又或者
表5记录了若干具有代表性的核方法在生物化学集合与社交网络集合上的实验分类情况。
再者
表5列举了若干典型图核算法在生物化学数据库与社交网络样本中的分类效果分析。
最后
对于生物化学数据库及社交网络样本两类数据集,
表5列出了若干典型核计算法及其对应的分类效果评价情况。

图核方法的图分类准确率

WL子树核方法在多数数据集上达成了最高水平的分类精度. Graphlet图核方法在社交网络数据集REDDIT-B上表现出最佳的分类性能.

相较于随机游走核方法, 最短路径核特别适用于存在路径回溯现象的场景;而对于规模较大的复杂网络或数据集而言, 通常更适宜采用基于子图和子树构建的方法.需要注意的是, 这两类基于子图及子树构建的方法要求在整体网络中语义信息不应过度扩散, 即这些方法不适用于那些节点间距离较远但具有显著语义关联的情况.

现有基于图神经网络的分类方法在处理结构信息方面的能力仍有待提升。然而,在生物化学领域中,结构信息与若干分子属性类别之间存在密切关联。展望未来,进一步探索图神经网络模型如何有效利用图结构信息将是一个重要的研究方向。

5. 图分类应用和未来研究方向

5.1 图分类的应用场景

(1)化学信息学, 生物信息学

在化学信息学领域, 化合物常被建模为图结构, 这一领域面临的重要问题在于判断化合物是否具有特定性质.基于图分类的方法已经被成功应用于分子诱变性\抗癌活性\毒性等关键任务中.
在药物开发领域, 图分类方法同样发挥着至关重要的作用.通过采用图机器学习的方法, 可以对药物的安全性和有效性等特性进行精准判定.
值得注意的是, 在多标签图分类的研究场景中, 相同的技术也被成功应用于计算机嗅觉领域, 其中一项典型应用是定量研究分子结构与气味之间的关系(QSOR)问题.
此外,在生物信息学研究中, 蛋白质的高级结构常被建模为图形式态.这一方法的主要应用包括对蛋白质功能的判定(如酶否)以及通过蛋白质相互作用网络分析疾病谱等问题.

(2)社交网络分析
研究的主要对象通常是引用网络这一类数据特征, 在这一场景中, 常见的分类任务是基于训练集中自我引用关系图谱的节点属性信息进行识别. 经过模型训练后, 在测试集上的自我引用关系分类能力得到了验证.

在计算机安全领域中,涉及的重要议题包括但不限于:软件剽窃的检测、恶意软件检测以及软件漏洞检测等关键安全议题。在这一场景中,通常会通过一系列转换手段将原始数据转化为适合分析的形式,并将其呈现为控制图的形式。随后,在分析控制图的结构特征时,则能够有效识别出潜在的安全风险。

当前主要采用基于图相似度计算的图像分类技术应用于计算机安全领域。这些方法的基本假设为:当未知控制流图的结构与已知存在漏洞的控制流图相似度程度较高时,则认为该未知程序可能存在漏洞。

自然语言处理的任务中,
图分类方法的主要内容包括对文本进行分析以提取关键特征。
其核心内容是生成一种特殊的网络结构,
这种网络通过节点代表语言学的基本单位(如词语)以及边来记录词语之间在特定窗口范围内的关联情况。
相比于传统的词袋模型,
这种基于图的方法不仅能够捕捉到词语本身的信息,
还能够深入分析词语间的长距离依赖关系。

图分类的方法在NLP领域已获得广泛的应用,在文本分类的重要任务中亦有重要体现。例如而言之

  • Nikolentzos等研究者基于共现网络的构建方法将研究对象模型化为无向无权图结构,并通过最短路径核方法有效计算了研究对象间的相似性度量指标,取得了较为显著的研究成果.
    • Peng等学者基于词共现理论将研究数据建模为词共现图结构,并通过图卷积网络对词嵌入空间进行深度学习处理以提取语义特征信息,并在此基础上实现了文本分类目标.

(5)计算机视觉
一些以图核为基础以及依赖图神经网络的方法在计算机视觉领域得到了广泛应用,应用于图像分类、语义分割以及点云形状分类等多个方面. 为了解决人体动作识别问题,

研究团队开发了两个图模型用于建模人体活动的空间特征和时间顺序;随后开发了上下文相关的核心模块用于评估不同图之间的相似性程度;从而实现对人体活动行为的识别目标。
研究者在点云数据上应用边卷积网络提取几何特性;随后通过全局聚合操作获得整体图谱表示,并应用于形状分类任务中;实验结果表明该方法具有较高的准确率。

5.2 未来研究方向

在图分类任务中对图结构信息的充分运用是提升模型性能的关键因素之一. 其中节点间的一阶连接关系、二阶关系以及其他更高阶的关系构成了复杂网络的重要特征. 在生物数据集这一领域,在当前的研究中发现许多方法未能充分挖掘和利用这些结构特征. 例如,在现有的基于消息传递机制的设计中,虽然节点间的连接关系确实用于指导信息传播过程,但这些机制通常并未直接建模这些复杂的结构特征.

(2)图分类方法的可解释性
(3)图分类模型表达能力的衡量
当前图分类模型主要是基于图神经网络的模型, 一方面, 基于图神经网络模型的表达能力都是用判断图是否同构的能力来衡量的,但是并不能保证在这样的衡量标准下,对图是否同构的区分能力在图分类任务中可以泛化得好. 在图分类问题中,模型表达能力的衡量方法是一个重要的需要考虑的问题.
另一方面,由于基于神经网络的模型依赖于充足数据, 需要通过大量的数据进行训练,而当前图分类领域的常见数据集通常规模较小,不能很好地体现方法的优势,限制了基于图神经网络的模型的表达能力.

(4) 图分类新技术
一方面,在图神经网络的学习过程中需要投入大量与特定任务相关的标注数据;这些标注数据获取的成本较高。另一方面而言,在实际应用场景中则要求具备迁移学习能力的模型能够适应不同的工作环境。

在未来的图表领域中进行预训练任务研究仍具有重要意义。然而,在实际应用环境中存在着大量具有异构特性的图表实例,并非单纯的同质化数据模型能够完全适应这些复杂场景。现有的图表分类研究多集中于同质图表类型,在这种情况下难以满足现实需求。此外,在实际应用场景中对复杂类别的识别能力显得尤为重要。从未来发展来看,在图表领域进行类别的划分研究同样值得深入探讨。

(5)实验可复现性和学术社区的健康发展

6. 总结与讨论

总结了近年来图分类领域的进展, 将现有图分类的方法分为

基于图相似度计算进行的图像分类研究中,在传统图像核方法中将特征表示与核分类过程分开处理会导致难以针对具体任务实现针对性优化,并且其计算复杂度较高。而在图像分配领域中,则同样并非仅限于图像分类任务的应用。

  1. 基于图神经网络的图分类.

全部评论 (0)

还没有任何评论哟~