Deeper Insights into Graph Convolutional Networks for Semi-Supervised Learning
题目与摘要
本文针对什么任务?任务简要介绍下。
针对于节点分类任务
本文发现了什么问题?该文大体是怎么解决的?解决得如何?
传统的GCN结构不宜拥有过高的层数数目,在这种情况下会导致过度平滑现象的产生,并且由于卷积操作的局部特性限制,在实际应用中当标签样本数量较为有限时无法将标记信息有效传播至整个网络结构中。
解释下题目。题目起得如何?能概括内容并吸引人吗?
简单明了
介绍
这个任务以往是如何解决的?作者沿着哪条路径继续研究的?为什么?
作者在论文中指出此前未被有效解决的问题,并为此采用random walk方法突破了传统的局部性限制。
目前工作存在什么问题?为什么?你觉得可能还存在什么其他问题?为什么?
GCN的深度存在限制,在Laplacian smoothing的作用下难以区分节点与其邻居的特征。较深层结构反而不利于分类任务的完成,在某些情况下所有节点的行为变得相似。
2、GCN的局部性,当标签过少时,标签传播不到整张图,会降低性能
我:1、Graph中的边是恒定不变的;一旦初始阶段确定边时存在误差,则缺乏修正的可能性(已有解决方案)。
2、GCN容易被平滑与CNN比怀疑因为GCN的复杂度比较高,同时CNN的参数少。
3对于距离较远的点如何建立二者之间的联系
感觉很多都在动态图的范围之内了
该文章打算以何种方式来解决这个问题?这种解决方案有何合理性?你认为该文章采用的方法有何有效性?能否采用其他方法来解决问题呢?I can also consider alternative approaches.
本文使用随机游走与GCN协同训练,并同时采用自监督学习及对比学习的方式。此外,在无需验证集的情况下,
只要训练集中数据点达到特定阈值就能认为整个图被充分覆盖。
因为GCN主要受限于局部卷积,所以使用randim walk弥补这一短板
由于标注数据较少,在全图范围内进行信息传播存在局限性。因此,在训练集上应用self-training co-trainning策略以补充缺失的数据。通过增加样本数量来提升信息传播的效果,在达到一定规模后,默认认为整个图已经被完全覆盖了。
我认为创建边是一项必要的技能。然而,在当前系统中未对边进行任何调整这一现象长期存在 bugs(Bug)。尽管我们意识到这一点,并希望对其进行改进;但具体实施起来仍然存在诸多挑战:如何建立并管理这些连接仍是一个难题;同时,在确定每条连接的价值度量方面也面临诸多困难。
列出该文贡献(该文自己觉得的)
分析了GCN的局限性
提出了半监督学习来解决
模型
整体介绍(主要是图)
1、证明GCN卷积到最后所有的点的值都相同(看不太懂~~~~找时间继续看T_T)

self-training 将GCN的测试结果比较高的继续放入训练集
co-training 把GCN 和random walk的测试结果高的加入到对方的训练集
Union:该联合体将包含通过随机游走测试在GCN中表现出最高置信度的一组节点,并将其整合到该模型的训练数据集中
Intersection: 将其与随机游走测试数据集中具有最高置信度的节点的交集成成员纳入GCN的训练数据源
评估标签传播至全图的方法

模型创新点
使用了random walk弥补了GCN的局部性,同时提出了4种半监督的方法
以及一种评估标签传播至全图的方法
(仅针对进一步关注的论文)对模型进行深入阐述,在涵盖输入与输出过程的基础上, 详细说明输入数据矩阵的维度以及具体公式和其它相关信息.
实验
数据集及评价标准介绍
CiteSeer:
该研究将知识表示划分为六大类,包括Agents、AI领域(人工智能领域)、DB(数据库)、IR(信息检索)、ML(机器语言)以及HCI,共计收录了3312篇论文文献。去除了停用词以及在文献中出现频率低于10次的词汇,提取出3703个独特的关键词项。.content文件用于记录论文的基本信息格式为:每条记录包含<论文ID>、<单词属性>以及<分类标签>;.cites文件则用于描述论文之间的引用关系,具体格式为:<被引 citing paper的ID>,<引文 cited paper的ID>。例如,一条记录显示"paper1 paper2",其引用关系应理解为paper2引用paper1,即:paper2->paper1。(网上摘抄)
但是,Citeseer数据集在分类粒度上较为粗略
Cora:
分为6大类及36个小类的主要文件目录如下:
(1)papers:采用
(2)citations:总计约715000条引文数据,
采用<referring_id> <cited_id>的方式描述文献间的引用关系。
(3)citations.withauthors:详细记录了论文与其引用文献之间的作者相关信息,
格式为:<this_paper_id>
(4)classifications:虽然分类标签不够精确,
但其描述格式统一为:
例如:
http:##www.ri.cmu.edu#afs#cs#user#alex#docs#idvl#dl97.ps /Information_Retrieval/Retrieval/。(网上摘抄)
PubMed:
关于医学

结果分析
GCN+V:GCN并使用验证集
GCN-V:GCN没有验证集
Cheby :GCN使用切比雪夫多相似的filter(kipf2017)
LP:random walk
Planetoid:Graph embedding
DeepWalk:擅长稀疏的网络
Manireg:半监督算法,应该没有归纳
semi-supervised embedding
iterative classification algorithm (ICA):



基于不同规模的测试集,在以往的研究中发现各模型严重依赖已标注数据。与半监督学习相比,在标注数据量较少时,该方法能够获得较好的效果。相较于其他方法
数据集很大时候表现得比较相似

对比其他模型,图比较适用于处理网络结构的数据,明显优于其他模型
运行时间比较快
你觉得这篇paper创新与贡献是(不一定如作者所说)?为什么?
揭示了GCN在拉普拉斯平滑应用中的局限性,并深入分析并提出了一种改进方案;然而我认为本文仅探讨了一种基于Graph的数据遍历方法,并未能从根本上解决该问题。
有没有进一步深入的价值?为什么?
可以借鉴其思路,但是深挖不是很好挖
指出该文存在的不足之处(或是你认为应解决的问题),其解决效果不佳,则你又会如何改进?
此篇文章在一定程度上缓解了GCN对大量数据的依赖,在较为基础的层面来说,并非两者的简单集成就能完全解决问题。并非仅仅依靠两者的集成就能完美地互补各自不足。
动态图并非固定不变。静态图的概念需要不断更新维护。这已成为许多领域中的常见做法。已有诸多相关研究。
每一次卷积后动态调整边的权重,但是因为参数过多,容易引起过拟合
该文对你的启发是?
半监督模型也是一种集成模型的好方法。
