Advertisement

图数据挖掘之基本概念

阅读量:

图数据挖掘——基本概念

上一年这个时候

在学习数据结构时

在学习过程中

此外

图数据 mining

如上所示的图形是一个无向加权图,在现实中这样的结构是存在的。例如我们国家的交通网络图就是一个典型的例子。无向边表示无论从一个节点出发前往另一个节点还是返回都是可行的。当然还存在有向边的情况。这里就不对图的概念进行详细阐述了,请参阅数据结构教材以获得更深入的知识。

那么上文阐述了图的基本概念。图数据挖掘作为一个广泛的概念,在数据挖掘领域具有重要地位。它涵盖了多种类型的数据分析方法:例如基于网络的网页链接分析(类似于我们使用的百度/谷歌搜索引擎),还有基于图像特征的数据挖掘技术(如常见的图像识别系统),以及基于地理位置的空间数据分析方法(如地理信息系统)。为了简洁起见,请查阅相关文献获取详细信息。那么什么是图数据挖掘呢?在此我仅根据自己的研究工作尝试对其进行定义:这一定义可能不够完善,请各位多多包涵。(本人目前的研究集中在对图结构的关键节点进行精准定位技术的研发)在执行关键词搜索时需要注意区分两种不同的应用场景:一种是传统的文本检索模式(Information Retrieval, IR),另一种是基于关系网络的节点搜索模式(Graph-based Keyword Search)。传统的IR系统注重的是关键词之间的包含关系——即如果一个页面包含用户输入的所有关键词,则该页面会被优先展示;但IR系统并不关心这些关键词之间是否存在特定的关系联系——也就是说,在这种模式下无法直接反映用户输入关键词之间的关联性。(举个例子来说)假如一个搜索引擎允许用户输入"张三"和"李四"两个名字作为关键词搜索信息,在传统文本检索模式下会返回包含这两个名字的所有网页结果;但在基于关系网络的节点搜索模式下,则会返回那些同时包含这两个名字并且具有特定关联性的结果——通常表现为树形层级展示形式。(具体而言)比如当输入"张三"和"李四"这两个名字时系统会发现他们之间可能存在以下几种关联:"张三是李四的同学""张三是李四的哥哥""张三与李四是老乡等等。(这里的关键在于如何量化并表征这些实体之间的具体关系)在传统的文本检索模型中是无法实现上述功能的——因为该模型仅关注于信息的存在与否而不考虑其内在联系

那么如何在图数据挖掘中确定这种关系的存在呢?例如,在上文中:假设我们想查找关键词张三和李四。这些节点分别包含了‘张三’和‘李四’这样的关键词,在传统的信息检索系统中会返回同时包含这两个关键词的所有节点(注意:这些节点实际上是一个信息点的不同表现形式)。然而,在图数据库中情况不同。从节点V1到节点V2存在多条路径(如:通过中间结点的不同组合)。那么这些路径可能暗示着某种关联关系吗?事实上它们确实如此——具体来说就是通过共享一个共同祖先来建立联系。也就是说当我们想要找出两个特定术语之间的关联时 我们实际上是在寻找它们所共有的最高级祖先术语。但是由于同一个术语可能有多个共同祖先 仅仅找到其中一个还不够 为此需要运用一些图遍历算法(如Dijkstra算法)来计算最短路径或者权重较高的连接方式 这样就能更准确地反映两者之间的关联程度

我认为,在分析图数据时提取所需信息是一个重要课题(仅供参考)。具体而言,在这种场景下需要从图中提取所需信息;其中一种典型方法是探索节点间的关系网络;此外,在这一过程中所采用的关键词搜索仅是众多技术手段之一;其主要作用是对数据集合执行系统化扫描;而最终结果采用树形展示方式,并将其直观呈现给用户。

这篇主要是关于图数据挖掘的概念入门介绍。下篇文章中我会着重讲解如何将实际生活中的信息组织成图表形式,并探讨如何在这些图表中进行有效的信息检索。后续计划分享关于图数据库的关键查询方法以及目前广泛使用的几种主流图数据库系统中包含了与我开发的一个类似项目。最后欢迎大家持续关注我的博客,在交流中不断完善我的思考过程。如有任何地方表述不清的地方欢迎随时提出宝贵意见,在此表示衷心感谢!作为一个刚入门的新手学习者,在实践操作的过程中积累了诸多感悟与心得经验,并希望通过分享能让大家有所启发并共同成长进步!

谢谢浏览!

全部评论 (0)

还没有任何评论哟~