spark graphx的Triangle三角形计数算法使用示例

阅读量：

GraphX中的TriangleCount算法用于计算图中三角形的数量，三角形是完全图中任意两点之间有边相连的结构。该算法通过Spark的图计算组件实现，能够高效处理大规模图数据。文本中详细介绍了三角形计数的原理、实现方法以及如何统计每个顶点的三角形数量，并展示了如何通过Gremlin语言加载数据、运行算法并输出结果。结果表明，顶点TinkerPop拥有最多的5个三角形，其他顶点如Titan、HugeGraph、Gremlin等也分别具有3个或2个三角形。

Graphx是Spark的图计算组件，支持丰富的图操作接口和基本算法（如graphx库中所包含）。本文将阐述TriangleCount算法的原理。

1. 相关知识

三角形：在全连接图（即每一对节点之间都存在一条边）中，网络中三角形的数量能够有效反映网络的稠密程度及其质量特征。

三角形计算：如果一条边的两个顶点拥有共同邻居，那么共同邻居与这两个顶点将形成三角形结构；或者，当一个顶点有两个相邻顶点且它们之间存在一条边时，该顶点即为三角形的一部分。

该算法实现了TriangleCount功能，具体细节可在<>中进行分析。需要注意以下事项：

TriangleCount要求边缘是规范方向的，即所有边都要满足(' srcId < dstId ')

使用Graph.partitionBy进行分区的图形

如图所示，JavaMe与Zhone两人共同创建了HugeGraph系统，三个顶点形成了一个三角形结构。其中，图中三角形数量最多的5个顶点及其数量如下：

(TinkerPop,5)

(Titan,3)

(HugeGraph,3)

(Gremlin,3)

(okram,2)

2. 统计顶点的三角形数

如何统计顶点的三角形数量，并取数量最多的N条

该代码块基于Gremlin语言，为每个顶点统计其参与的三角形数量，并筛选出参与三角形数量最多的前5个顶点。

图的数据结构定义及相关内容，建议您参考：HugeGraph图数据库系统架构解析或基于Gremlin语言的图数据库构建与应用。这些资源将帮助您深入理解图数据库的构建与应用方法。

2.1. 源代码

复制代码

 package org.apache.spark.graphx.test

    
  
    
 import org.apache.spark.SparkContext
    
 import org.apache.spark.graphx.impl.{EdgePartitionBuilder, GraphImpl}
    
 import org.apache.spark.graphx.{Graph, PartitionStrategy}
    
 import org.apache.spark.internal.Logging
    
 import org.apache.spark.storage.StorageLevel
    
 import org.apache.spark.sql.SparkSession
    
  
    
 object TriangleCountingExample extends Logging {
    
   def main(args: Array[String]): Unit = {
    
     val spark = SparkSession
    
       .builder
    
       .master("local[4]")
    
       .appName(s"${this.getClass.getSimpleName}")
    
       .getOrCreate()
    
     val sc = spark.sparkContext
    
     
    
     val graph = edgeListFile(sc, "data/graphx/edges.txt", true, srcIndex = 0, destIndex = 1,numEdgePartitions = 4)
    
       .partitionBy(PartitionStrategy.EdgePartition2D)
    
     
    
     val triCounts = graph.triangleCount().vertices
    
     // Join the triangle counts with the usernames
    
     val users = sc.textFile("data/graphx/vertexs.txt").map { line =>
    
       if (!line.isEmpty) {
    
     val fields = line.split("\ |")
    
     (fields(0).toLong, fields(1))
    
       } else {
    
     (0L, "")
    
       }
    
     }
    
     val triCountByUsername = users.join(triCounts).map { case (_, (username, tc)) =>
    
       (username, tc)
    
     }.sortBy(_._2,false,1).take(5)
    
     println(triCountByUsername.mkString("\n"))
    
     spark.stop()
    
   }
    
  
    
   def edgeListFile(
    
                 sc: SparkContext,
    
                 path: String,
    
                 canonicalOrientation: Boolean = false,
    
                 srcIndex: Int = 0,
    
                 destIndex: Int = 1,
    
                 numEdgePartitions: Int = -1,
    
                 edgeStorageLevel: StorageLevel = StorageLevel.MEMORY_ONLY,
    
                 vertexStorageLevel: StorageLevel = StorageLevel.MEMORY_ONLY)
    
   : Graph[Int, Int] = {
    
     val startTime = System.currentTimeMillis
    
     val maxIndex = (if (srcIndex > destIndex) srcIndex else destIndex) + 1
    
  
    
     // Parse the edge data table directly into edge partitions
    
     val lines =
    
       if (numEdgePartitions > 0) {
    
     sc.textFile(path, numEdgePartitions).coalesce(numEdgePartitions)
    
       } else {
    
     sc.textFile(path)
    
       }
    
     val edges = lines.mapPartitionsWithIndex { (pid, iter) =>
    
       val builder = new EdgePartitionBuilder[Int, Int]
    
       iter.foreach { line =>
    
     if (!line.isEmpty && line(0) != '#') {
    
       val lineArray = line.split(",")
    
       if (lineArray.length < maxIndex) {
    
         throw new IllegalArgumentException("Invalid line: " + line)
    
       }
    
       val srcId = lineArray(srcIndex).toLong
    
       val dstId = lineArray(destIndex).toLong
    
       if (canonicalOrientation && srcId > dstId) {
    
         builder.add(dstId, srcId, 1)
    
       } else {
    
         builder.add(srcId, dstId, 1)
    
       }
    
     }
    
       }
    
       Iterator((pid, builder.toEdgePartition))
    
     }.persist(edgeStorageLevel).setName("GraphLoader.edgeListFile - edges (%s)".format(path))
    
     edges.count()
    
  
    
     logInfo("It took %d ms to load the edges".format(System.currentTimeMillis - startTime))
    
  
    
     GraphImpl.fromEdgePartitions(edges, defaultVertexAttr = 1, edgeStorageLevel = edgeStorageLevel,
    
       vertexStorageLevel = vertexStorageLevel)
    
   }
    
 }

2.2 数据

复制代码

 vertexs.txt

    
 1|okram|person
    
 2|spmallette|person
    
 3|TinkerPop|software
    
 4|TinkerGraph|software
    
 5|Gremlin|lanuage
    
 6|dalaro|person
    
 7|mbroecheler|person
    
 8|Titan|software
    
 9|javame|person
    
 10|zhoney|person
    
 11|linary|person
    
 12|HugeGraph|software
    
  
    
 edges.txt
    
 1,3,created
    
 2,3,created
    
 1,2,knows
    
 3,5,define
    
 3,4,contains
    
 4,5,supports
    
 6,8,created
    
 7,8,created
    
 1,8,created
    
 6,7,knows
    
 8,3,implements
    
 8,5,supports
    
 9,12,created
    
 10,12,created
    
 11,12,created
    
 9,10,knows
    
 9,11,knows
    
 12,3,implements
    
 12,5,supports

2.3. 结果

(TinkerPop,5)
(Titan,3)
(HugeGraph,3)
(Gremlin,3)
(okram,2)

全部评论 (0)

还没有任何评论哟~

spark graphx的Triangle三角形计数算法使用示例

Graphx作为Spark的图计算组件，提供了丰富的图操作接口，以及常用的算法在graphxlib中。本文介绍三角形计数TriangleCount算法原理； 1\.相关知识三角形：一种完全图（即任意...

spark的数三角形算法_spark graphx 图计算

写在前面态度决定高度！让优秀成为一种习惯！世界上没有什么事儿是加一次班解决不了的，如果有，就加两次！茂强什么是一个图一个网络 Network 一个树 Tree 一个RDBMS RDMBMS 一...

spark graphx的Connected Components算法使用示例

Graphx作为Spark的图计算组件，提供了丰富的图操作接口，以及常用的算法在graphxlib中。本文介绍ConnectedComponents算法，并提供使用示例； 1\.相关知识图的相关概念...

三角形(triangle)【数论】

Description 平面上有n个点，求出用这些点可以构成的三角形数。 Input 第一行一个整数n。接下来n行，每行两个整数，表示点的坐标。 Output 输出仅一个整数，表示所求答案。

spark的数三角形算法_Graphx图算法【1】三角形TriangleCount

Graphx的数三角形算法TriangleCount用于统计每个顶点所在的三角形个数。 1.1简介对网络图中进行三角形个数计数可以根据三角形数量反应网络中的稠密程度和质量。

【三角形斜率】【数论】三角形(triangle)

题目描述平面上有n个点，求出用这些点可以构成的三角形数。输入第一行一个整数n。接下来n行，每行两个整数，表示点的坐标。输出输出仅一个整数，表示所求答案。输入样例 5 00 11 11 1...

120.Triangle 三角形

给出一个三角形（数据数组），找出从上往下的最小路径和。每一步只能移动到下一行中的相邻结点上。比如，给你如下三角形： 2351 则从上至下最小路径和为11（即，2+3+5+1=11）注意：加分项：...

倒三角形 (triangle)

输入正整数n<=20，输出一个n层的倒三角形。 include<iostream usingnamespacestd; intmain intn; cinn; forinti=n;i0;i forin...

倒三角形（triangle）

输入正整数n<=20，输出一个n层的倒三角形。例如，n=5时输出如下：代码解读 includestdafx.h intmainintargc,charargv[] intn; scanf%d,&n;...

python计算三角函数_使用Python三角函数公式计算三角形的夹角案例

使用Python三角函数公式计算三角形的夹角案例题目内容：对于三角形，三边长分别为a,b,c，给定a和b之间的夹角C，则有：。编写程序，使得输入三角形的边a,b,c，可求得夹角C角度值。输入格式...

是否确定退出登录?

spark graphx的Triangle三角形计数算法使用示例

1. 相关知识

2. 统计顶点的三角形数

2.1. 源代码

2.2 数据

2.3. 结果

全部评论 (0)

相关文章推荐

spark graphx的Triangle三角形计数算法使用示例

spark的数三角形算法_spark graphx 图计算

spark graphx的Connected Components算法使用示例

三角形(triangle)【数论】

spark的数三角形算法_Graphx图算法【1】三角形TriangleCount

【三角形斜率】【数论】三角形(triangle)

120.Triangle 三角形

倒三角形 (triangle)

倒三角形（triangle）

python计算三角函数_使用Python三角函数公式计算三角形的夹角案例