【Spark】（十七）GraphX之connectedComponents

阅读量：

连通分量

连通分量是一个子图，其中任何两个顶点通过一条边或一系列边相互连接，其顶点是原始图顶点集的子集，其边是原始图边集的子集
在这里插入图片描述
首先准备数据源，存放地址为Linux中/opt/kbfile目录下
links.csv

复制代码

    1,2,friend
    1,3,sister
    2,4,brother
    3,2,boss
    4,5,client
    1,9,friend
    6,7,cousin
    7,9,coworker
    8,9,father
    10,11,colleague
    10,12,colleague
    11,12,colleague

people.csv

复制代码

    4,Dave,25
    6,Faith,21
    8,Harvey,47
    2,Bob,18
    1,Alice,20
    3,Charlie,30
    7,George,34
    9,Ivy,21
    5,Eve,30
    10,Lily,35
    11,Helen,35
    12,Ann,35

在这里插入图片描述
图结构

案例：使用Spark-Shell

复制代码

    // 定义样例类
    scala> case class Person(name:String,age:Int)

复制代码

    // 读取people.csv数据
    scala> val people = sc.textFile("file:///opt/kb09file/people.csv")
    scala> people.collect.foreach(println)

复制代码

    // 生成peopleRDD
    scala> val peopleRDD = people.map(x => x.split(",")).map(x => (x(0).toLong,Person(x(1),x(2).toInt)))
    peopleRDD: org.apache.spark.rdd.RDD[(Long, Person)] = MapPartitionsRDD[1125] at map at <console>:30
    
    scala> peopleRDD.collect.foreach(println)

复制代码

    // 读取links.csv数据
    scala> val links = sc.textFile("file:///opt/kb09file/links.csv")
    
    scala> links.collect.foreach(println)

复制代码

    // 生成linksRDD
    scala> val linksRDD = links.map(x => {
     | val row = x.split(",");
     | Edge(row(0).toInt,row(1).toInt,row(2))
     | })
    linksRDD: org.apache.spark.rdd.RDD[org.apache.spark.graphx.Edge[String]] = MapPartitionsRDD[1128] at map at <console>:28
    
    scala> linksRDD.collect.foreach(println)

复制代码

    // 创建图
    scala> val graph = Graph(peopleRDD,linksRDD)
    graph: org.apache.spark.graphx.Graph[Person,String] = org.apache.spark.graphx.impl.GraphImpl@5ef1f19e
    
    scala> graph.vertices.collect.foreach(println)
    
    scala> graph.triplets.collect.foreach(println)

复制代码

    // 调用connectedComponents
    scala> val cc = graph.connectedComponents
    cc: org.apache.spark.graphx.Graph[org.apache.spark.graphx.VertexId,String] = org.apache.spark.graphx.impl.GraphImpl@282699f
    // 输出结果
    scala> cc.vertices.collect.foreach(println)

在这里插入图片描述
从结果中可以看到通过计算之后的图，每个顶点多了一个属性，这个属性表示的就是这个顶点所在的连通图中的最小顶点id。例如顶点11所在的连通图中的最小顶点id是10，顶点4所在的连通图中的最小顶点id是1。

扩展

经过connectedComponents得到的结果，可以知道哪些顶点在一个连通图中，这样就可以将一个大图拆分成若干个连通子图。

复制代码

    // 分析：
    // cc：(4,1)   peopleRDD：(4,Person(Dave,25))
    // (id,mincc,people)：(4,1,Person(Dave,25))
    // (mincc,people.get.name,people.get.age)：(1,Dava,25)
    
    scala> val newGraph = cc.outerJoinVertices(peopleRDD)((id,mincc,people)=>(mincc,people.get.name,people.get.age))
    newGraph: org.apache.spark.graphx.Graph[(org.apache.spark.graphx.VertexId, String, Int),String] = org.apache.spark.graphx.impl.GraphImpl@7e42389c
    
    
    scala> newGraph.vertices.collect.foreach(println)

复制代码

    // 分析：
    // cc:(4,1) => cc.vertices.map(_._2) = 1
    // newGraph:(4,(1,Dave,25)) => id2._1 = 1
    
    scala> cc.vertices.map(_._2).collect.distinct.foreach(id =>{
    val sub = newGraph.subgraph(vpred = (id1,id2) => id2._1 == id)
    sub.triplets.collect.foreach(println)
    })

在这里插入图片描述
分析：

通过connectedComponents得到的新图的顶点属性已经没有了原始的那些信息，所以需要和原始信息作一个join，例如val newGraph = cc.outerJoinVertices(peopleRDD)((id, cc, p)=>(cc,p.get.name,p.get.age))
cc.vertices.map(_._2).collect.distinct会得到所有连通图中id最小的顶点编号
通过连通图中最小顶点编号，使用subgraph方法得到每个连通子图

参考文献：
https://www.jianshu.com/p/8b0a4ce52703

全部评论 (0)

还没有任何评论哟~

【Spark】（十七）GraphX之connectedComponents

连通分量连通分量是一个子图，其中任何两个顶点通过一条边或一系列边相互连接，其顶点是原始图顶点集的子集，其边是原始图边集的子集首先准备数据源，存放地址为Linux中/opt/kbfile目录下 li...

【Spark】（十八）Spark GraphX 中的 pregel函数

Pregel概述 Pregel是Google提出的用于大规模分布式图计算框架，常用来解决以下问题：图遍历（BFS）单源最短路径（SSSP） PageRank计算 Pregel的计算由一系列迭代组成...

Spark GraphX

Concept GraphXisApacheSpark’sAPIforgraphsandgraphparallelcomputation. GraphXisanewcomponentinSparkfo...

Spark-Mlib &Spark GraphX

RandomForestsbt打包 Findfullexamplecodeat“examples/src/main/scala/org/apache/spark/examples/ml/RandomF...

Spark学习之路（十七）Spark分区

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、分区的概念二、为什么要进行分区三、Spark分区原则及方法 3.1本地模式 3.2YARN模式四、...

【Spark】（十五）基于Spark GraphX的图形数据分析

为什么需要图计算许多大数据以大规模图或网络的形式呈现许多非图结构的大数据，常会被转换为图模型进行分析图数据结构很好地表达了数据之间的关联性图（Graph）的基本概念 1、图是由顶点集合（Ver...

Spark GraphX学习（一）图（GraphX ）简介

SparkGraphX快速入门 1、图（GraphX） 1.1、基本概念图是由顶点集合vertex及顶点间的关系集合（边edge）组成的一种数据结构。这里的图并非指代数中的图。

第四十七章：GraphX与教育科技

第四十七章：GraphX与教育科技作者：禅与计算机程序设计艺术 1\.背景介绍 1.1.教育科技的兴起近年来，随着互联网技术的快速发展和普及，教育领域也迎来了前所未有的变革。在线教育、移动学习、人...

spark graphx 教程01（graphx基本概念）

sparkgraphx是什么 GraphXisanewcomponentinSparkforgraphsandgraphparallelcomputation.Atahighlevel,GraphXe...

【Spark】Graphx用例（Java）

下面是通过边构造图的一个简单的例子： packagegraphx; importjava.util.ArrayList; importjava.util.List; importorg.apache....

是否确定退出登录?

【Spark】（十七）GraphX之connectedComponents

连通分量

扩展

全部评论 (0)

相关文章推荐

【Spark】（十七）GraphX之connectedComponents

【Spark】（十八）Spark GraphX 中的 pregel函数

Spark GraphX

Spark-Mlib &Spark GraphX

Spark学习之路 （十七）Spark分区

【Spark】（十五）基于Spark GraphX的图形数据分析

Spark GraphX学习（一）图（GraphX ）简介

第四十七章：GraphX与教育科技

spark graphx 教程01（graphx基本概念）

【Spark】Graphx用例（Java）

Spark学习之路（十七）Spark分区