spark graphx 教程01(graphx基本概念)
发布时间
阅读量:
阅读量
spark graphx是什么
GraphX是一个在Spark中用于处理图及其并行计算的新组件。从高层次来看,GraphX通过引入一种定向多重图扩展了Spark RDD,并赋予每个顶点和边附加属性。
为了支持图计算任务,G X展示了基本操作集合(例如子图、joinVertices和aggregateMessages)以及优化的Pregel API版本。
此外,G X还包含一系列图算法和构建器来简化图分析任务。
可以理解为spark框架对图计算领域的一个封装方案。这一类计算通常涉及多重图模型。其架构基于rdd模式,并具备典型的分布式计算特征。其中最为关键的是顶点(vertex)和边(edge)的概念。
vertex和edge
- vertex代表顶点。举个例子来说,在这个模型中,“一个人”就是一个独立的vertex节点;每个vertex都具有多种属性。
- edge代表边(即两个顶点之间的连接)。从另一个角度看,在这个图中,“两个人之间存在某种关系”就是一条edge。
举个例子来说:- 点与点之间的关系包括父系关系(如父子)、师生之谊(如教授-学生)、夫妻之情以及密友等。
- edge则用于描述这些具体的关系类型。
因此,在这种情况下: - vertex代表的是独立存在的个体;
- edge则用于描述个体间的关系。
通过这种方式,
我们可以清晰地构建出一个图结构,
其中每一个vertex都是一个独立的个体,
而每一个edge则是连接两个vertex之间的一种特定的关系。
- edge代表边(即两个顶点之间的连接)。从另一个角度看,在这个图中,“两个人之间存在某种关系”就是一条edge。
多重图
- 包含平行边的图被定义为多重图。也可称为多重图的是那些满足以下条件的图:同一对节点之间存在多于一条的边;同时允许顶点通过同一条边与其自身相连。
- 2个节点之间存在多于1条边的概念可以用以下方式理解:例如,在社交网络中的人际关系网络中的人与人之间的关系可能是同事、朋友等多重身份。

spark graphx能做什么
PageRank
这个应该都知道吧,搜索引擎计算网页得分用的
Shortest path refers to the calculation of the shortest path between points. For instance, by modeling the world's people and their relationships as a graph, one can determine the quickest route to connect to Trump through these relationships.
社群发现
计算社区中三角形的个数,三角形越多,表示关系越稳固
ALS
做推荐要用到
全部评论 (0)
还没有任何评论哟~
