Advertisement

spark graphx 教程01(graphx基本概念)

阅读量:

spark graphx是什么

GraphX是一个在Spark中用于处理图及其并行计算的新组件。从高层次来看,GraphX通过引入一种定向多重图扩展了Spark RDD,并赋予每个顶点和边附加属性。

为了支持图计算任务,G X展示了基本操作集合(例如子图、joinVertices和aggregateMessages)以及优化的Pregel API版本。

此外,G X还包含一系列图算法和构建器来简化图分析任务。

可以理解为spark框架对图计算领域的一个封装方案。这一类计算通常涉及多重图模型。其架构基于rdd模式,并具备典型的分布式计算特征。其中最为关键的是顶点(vertex)和边(edge)的概念。

vertex和edge

  • vertex代表顶点。举个例子来说,在这个模型中,“一个人”就是一个独立的vertex节点;每个vertex都具有多种属性。
    • edge代表边(即两个顶点之间的连接)。从另一个角度看,在这个图中,“两个人之间存在某种关系”就是一条edge。
      举个例子来说:
      • 点与点之间的关系包括父系关系(如父子)、师生之谊(如教授-学生)、夫妻之情以及密友等。
      • edge则用于描述这些具体的关系类型。
        因此,在这种情况下:
      • vertex代表的是独立存在的个体;
      • edge则用于描述个体间的关系。
        通过这种方式,
        我们可以清晰地构建出一个图结构,
        其中每一个vertex都是一个独立的个体,
        而每一个edge则是连接两个vertex之间的一种特定的关系。

多重图

  • 包含平行边的图被定义为多重图。也可称为多重图的是那些满足以下条件的图:同一对节点之间存在多于一条的边;同时允许顶点通过同一条边与其自身相连。
  • 2个节点之间存在多于1条边的概念可以用以下方式理解:例如,在社交网络中的人际关系网络中的人与人之间的关系可能是同事、朋友等多重身份。
此处输入图片的描述

spark graphx能做什么

PageRank
这个应该都知道吧,搜索引擎计算网页得分用的

Shortest path refers to the calculation of the shortest path between points. For instance, by modeling the world's people and their relationships as a graph, one can determine the quickest route to connect to Trump through these relationships.

社群发现
计算社区中三角形的个数,三角形越多,表示关系越稳固

ALS
做推荐要用到

全部评论 (0)

还没有任何评论哟~