Advertisement

前沿技术Spark,Flink,Beam

阅读量:

MapReduce的缺点:

1.开发

wordcount程序复杂

只支持map和reduce方法

执行效率低下

以作业连方式串起来执行

打包

2.运行速度:

map输出写到磁盘,reduce写到hdfs,磁盘I/O,网络I/O,序列化等压力大

map任务和reduce任务以进程方式运行

一定要求排序(其实有时候不需要)

不适合迭代处理,交互式(数据挖掘)处理,流式处理

3.框架多样性:

维护和学习成本大

Spark特点:

速度快,使用方便,通用性,可以运行在hadoop,Hadoop, Mesos, Kubernetes, standalone, cloud

Hadoop生态系统和Spark生态系统:

**
**

BDAS:Berkeley Data Analytics Stack

**
**

Hadoop和Spark生态圈:

**
**

hadoop对比Spark:

**
**

MapReduce和Spark对比:

****

Spark和hadoop的协作性:

hadoop优势:

**** 1.规模可以拓展

2.可靠,多租户,安全、

3.处理文件,数据库,半结构化数据

Spark:

1.容易开发

2.基于内存

3.联合多个子框架

Hadoop+Spark

Spark开发语言及运行模式:

**** 开发语言:Java,python,Scala(推荐)

运行模式:standlone(内置),yarn,mesos,local

分布式计算框架Flink:

概述:开源流式的处理框架

分布式,高性能,精确计算流处理应用

框架类型:

仅批处理框架:

Apache Hadoop

Hive

pig

仅流处理框架:

Apache Storm,JStorm
Apache Samza
混合框架:
Apache Spark

Apache Flink

交互式计算:

Impala

大数据处理神器Beam:

**** 老三驾:GFS,MapReduce,BigTable

新三驾:Dremel,Pregel,Caffeine

全部评论 (0)

还没有任何评论哟~