前沿技术Spark,Flink,Beam
MapReduce的缺点:
1.开发
wordcount程序复杂
只支持map和reduce方法
执行效率低下
以作业连方式串起来执行
打包
2.运行速度:
map输出写到磁盘,reduce写到hdfs,磁盘I/O,网络I/O,序列化等压力大
map任务和reduce任务以进程方式运行
一定要求排序(其实有时候不需要)
不适合迭代处理,交互式(数据挖掘)处理,流式处理
3.框架多样性:
维护和学习成本大
Spark特点:
速度快,使用方便,通用性,可以运行在hadoop,Hadoop, Mesos, Kubernetes, standalone, cloud
Hadoop生态系统和Spark生态系统:
**
**
BDAS:Berkeley Data Analytics Stack
**
**
Hadoop和Spark生态圈:
**
**
hadoop对比Spark:
**
**
MapReduce和Spark对比:
**** 
Spark和hadoop的协作性:
hadoop优势:
**** 1.规模可以拓展
2.可靠,多租户,安全、
3.处理文件,数据库,半结构化数据
Spark:
1.容易开发
2.基于内存
3.联合多个子框架
Hadoop+Spark

Spark开发语言及运行模式:
**** 开发语言:Java,python,Scala(推荐)
运行模式:standlone(内置),yarn,mesos,local
分布式计算框架Flink:
概述:开源流式的处理框架
分布式,高性能,精确计算流处理应用
框架类型:
仅批处理框架:
Apache Hadoop
Hive
pig
仅流处理框架:
Apache Storm,JStorm
Apache Samza
混合框架:
Apache Spark
Apache Flink
交互式计算:
Impala
大数据处理神器Beam:
**** 老三驾:GFS,MapReduce,BigTable
新三驾:Dremel,Pregel,Caffeine
