Spark之火可以燎原——访Spark亚太研究院院长、首席专家王家林
Spark,星星之火即将燎原
——访Spark亚太研究院院长、首席专家王家林
大潮涌动的年代里
Wang Lai, the Director and Lead Expert of the Spark Academy in Asia-Pacific and a Senior Developer in the Spark Community, is recognized as the sole integrator in China that uniquely combines mobile internet, cloud computing, and big data capabilities. He boasts extensive open-source project experience across the Spark, Hadoop, and Android ecosystems, with a focus on performance optimization and practical implementation. Wang Lai has conducted an in-depth study of the Spark source code from version 0.5.0 to 0.9.1, encompassing a total of 13 major updates, and has completed research on the source code released on May 31, 2014.
王院长您好!据公开信息显示,在云计算与大数据领域中,Spark技术已被公认为一项具有里程碑意义的技术,在国内的应用越加广泛,请问您能否介绍下目前在业界中的一项应用实例?
Spark属于最新的版本系列大型的数据处理平台,在数据分析中涵盖了统计分析、数据挖掘、流处理等多种领域。基于我们对技术和行业的深入研究以及长期的观察发现,在未来的大数据时代中,Spark将会成为支撑这一变革的核心计算平台。
Spark技术的应用范围正不断扩大,在这一领域扮演着越来越关键的角色。全球一些大型互联网企业已经开始采用Spark技术。支持Hadoop的四大商业机构包括Cloudera、MapR、Hortonworks和EMC等都已经宣布转向支持Spark项目;Mahout项目宣布停止接收基于MapReduce框架的算法,并正式接收基于Spark的新算法;Cloudera公司的Oryx执行引擎计划完全替代现有基于Hadoop MapReduce的技术;与此同时谷歌也开始将计算负载从MapReduce转移到Pregel和Dremel;Facebook则决定将计算负载转移至Presto平台;而我们国内如淘宝网、优酷土豆网、网易公司等主要企业都已经将Spark技术应用于其商业生产系统中。
随着2014年5月30日Spark 1.0.0的发布,Spark已经相对稳定,可以放心使用。
您能否介绍下Spark如何部署到生产环境?
如何在生产环境中 deploy Spark? Spark 被视为新一代的大数据处理框架,在实际 deployment 过程中,默认会基于 HDFS 文件存储系统进行设计。因此如果已有现成的 Hadoop 平台 那么就非常容易完成 Spark 的集成或配置只需要在此平台上集成或配置即可。例如国内企业的淘宝项目中使用的 Spark 就是基于 Hadoop 的 Yarn 架构 framework. 同时也可以选择 standalone 模式或 zookeeper 方式从零开始构建 Spark 集群 这种方式虽然较为繁琐 但也是一种常用且理想的选择官方也推荐这种方法作为默认选项。
当下谈到云计算与大数据话题时,大部分人仍然会提及Hadoop;然而,对于Spark这一技术的了解则较为有限。如果一个企业有意部署云计算与大数据系统,那么该如何制定相应的技术选型方案呢?
如果一家企业之前并未部署过云计算与大数据集群系统,则采用Spark比采用Hadoop更为明智的原因在于:首先,在Hadoop的处理机制下(即其所有的运算都必须分解为Map、Shuffle和Reduce这三个关键阶段),每次运算都需要从存储设备中频繁读取或写入数据,并且整个运算流程依赖于网络传输这一特点使得运算效率变得越来越低劣。其次,Hadoop无法支持实时数据分析功能
而Spark能够有效应对数据分析工作、数据挖掘任务、流式处理应用、图计算技术以及机器学习算法等挑战,并且其独特的"One stack rule them all"设计理念使得系统的部署更加简便。无需布署多套系统以解决相关问题
当选择Spark时,则主要依赖于单个团队即可完成数据统计分析、实时流计算以及数据挖掘等基础工作;而当选择Hadoop时,则需要各个专业团队分别负责不同的技术环节(如数据存储、分布式计算等),从而导致人力资源成本显著提升。
此外,在已经拥有Hadoop集群的企业中
您怎么看待,中型企业的Spark应用?
由于其部署方式简单易行并融合了"One stack to rule them all"的理念,在大数据时代成为中型企业处理海量数据的理想选择。
对于中型公司而言,在其基础上部署Spark相对较为容易。具体来说,在其基础上部署 spark平台所需的人力配置大约为5至20人,并且能够实现数据分析统计工作、机器学习应用以及流处理计算等功能。
主要针对电信和金融等行业的用户群体,“Spark”的应用效果尤为显著。“其在数据分析效率方面的优势尤其明显:与Hadoop相比,在数据分析速度上快了数十倍;如果采用内存表的形式,则速度提升可达到百倍以上。”此外,在实时流处理能力、机器学习应用以及图计算等方面也展现出卓越的表现,“能够很好地满足电信和金融行业的数据分析需求。”
据分析表明
王家林老师(联系邮箱18610086859@126.com 电话:18610086859 QQ:1740415547 微信号:18610086859)
Spark亚太研究院担任院长和首席专家一职,并在移动互联网、云计算以及大数据整合领域处于行业领先地位
spark 亚太研究院院级领导层在移动互联网、云计算以及大数据技术领域具有集精汇妙之功
当前云计算领域最前沿的技术由内核开发者主导,并且Docker技术在中国是早期的重要实践者之一
具备丰富的实践经验和优化能力,在Spark、Hadoop、移动应用开发以及Docker等技术领域积累了深厚的经验。通过深入分析整个版本序列(共计18个版本),完整解析了Spark的源代码库。
该领域的核心开发者曾参与开发了某知名企业的开源类...同时具备丰富的实践经验,并且是该技术领域的先驱者之一。作为一位坚定的技术拥护者,在实践中始终如一地将...成功应用于多个行业的实际场景中,并且取得了显著的效果。目前担任的是...并致力于编写多本 authoritative 的著作来分享技术经验与实践经验...
多款浏览器定制者,中国大陆HTML5的技术引领者。
为超过50家公司提供了基于Linux和Android的软硬整合解决方案。
擅长构建系统和打造框架,特别精通于Java与C/C++混合的框架实现。
Android架构师、高级工程师、咨询顾问、培训专家;
通晓Android、HTML5、Hadoop,迷恋英语播音和健美;
致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案;
国内最早(2007年)担任Android系统移植与软硬件集成等技术工作的先驱者之一,并具备框架优化、应用软件开发以及Android系统测试与应用软件测试的经验
处于该技术领域领先地位并具影响力的(2009年)人物之一,在过去的工作中不断追求技术创新与用户体验优化;通过潜心研究与实践开发出一系列专属于不同机构的定制版网页浏览解决方案;同时积极参与并支持某个知名的技术团队打造一款通用型网页浏览软件
超过10本的IT畅销书作者;
开启大数据时代的公益讲座第100期:http://edu.51cto.com/course/course_id-1659.html
Spark实操精进之路全系列课程: http://edu.51cto.com/pack/view/id-144.html
Spark实战高手之路: http://book.51cto.com/art/201408/448416.htm
Spark中文文档:http://down.51cto.com/tag-spark翻译.html
