Hadoop MapReduce和Spark对比

spark | 2019-09-25 16:51:22

Apache Hadoop MapReduce是hadoop中用于海量数据计算的组件,Apache Spark™是一个用于大规模数据处理的统一分析引擎,都是干同一件事的，那既然先有Hadoop MapReduce，为什么还要Spark呢？

1.MapReduce和Spark缘起

我一直觉得google和苹果，微软这些公司不一样，google是真正赚钱的同时推进世界的发展

hadoop mapReduce：2004年Google公布了GFS和MapReduce两篇著名的论文，为了解决大数据的存储和计算。基于此两篇论文众多大老不断探索，不断发展才有了hdfs和mapReduce的软件产品。Doug Cutting根据GFS和MapReduce的思想创建了开源Hadoop（自己孩子的玩具名称）框架，2006年1月，Doug Cutting加入Yahoo，领导Hadoop的开发。2006年算是hadoop的元年。2008年1月，Hadoop已成为Apache顶级项目。

spark:2009年，Spark诞生于伯克利大学AMPLab，最开初属于伯克利大学的研究性项目。它于2010年正式开源，并于2013年成为了Aparch基金项目，并于2014年成为Aparch基金的顶级项目，整个过程不到五年时间。

2.MapReduce和Spark的区别

2.1、spark把运算的中间数据存放在内存，迭代计算效率更高，Spark中除了基于内存计算外，还有DAG有向无环图来切分任务的执行先后顺序；mapreduce的中间结果需要落地，需要保存到磁盘，

这样必然会有磁盘io操做，影响性能。

2.2、spark容错性高，它通过弹性分布式数据集RDD来实现高效容错，RDD是一组分布式的存储在节点内存中的

只读性质的数据集，这些集合是弹性的，某一部分丢失或者出错，可以通过整个数据集的计算流程的血缘关系

来实现重建；mapreduce的话容错可能只能重新计算了，成本较高。

2.3、spark更加通用，spark提供了transformation和action这两大类的多个功能api，另外还有流式处理

sparkstreaming模块、图计算GraphX等等；mapreduce只提供了map和reduce两种操作，流计算以及其他

模块的支持比较缺乏。

2.4、spark框架和生态更为复杂，首先有RDD、血缘lineage、执行时的有向无环图DAG、stage划分等等，

很多时候spark作业都需要根据不同业务场景的需要进行调优已达到性能要求；mapreduce框架及其生态

相对较为简单，对性能的要求也相对较弱，但是运行较为稳定，适合长期后台运行。

登录后即可回复登录 | 注册

idea spark 程序远程调试 spark on yarn资源分配性能调优静态和动态 spark异常 could not locate executable null bin winutils.exe in the hadoop binaries linux hadoop spark环境搭建 spark rdd zipwithindex 与 zipwithuniqueid 详解 hdfs警告unable to load native hadoop library for you platform hadoop mapreduce 概念及原理 linux hadoop、hbase、hive、spark大数据分布式集群环境搭建 spark sql concat ws collect set collect list 字段值拼接 spark 异常 spark conf / hadoop conf bad substitution spark从oracle导入数据到hive 什么是hadoop mapreduce hadoop mapreduce和spark对比 spark 数据倾斜分析及 shuffle性能优化方案 hadoop 教程 hadoop mapreduce 教程 hadoop mapreduce 编程模型 hadoop mapreduce idea上应用开发配置 hadoop mapreduce 运行原理和机制 spark解决No implicits found for parameter evidence$6: Encoder