什么是Hadoop MapReduce

hadoop | 2019-09-24 14:13:57

1.Hadoop MapReduce是什么

MapReduce最初是google提出的一套理论，用于处理海量数据，后来被实现在hadoop上作为hadoop的一个组件，hadoop MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。

MR有两个阶段组成：Map和Reduce，用户只需实现map()和reduce()两个函数，即可实现分布式计算。

2.MapReduce做什么

MapReduce擅长处理大数据，它为什么具有这种能力呢？这可由MapReduce的设计思想发觉。MapReduce的思想就是“分而治之”。分就是分布式的分，把数据和计算任务分到集群的各个机器上执行。

（1）Mapper(映射) 负责“分”，主结点读入输入数据，把它分成可以用相同方法解决的小数据块（这里是一个分而治之的思想），然后把这些小数据块分发到不同的工作节点上(worder nodes)上，每一个工作节点(worder node)循环做同样的事，这就行成了一个树行结构（分布式计算中的很多模型都和图论有关，pageRank也是），而每一个叶子节点有来处理每一个具体的小数据块，再把这些处理结果返回给父节点。

（2）Reducer(归约) 负责对map阶段的结果进行汇总。主结节得到所有子节点的处理结果，然后把所有结果组合并且返回到输出。至于需要多少个Reducer，用户可以根据具体问题，通过在mapred-site.xml配置文件里设置参数mapred.reduce.tasks的值，缺省值为1。

一个比较形象的语言比喻MapReduce：　　我们要数图书馆中的所有书。你数1号书架，我数2号书架。这就是“Map”。我们人越多，数书就更快。现在我们到一起，把所有人的统计数加在一起。这就是“Reduce”。

3 MapReduce怎么做

最后讲解一下mapreduce的工作流程，这里以WordCount单词计数为例，介绍map和reduce两个阶段需要进行哪些处理。单词计数主要完成的功能是：统计一系列文本文件中每个单词出现的次数，如图所示：

（1）map任务处理

（2）reduce任务处理

登录后即可回复登录 | 注册

hadoop集群只启动了一个datanode节点 hadoop异常there are 0 datanode s running and no node s are excluded hadoop错误no route to host from localhost.localdomain/127.0.0.1 to hadoopmaster 9000 linux hadoop spark环境搭建 hdfs警告unable to load native hadoop library for you platform hadoop mapreduce 概念及原理什么是hadoop mapreduce hadoop mapreduce和spark对比 hadoop dfs.datanode.data.dir配置多目录及数据均衡 hadoop和hbase修改配置pid文件路径 hadoop 教程 hadoop mapreduce 教程 hadoop mapreduce 编程模型 hadoop mapreduce idea上应用开发配置 hadoop mapreduce 运行原理和机制 ajax是什么如果mysql依然崩溃，应作些什么 mysql 什么是maxdb？mysql使用什么日历？mysql遵从的标准是什么