如何简单解释 MapReduce 算法

如题所述

推荐答案推荐于2016-12-01

map 根据输入的映射函数，将一个集合映射为另一个集合，比如：

输入集合为 {1,2,3,4,5}，输入的函数为 f(x) = x^2，那么输出的集合就是 {1,4,9,16,25}。

reduce 就是根据输入的归约函数，将集合（一般指map输出的集合）归约，比如上面的输出集合是 {1,4,9,16,25}，假设我们的归约函数是 f(x,y) = x + y, 那么 reduce 的过程就是 {5,9,16,25} -> {14,16,25} -> {30,25} -> {55}。

我们使用 Java8 来描述这个过程：

int result = IntStream.range(1, 6) // 获得集合 {1,2,3,4,5}
  .map(x -> x * x) // 映射为 {1,4,9,16,25}
  .reduce((x, y) -> x + y) // 归约
  .getAsInt(); // 获得结果
System.out.println(result);

结果：

温馨提示：答案为网友推荐，仅供参考

当前网址：http://77.wendadaohang.com/zd/GvWqvvvpW3WqN8GGvIq.html

其他回答

第1个回答 2015-11-10

　在Hackbright做导师期间,我被要求向技术背景有限的学生解释MapReduce算法,于是我想出了一个有趣的例子,用以阐释它是如何工作的.
　　例子
　　你想数出一摞牌中有多少张黑桃.直观方式是一张一张检查并且数出有多少张是黑桃.
　　MapReduce方法则是：
　　给在座的所有玩家中分配这摞牌
　　让每个玩家数自己手中的牌有几张是黑桃,然后把这个数目汇报给你
　　你把所有玩家告诉你的数字加起来,得到最后的结论
　　背景
　　谷歌在2004年发表了可以分析大量数据的MapReduce算法.每当你听到“大数据”这个词时,它指的是因为太大而让仅仅一台机器难以有效存储或分析的问题.MapReduce通过把计算量分配给不同的计算机群,能够解决大部分和大数据有关的分析问题.Hadoop提供了最受欢迎的利用MapReduce算法来管理大数据的开源方式.现今MapReduce是主流.
　　所以通常来说,每当你听到“大数据”,那也许意味着Hadoop被用来存储数据,也通常意味着数据的抽取和检索是用的MapReduce.
　　拆分
　　MapReduce合并了两种经典函数：
　　映射(Mapping)对集合里的每个目标应用同一个操作.即,如果你想把表单里每个单元格乘以二,那么把这个函数单独地应用在每个单元格上的操作就属于mapping.
　　化简(Reducing )遍历集合中的元素来返回一个综合的结果.即,输出表单里一列数字的和这个任务属于reducing.
　　重新审视上面的例子
　　重新审视我们原来那个分散纸牌的例子,我们有MapReduce数据分析的基本方法.友情提示：这不是个严谨的例子.在这个例子里,人代表计算机,因为他们同时工作,所以他们是个集群.在大多数实际应用中,我们假设数据已经在每台计算机上了
– 也就是说把牌分发出去并不是MapReduce的一步.(事实上,在计算机集群中如何存储文件是Hadoop的真正核心.)
　　通过把牌分给多个玩家并且让他们各自数数,你就在并行执行运算,因为每个玩家都在同时计数.这同时把这项工作变成了分布式的,因为多个不同的人在解决同一个问题的过程中并不需要知道他们的邻居在干什么.
　　通过告诉每个人去数数,你对一项检查每张牌的任务进行了映射. 你不会让他们把黑桃牌递给你,而是让他们把你想要的东西化简为一个数字.
　　另外一个有意思的情况是牌分配得有多均匀.MapReduce假设数据是洗过的(shuffled)-
如果所有黑桃都分到了一个人手上,那他数牌的过程可能比其他人要慢很多.
　　如果有足够的人的话,问一些更有趣的问题就相当简单了 -
比如“一摞牌的平均值(二十一点算法)是什么”.你可以通过合并“所有牌的值的和是什么”及“我们有多少张牌”这两个问题来得到答案.用这个和除以牌的张数就得到了平均值.
　　结论
　　MapReduce算法的机制要远比这复杂得多,但是主体思想是一致的 –
通过分散计算来分析大量数据.无论是Facebook、NASA,还是小创业公司,MapReduce都是目前分析互联网级别数据的主流方法.有趣的是,MapReduce在多于10PB数据时趋向于变慢,所以谷歌在他们今年的IO大会上报告称MapReduce已经不够他们用了,请参见这篇资讯《谷歌弃用
MapReduce, 推出替代品 Cloud Dataflow》.

相似回答

mapreduce是什么意思答：MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是...

hadoop中的mapreduce的主要思想是什么和规约答：详细解释 1. Map阶段在Map阶段，输入数据被分割成若干小块（splits），然后由一个Map函数处理。这个函数将输入键值对（key-value pairs）转换为中间键值对。这个过程是高度并行的，意味着每个数据块都可以在一个单独的处理器上进行处理。这种并行处理是Hadoop MapReduce模型在处理大规模数据集时的关键优...

什么是mapandreduce算法拜托各位大神答：Google最资深的计算机科学家JeffDean认识到，Google所需的绝大部分数据处理都可以归结为一个简单的并行算法：MapandReduce（ http://labs.google.com/papers/mapreduce.html ）。这个算法能够在很多种计算中达到相当高的效率，而且是可扩展的（也就是说，一千台机器就算不能达到一千倍的效果，至少也可以达...

请简要描述Hadoop计算框架MapReduce的工作原理答：分为2个步骤，map和reduce，map专门负责对每个数据独立地同时地打标签，框架会对相同标签的数据分成一组，reduce对分好的那些组数据做累计计算。我们只要分别实现map和reduce就可以了

mapreduce算法模式的目的答：mapreduce算法模式的目的是解决当前大规模数据集处理问题的主要手段之一。根据查询相关信息显示MapReduce并行分布式编程模型通过封装实现了底层细节的隐藏，大大降低了分布式计算中并行程序的编写难度，有效推进了分布式计算在大规模数据集处理方面的发展和应用。

mapreduce高效的原因答：2、容错性，MapReduce在处理过程中如果某个节点失效，可以重新在其他节点上执行该节点的计算任务，保证了计算的可靠性。3、可扩展性，MapReduce可以根据需要增加计算节点，从而提高处理能力，满足不断增长的数据规模。4、灵活性，MapReduce可以处理各种不同类型的数据，并且可以灵活地调整计算算法，以适应不同...

简述Hadoop的MapReduce与Googl的MapReducc 之间的关系答：下面用一个贯穿全文的例子来解释MapReduce是如何工作的。 2. 例子:统计词频如果我想统计下过去10年计算机论文出现最多的几个单词,看看大家都在研究些什么,那我收集好论文后,该怎么办呢? 方法一:我可以写一个小程序,把所有论文按顺序遍历一遍,统计每一个遇到的单词的出现次数,最后就可以知道哪几个单词最热门了...

大家正在搜

买树怎么算方简单算法简单算法简单排序算法简单选择排序算法百分比最简单的算法算法解释复算法解释算法可解释性九章算法对规律的解释