Mapreduce模型为什么要分成map和reduce两个阶段？是为了任务的分配的细粒度吗？

如题所述

推荐答案 2014-02-28

是为了实现分布式计算，提高计算效率。
个人觉得一个需要处理大量数据集的任务，如果想提高计算效率，可以将任务分成多个小部分来进行，每个部分处理一部分数据，就像hadoop的map任务一样，但是很多情况下需要都是整个数据集进行计算操作，单单的分成每个单独的小部分虽然能提高计算效率，但是导致无法完成实际需求，是没有任何意义的，所以添加一个reduce阶段，负责将分成多个部分计算的结果汇总进行处理，使得更加的满足一般需求。当然这也不是万能的，很多情况下还是无法满足实际需求。这就是hadoop不是万能的原因，很多问题是无法使用hadoop进行处理的。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://77.wendadaohang.com/zd/YGGINvqI8YWvNIIW8WN.html

相似回答

索引,分区和分桶的区别答：数据会依照单个或多个列进行分区，通常按照时间、地域或者是商业维度进行分区。比如vido表，分区的依据可以是电影的种类和评级，另外，按照拍摄时间划分可能会得到更一致的结果。为了达到性能表现的一致性，对不同列的划分应该让数据尽可能均匀分布。最好的情况下，分区的划分条件总是能够对应where语句的部分...

大数据核心技术有哪些答：2、数据存储：Hadoop作为一个开源的框架，专为离线和大规模数据分析而设计，HDFS作为其核心的存储引擎，已被广泛用于数据存储。HBase，是一个分布式的、面向列的开源数据库，可以认为是hdfs的封装，本质是数据存储、NoSQL数据库。3、数据清洗：MapReduce作为Hadoop的查询引擎，用于大规模数据集的并行计算。4...

昌平电脑培训分享大数据的结构层级答：中间层——管控层管控层对Hadoop集群进行高效可靠的资源及数据管理。脱胎于MapReduce1.0的YARN已成为Hadoop2.0的通用资源管理平台。如何与容器技术深度融合，如何提高调度、细粒度管控和多租户支持的能力，是YARN需要进一步解决的问题。另一方面，Hortonworks的Ranger、Cloudera的Sentry和RecordService组件实现了...

Spark与Hadoop MapReduce大比拼,谁实力更强答：2、应用灵活，上手容易知道 AMPLab 的 Lester 为什么放弃 MapReduce 吗?因为他需要把很多精力放到Map和Reduce的编程模型上，极为不便。 Spark在简单的Map及Reduce操作之外，还支持 SQL 查询、流式查询及复杂查询，比如开箱即用的机器学习算法。同时，用户可以在同一个工作流中无缝地搭配这些能力，应用...

Spark RDD 分布式弹性数据集答：但是RDD由于是不可变的粗粒度的读写，更适合于批量读写的任务，其可以使用“血缘”机制恢复数据，减少了设置检查点的开销。如果出现失败时，也只用重新计算分区中丢失的那一部分。另一方面，RDD的不可变性可以让系统可以像mapreduce一样采用后备任务的方式来代替运行缓慢的任务，不会出现相互影响的情况。另...

科普Spark,Spark是什么,如何使用Spark答：不过由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。容错性在分布式数据集计算时通过checkpoint来实现容错，而checkpoint有两种方式，一个是checkpoint data，一个是logging the updates。用户可以控制采用哪种方式...

大数据应用模式及安全风险分析有哪些??答：而且基于ACL的访问控制策略粒度过粗，不能在MapReduce过程中以细粒度的方式保护用户隐私字段。况且针对不同的用户和不同应用，访问控制列表需要经常作对应的更改，这样的操作过于繁琐且不易维护。因此Hadoop自身的安全机制是不完善的。2.1 不同应用模式下CSP及Uers带来的安全风险云计算中Hadoop有多种应用...

大家正在搜

map和reduce阶段 sparkmap和reduce map和reduce的区别 map和reduce分别代表 map函数和reduce的功能 reduce decrease map和reduce代码实现方法 reduce什么意思 map实现reduce