MapReduce的学习和使用

日期：2020-05-24 浏览：108 评论：0

核心提示：MapReduce的学习和使用本文是基于CentOS 7.3系统环境，进行MapReduce的学习和使用CentOS 7.31. MapReduce简介1.1 MapReduce定义MapReduce是一个分布式运算程序的编程框架，是基于Hadoop的数据分析计算的核心框架1.2 MapReduce处理过程主要分为两个阶段：Map和ReduceMap负责把一个任务分解成多个任务Reduce负责把分解后多任务处理的结果进行汇总1.3 MapReduce的优点1. MapRed大数据

MapReduce的学习和使用

本文是基于CentOS 7.3系统环境，进行MapReduce的学习和使用

CentOS 7.3

1. MapReduce简介

1.1 MapReduce定义

MapReduce是一个分布式运算程序的编程框架，是基于Hadoop的数据分析计算的核心框架

1.2 MapReduce处理过程

主要分为两个阶段：Map和Reduce

Map负责把一个任务分解成多个任务
Reduce负责把分解后多任务处理的结果进行汇总

1.3 MapReduce的优点

1. MapReduce易于编程
只需要实现一些简单接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式程序，就跟写一个简单的串行程序是一模一样的。
2. 良好的扩展性（hadoop的特点）
当你的计算资源不能满足的时候，你可以通过简单的增加机器（nodemanager）来扩展它的计算能力
3. 高容错性
MapReduce设计的初衷就是使程序能够部署在廉价的PC机器上，这就要求它具有很高的容错性，比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，不至于整个任务运行失败。
4. 适合PB级以上海量数据的离线处理
可以实现上千台服务器集群并发工作，提供数据处理能力

1.4 MapReduce的缺点

1. 不擅长实时计算
MapReduce无法像MySQL一样，在毫秒或者秒级内返回结果
2. 不擅长流式计算
流式计算的输入数据是动态的，而MapReduce的输入数据集是静态的，不能动态变化。这是因为MapReduce自身的设计特点决定了数据源必须是静态的
3. 不擅长DAG有向图计算
多个应用程序之间存在依赖关系，后一个应用程序的输入为前一个程序的输出。在这种情况下，每个MapReduce作业的输出结果都会写入到磁盘，会造成大量的磁盘IO，导致性能非常低下

1.5 MapReduce核心编程思想

分布式的运算程序往往需要分成至少2个阶段。
第一个阶段的MapTask并发实例，完全并行运行，互不相干。
第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。
MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段，如果用户的业务逻辑非常复杂，那就只能多个MapReduce程序，串行运行。

1.5 MapReduce进程

1. MrAppMaster
负责整个程序的过程调度及状态协调
2. MapTask
负责Map阶段的整个数据处理流程
3. ReduceTask
负责Reduce阶段的整个数据处理流程

打赏

所有权利归属于原作者，如文章来源标示错误或侵犯了您的权利请联系微信13520258486

更多>最近资讯中心

更多>最新资讯中心

0 条相关评论

• pyltp实现NER以及实体统计	• 文本函数知多少？
• Unity 游戏框架搭建 2019 (四十七) 集成到 Mono	• 撸项目没灵感，那是因为你没看过这个 GitHub 项
• 吴恩达深度学习——提高算法运行效率	• 街景字符编码识别项目学习笔记（三）torchvisio

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享
• STM32查询式按键输入[直接用寄存器]	• Ubuntu系统 USB设备端口绑定
• 2021-04-14 第四次按键输入实验	• Flutter扫码功能完美实现