Yarn快速系列入门(3) | Yarn和MapReduce的作业提交全过程

   日期:2020-05-02     浏览:97    评论:0    
核心提示:本篇博文,博主为大家介绍Yarn和MapReduce的作业提交全过程。目录一. Yarn的作业提交过大数据

本篇博文,博主为大家介绍Yarn和MapReduce的作业提交全过程。

目录

  • 一. Yarn的作业提交过程
    • 1.1 作业提交
    • 1.2 作业初始化
    • 1.3 任务分配
    • 1.4 任务运行
    • 1.5 进度和状态更新
    • 1.6 作业完成
  • 二. MapReduce的作业提交过程(在此只图片说明)

一. Yarn的作业提交过程


作业提交全过程详解

1.1 作业提交

  • 第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。
  • 第2步:Client向RM申请一个作业id。
  • 第3步:RM给Client返回该job资源的提交路径和作业id。
  • 第4步:Client提交jar包、切片信息和配置文件到指定的资源提交路径。
  • 第5步:Client提交完资源后,向RM申请运行MrAppMaster。

1.2 作业初始化

  • 第6步:当RM收到Client的请求后,将该job添加到容量调度器中。
  • 第7步:某一个空闲的NM领取到该Job。
  • 第8步:该NM创建Container,并产生MRAppmaster。
  • 第9步:下载Client提交的资源到本地。

1.3 任务分配

  • 第10步:MrAppMaster向RM申请运行多个MapTask任务资源。
  • 第11步:RM将运行MapTask任务分配给另外两个NodeManager,另两个NodeManager分别领取任务并创建容器。

1.4 任务运行

  • 第12步:MR向两个接收到任务的NodeManager发送程序启动脚本,这两个NodeManager分别启动MapTask,MapTask对数据分区排序。
  • 第13步:MrAppMaster等待所有MapTask运行完毕后,向RM申请容器,运行ReduceTask。
  • 第14步:ReduceTask向MapTask获取相应分区的数据。
  • 第15步:程序运行完毕后,MR会向RM申请注销自己。

1.5 进度和状态更新

  • YARN中的任务将其进度和状态(包括counter)返回给应用管理器,客户端每秒(通mapreduce.client.progressmonitor.pollinterval设置)向应用管理器请求进度更新,展示给用户。

1.6 作业完成

  除了向应用管理器请求作业进度外, 客户端每5秒都会通过调用waitForCompletion()来检查作业是否完成。时间间隔可以通过mapreduce.client.completion.pollinterval来设置。作业完成之后, 应用管理器和Container会清理工作状态。作业的信息会被作业历史服务器存储以备之后用户核查。

二. MapReduce的作业提交过程(在此只图片说明)


好了,本次关于Yarn和MapReduce的作业提交全过程的内容就介绍到这里。下一篇文章将为大家介绍Yarn调度器,敬请期待!

   看 完 就 赞 , 养 成 习 惯 ! ! ! \color{#FF0000}{看完就赞,养成习惯!!!} ^ _ ^ ️ ️ ️
  码字不易,大家的支持就是我坚持下去的动力。点赞后不要忘了关注我哦!

 
打赏
 本文转载自:网络 
所有权利归属于原作者,如文章来源标示错误或侵犯了您的权利请联系微信13520258486
更多>最近资讯中心
更多>最新资讯中心
0相关评论

推荐图文
推荐资讯中心
点击排行
最新信息
新手指南
采购商服务
供应商服务
交易安全
关注我们
手机网站:
新浪微博:
微信关注:

13520258486

周一至周五 9:00-18:00
(其他时间联系在线客服)

24小时在线客服