yarn 打包命令（yarn application -list）

在Spark中，有Yarn-Client和Yarn-Cluster两种模式可以运行在Yarn上，通常Yarn-cluster适用于生产环境，而Yarn-Cluster更适用于交互，调试模式，以下是它们的区别

Spark插拨式资源管理

Spark支持Yarn,Mesos,Standalone三种集群部署模式，它们的共同点：Master服务(Yarn ResourceManager,Mesos master,Spark standalone)来决定哪些应用可以运行以及在哪什么时候运行，Slave服务(Yarn NodeManger)运行在每个节点上，节点上实际运行着Executor进程，此外还监控着它们的运行状态以及资源的消耗

Spark On Yarn的优势

1. Spark支持资源动态共享，运行于Yarn的框架都共享一个集中配置好的资源池

2. 可以很方便的利用Yarn的资源调度特性来做分类·，隔离以及优先级控制负载，拥有更灵活的调度策略

3.Yarn可以自由地选择executor数量

4.Yarn是唯一支持Spark安全的集群管理器，使用Yarn，Spark可以运行于Kerberized Hadoop之上，在它们进程之间进行安全认证

Yarn-cluster VS Yarn-client

当在Spark On Yarn模式下，每个Spark Executor作为一个Yarn container在运行，同时支持多个任务在同一个container中运行，极大地节省了任务的启动时间

Appliaction Master

为了更好的理解这两种模式的区别先了解下Yarn的Application Master概念，在Yarn中，每个application都有一个Application Master进程，它是Appliaction启动的第一个容器，它负责从ResourceManager中申请资源，分配资源，同时通知NodeManager来为Application启动container，Application Master避免了需要一个活动的client来维持，启动Applicatin的client可以随时退出，而由Yarn管理的进程继续在集群中运行

yarn 和 lerna 结合使用 yarn-client和yarn-cluster的区别_spark

Yarn-cluster

在Yarn-cluster模式下，driver运行在Appliaction Master上，Appliaction Master进程同时负责驱动Application和从Yarn中申请资源，该进程运行在Yarn container内，所以启动Application Master的client可以立即关闭而不必持续到Application的生命周期，下图是yarn-cluster模式

yarn 和 lerna 结合使用 yarn-client和yarn-cluster的区别_yarn_02

Yarn-cluster模式下作业执行流程：

1. 客户端生成作业信息提交给ResourceManager(RM)

2. RM在某一个NodeManager(由Yarn决定)启动container并将Application Master(AM)分配给该NodeManager(NM)

3. NM接收到RM的分配，启动Application Master并初始化作业，此时这个NM就称为Driver

4. Application向RM申请资源，分配资源同时通知其他NodeManager启动相应的Executor

5. Executor向NM上的Application Master注册汇报并完成相应的任务

Yarn-client

在Yarn-client中，Application Master仅仅从Yarn中申请资源给Executor，之后client会跟container通信进行作业的调度，下图是Yarn-client模式

yarn 和 lerna 结合使用 yarn-client和yarn-cluster的区别_yarn 和 lerna 结合使用_03

Yarn-client模式下作业执行流程：

1. 客户端生成作业信息提交给ResourceManager(RM)

2. RM在本地NodeManager启动container并将Application Master(AM)分配给该NodeManager(NM)

3. NM接收到RM的分配，启动Application Master并初始化作业，此时这个NM就称为Driver

4. Application向RM申请资源，分配资源同时通知其他NodeManager启动相应的Executor

5. Executor向本地启动的Application Master注册汇报并完成相应的任务

下表是Spark Standalone与Spark On Yarn模式下的比较

yarn 和 lerna 结合使用 yarn-client和yarn-cluster的区别_重启_04

注意：

总结来说：yarn-client 与yarn-cluster的区别就在于driver所在的位置，yarn-client driver运行在client端 yarn-cluster driver 运行在Application Manager内 client模式适合开发 cluster模式适合正式环境

其中deploy-mode是针对集群而言的，是指集群部署的模式，根据Driver主进程放在哪分为两种方式：client和cluster，默认是client，下面我们就详细研究一下这两种模式的区别

yarn 和 lerna 结合使用 yarn-client和yarn-cluster的区别_重启_05

首先明白几个基本概念：Master节点就是你用来提交任务，即执行bin/spark-submit命令所在的那个节点；Driver进程就是开始执行你Spark程序的那个Main函数，虽然我这里边画的Driver进程在Master节点上，但注意Driver进程不一定在Master节点上，它可以在任何节点；Worker就是Slave节点，Executor进程必然在Worker节点上，用来进行实际的计算

1、client mode下Driver进程运行在Master节点上，不在Worker节点上，所以相对于参与实际计算的Worker集群而言，Driver就相当于是一个第三方的“client”

2、正由于Driver进程不在Worker节点上，所以其是独立的，不会消耗Worker集群的资源

3、client mode下Master和Worker节点必须处于同一片局域网内，因为Drive要和Executorr通信，例如Drive需要将Jar包通过Netty HTTP分发到Executor，Driver要给Executor分配任务等

4、client mode下没有监督重启机制，Driver进程如果挂了，需要额外的程序重启

yarn 和 lerna 结合使用 yarn-client和yarn-cluster的区别_初始化_06

1、Driver程序在worker集群中某个节点，而非Master节点，但是这个节点由Master指定

2、Driver程序占据Worker的资源

3、cluster mode下Master可以使用–supervise对Driver进行监控，如果Driver挂了可以自动重启

4、cluster mode下Master节点和Worker节点一般不在同一局域网，因此就无法将Jar包分发到各个Worker，所以cluster mode要求必须提前把Jar包放到各个Worker几点对应的目录下面

是选择client mode还是cluster mode呢？

一般来说，如果提交任务的节点（即Master）和Worker集群在同一个网络内，此时client mode比较合适

如果提交任务的节点和Worker集群相隔比较远，就会采用cluster mode来最小化Driver和Executor之间的网络延迟

到此这篇yarn 打包命令（yarn application -list）的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章，希望大家都能在编程的领域有一番成就！

上一篇： pointnet代码（pointrend代码）

下一篇： ip15promax屏幕尺寸（苹果promax屏幕尺寸）

版权声明：
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符，请将相关资料发送至xkadmin@xkablog.com进行投诉反馈，一经查实，立即处理！

转载请注明出处，原文链接：https://www.xkablog.com/rfx/28896.html

相关文章：