(Simple Linux Utility for Resource Management)是一种可扩展的工作负载管理器,已被全世界的国家超级计算机中心广泛采用。 它是免费且开源的,根据发行。
本文档将协助您通过 Slurm 管理作业。 在这里可以找到更多的工作样本。
如果我们可以提供任何帮助,请随时联系 。

节点状态包括:
(节点故障),(节点在用),(节点可用),(节点下线),(节点部分占用,但仍有剩余资源)。
查看总体资源信息:
作业状态包括(正在运行),(正在排队),(即将完成),(已完成)。
默认情况下,只会展示在排队或在运行的作业。
显示您自己账户下的作业:
选项可以显示更细节的信息。
准备作业脚本然后通过提交是 Slurm 的最常见用法。 为了将作业脚本提交给作业系统,Slurm 使用
Slurm 具有丰富的参数集。 以下最常用的。
这是一个名为的作业脚本,该脚本向cpu队列申请1个节点40核,并在作业完成时通知。在此作业中执行的命令是。
用以下方式提交作业:
可用于检查作业状态。用户可以在作业执行期间通过SSH登录到计算节点。输出将实时更新到文件[jobid] .out和[jobid] .err。
这里展示一个更复杂的作业要求,其中将启动80个进程,每台主机40个进程。
以下作业请求4张GPU卡,其中1个CPU进程管理1张GPU卡。
以下作业启动一个3任务序列(从0到2),每个任务需要1个CPU内核。关于集群上的Python,您可以查阅我们的。
可以启动交互式作业。该操作将阻塞,直到完成或终止。例如,在计算主机上运行。
启动远程主机bash终端:
或者,可以通过请求资源,然后在获取节点后登录到计算节点:
: 查看和修改作业参数
scontrol hold 命令可使排队中尚未运行的作业暂停被分配运行,被挂起的作业将不被执行。scontrol release 命令可取消挂起。
查看作业记录
默认情况下,sacct显示过去 24小时 的帐号作业信息。
查看更多的信息:
查看平均作业内存消耗和最大内存消耗:
到此这篇yarn命令查看队列资源(yarn命令查看进程)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/rfx/33785.html