当前位置:网站首页>基于HPC场景的集群任务调度系统LSF/SGE/Slurm/PBS
基于HPC场景的集群任务调度系统LSF/SGE/Slurm/PBS
2022-07-07 08:13:00 【正在输入中…………】
基于HPC场景的集群任务调度系统
目前市面上主流调度器有四大流派:LSF/SGE/Slurm/PBS。
不同行业因为使用习惯和不同调度器对应用的支持力度不同,往往会有不同的偏好:比如高校和超算经常用Slurm,半导体公司最常用的是LSF和SGE,工业制造业可能用PBS更多一些。
LSF流派
Spectrum LSF、PlatformLSF、OpenLava
基于LSF(Load Sharing Facility)的调度器主要有Spectrum LSF、PlatformLSF、OpenLava三家。
早期的LSF是由Toronto大学开发的Utopia系统发展而来。
2007年,Platform Computing基于早期老版本的LSF开源了一个简化版Platform Lava。
这个开源项目2011年中止了,被OpenLava接手。
2011年,Platform员工David Bigagli基于Platform Lava的派生代码创建了OpenLava 1.0。2014年,一些Platform的员工成立了Teraproc公司,为OpenLava提供开发和商业支持。2016年IBM就LSF版权对Teraproc公司发起诉讼,2018年IBM胜诉,OpenLava被禁用。
2011年,Platform Lava开源项目中止后。2012年1月,IBM收购了Platform Computing。Spectrum LSF就是IBM收购后推出的商用版本,目前更新到10.1.0,同时支持Linux和Windows,最大节点数超过6000,在国内提供商业支持。
Platform LSF是LSF的早期版本,与Spectrum LSF一样属于IBM,目前版本是9.1.3,目测已经停止更新以维护为主。
在这三个调度器中,仅有Spectrum LSF支持Auto-Scale集群自动伸缩功能,同时该调度器还可通过LSF resourceconnector实现溢出到云,支持云厂商包括AWS、Azure、Google Cloud。
SGE流派
UGE、SGE
基于SGE(Sun Grid Engine)的调度器包括UGE(Univa Grid Engine)和SGE(Son of Grid Engine)。
1993年,Grid Engine作为商业软件发布,先后使用了CODINE(Computing in Distributed Networked Environments)、GRD(Global Resource Director)作为名称。1999年,第一次由Genias Software推出市场,然后被Gridware公司收购。直到2000年被SUN收购之后正式改名Sun Grid Engine,2001年发布开源版。
2010年被Oracle收购后改名Oracle Grid Engine,改成闭源版,不提供源代码。原来开源项目的资料库禁止用户修改。
于是,Grid Engine社区开始开源版本的SGE(Son of Grid Engine)项目。该调度器最后一次更新为2016年的8.1.9,由于存在版权风险,SGE已长期无维护和更新。
2013年Univa收购了Oracle Grid Engine,成为唯一商业软件**UGE(Univa Grid Engine)**提供商。UGE最新版本为8.6.15,同时支持Linux和Windows,国内暂无商业支持的相关信息。
2020年9月,Altair收购了Univa。
用户可通过Univa产品Navops Launch把工作负载移到云端,同时支持UGE和Slurm集群。同时,Navops Launch支持AWS、Azure、Google Cloud等云厂商,并能进行云端费用监控以及Auto-Scale集群自动伸缩。
Slurm-四大流派里唯一纯开源派
Slurm全称为Simple Linux Utility for Resource Management,前期主要由劳伦斯利弗莫尔国家实验室、SchedMD、Linux NetworX、Hewlett-Packard 和 Groupe Bull 负责开发,受到闭源软件Quadrics RMS的启发。
Slurm最新版本为20.02,目前由社区和SchedMD公司共同维护,保持开源和免费,由SchedMD公司提供商业支持,仅支持Linux系统,最大节点数量超过12万。
Slurm拥有容错率高、支持异构资源、高度可扩展等优点,每秒可提交超过1000个任务,且由于是开放框架,高度可配置,拥有超过100种插件,因此适用性相当强。
全球60%的TOP500超算中心和超大规模集群(包括我国的天河二号等)都采用Slurm作为调度系统。我们的TOP500就是用Slurm调度云上资源跑的。
我们支持在Slurm上的集群自动伸缩和云端费用监控,并支持AWS、阿里云、Azure、腾讯云、华为云、Google Cloud等云厂商。
fastone的Auto-Scale功能可以自动监控用户提交的任务数量和资源的需求,动态按需地开启所需算力资源,在提升效率的同时有效降低成本。
PBS流派
OpenPBS、PBS PRO、Moab/TORQUE
基于PBS(Portable Batch System)的调度器包括OpenPBS、PBS PRO、Moab/TORQUE。
PBS最初是由MRJ Technology Solutions于 1991 年 6 月开始为 NASA 所研发的作业调度系统,MRJ于 20 世纪90 年代末被 Veridian 收购。2003年,Altair收购了Veridian,获得了PBS的技术和知识产权。
PBS Pro是Altair旗下PBS WORKS提供的商业版本,支持可视化界面,节点数超过50000个。
2016年Altair基于P****BS Pro提供了开源许可版本,其与MRJ于1998年发布的原始开源版本两者合二为一大致就是现在的OpenPBS。与Pro版本比,多了很多限制,但都支持Linux和Windows。
**Moab/TORQUE合在一起是一个完整调度器的功能,现在属于同一家公司Adaptive Computing。**90年代中期由MHPCC的David Jackson开发的Maui,他后来创立了Adaptive Computing。
Moab是Adaptive Computing 公司(前身为 Cluster Resources 公司开发的Maui Cluster Scheduler)维护的 OpenPBS 分支,2003年发布。该项目最初是开源免费的,后来变成了商用软件Moab后不再免费。
TORQUE(Terascale Open-source Resource and QUEue Manager)早期的 Torque 也是开源免费软件,不过 2018 年 6 月开始 TORQUE 不再开源。
两者均只支持Linux系统,提供可视化界面,拥有约数千个节点。
云服务方面,PBS Pro能通过Altair Control产品从本地溢出到多云和Auto-Scale集群自动伸缩,支持的云厂商包括AWS、Azure和Google Cloud。
Moab/TORQUE 则可通过 NODUSCloud OS 产品实现本地扩展到云,支持TORQUE 或 Slurm集群和自动伸缩,可支持的云厂商包括AWS、Azure、GoogleCloud 和华为云,并通过 Account Manager 产品实现云端费用监控。
QUE 或 Slurm集群和自动伸缩,可支持的云厂商包括AWS、Azure、GoogleCloud 和华为云,并通过 Account Manager 产品实现云端费用监控。
边栏推荐
- Bean operation domain and life cycle
- 2022.7.5DAY597
- 【acwing】786. 第k个数
- Study summary of postgraduate entrance examination in October
- 01 use function to approximate cosine function (15 points)
- Review of the losers in the postgraduate entrance examination
- 反卷积通俗详细解析与nn.ConvTranspose2d重要参数解释
- Bit operation ==c language 2
- SQLyog数据库怎么取消自动保存更改
- ArcGIS operation: batch modify attribute table
猜你喜欢
Es classes and objects, prototypes
Introduction to energy Router: Architecture and functions for energy Internet
Video based full link Intelligent Cloud? This article explains in detail what Alibaba cloud video cloud "intelligent media production" is
Fiddler break point
ORM -- database addition, deletion, modification and query operation logic
Programming features of ISP, IAP, ICP, JTAG and SWD
对存储过程进行加密和解密(SQL 2008/SQL 2012)
Wallys/IPQ6010 (IPQ6018 FAMILY) EMBEDDED BOARD WITH ON-BOARD WIFI DUAL BAND DUAL CONCURRENT
Encrypt and decrypt stored procedures (SQL 2008/sql 2012)
Postman interface test III
随机推荐
Google Colab装载Google Drive(Google Colab中使用Google Drive)
ORM model -- associated fields, abstract model classes
反卷积通俗详细解析与nn.ConvTranspose2d重要参数解释
ES6中的函数进阶学习
The Himalaya web version will pop up after each pause. It is recommended to download the client solution
[higherhrnet] higherhrnet detailed heat map regression code of higherhrnet
Easyexcel read write simple to use
Use the fetch statement to obtain the repetition of the last row of cursor data
Fiddler simulates the interface test
每周推荐短视频:L2级有哪些我们日常中经常会用到的功能?
ORM model -- creation and query of data records
ORM -- database addition, deletion, modification and query operation logic
Appx代碼簽名指南
AHB bus in stm32_ Apb2 bus_ Apb1 bus what are these
Mongodb creates an implicit database as an exercise
JMeter installation
01 use function to approximate cosine function (15 points)
Postman interface test I
【剑指Offer】42. 栈的压入、弹出序列
浅谈日志中的返回格式封装格式处理,异常处理