当前位置:网站首页>Volcano 资源预留特性
Volcano 资源预留特性
2022-07-05 06:26:00 【寻花之梦~~】
Volcano是一个基于Kubernetes的云原生批量计算平台,也是CNCF的首个批量计算项目。
Volcano 主要用于AI、大数据、基因、渲染等诸多高性能计算场景,对主流通用计算框架均有很好的支持。它提供高性能计算任务调度,异构设备管理,任务运行时管理等能力。本篇文章将深度剖析Volcano重要特性之——资源预留。
官方github地址: https://github.com/volcano-sh/volcano
简介
资源预留(Reservation)是批处理系统的一类常见需求,也是公平性调度(Fair Scheduling)的补充。从不同维度来看,资源预留可以分为抢占式预留和非抢占式预留、作业资源预留和队列资源预留、即时预留和预见性预留等。
自v1.1.0开始,Volcano开始迭代支持资源预留特性。根据社区Roadmap,v1.1.0(已发布)优先支持作业资源预留,v1.2.0将支持指定队列资源预留。
此特性v1.2版本之后已被弃用。
场景分析
在实际应用中,常见以下两种场景:
(1)在集群资源不足的情况下,假设处于待调度状态的作业A和B,A资源申请量小于B或A优先级高于B。基于默认调度策略,A将优先于B进行调度。在最坏的情况下,若后续持续有高优先级或申请资源量较少的作业加入待调度队列,B将长时间处于饥饿状态并永远等待下去。
(2)在集群资源不足的情况下,假设存在待调度作业A和B。A优先级低于B但资源申请量小于B。在基于集群吞吐量和资源利用率为核心的调度策略下,A将优先被调度。在最坏的情况下,B将持续饥饿下去。
以上两种场景出现的根因是缺少一种公平调度机制:保证长期处于饥饿状态的作业在达到某个临界条件后被优先调度。造成作业持久饥饿的原因很多,包括资源申请量长时间无法满足、优先级持续过低、抢占发生频率过高、亲和性无法满足(v1.1.0暂不支持此场景)等,以资源申请量无法满足最为常见。
特性设计
为了保证长期处于阻塞状态的作业能够拥有公平的调度机会,需要解决两个主要问题:
- 如何识别目标作业?
- 如何为目标作业预留资源?
目标作业识别
- 作业条件
作业条件的选定可以基于等待时间、资源申请量等单个维度或多个维度的组合。综合考虑,v1.1.0实现版本选择优先级最高且等待时间最长的作业作为目标作业。这样不仅可以保证紧急任务优先被调度,等待时间长度的考虑默认筛选出了资源需求较多的作业。 - 作业数量
客观来说,满足条件的作业通常不止一个,可以为目标作业组或单个目标作业预留资源。考虑到资源预留必然引起调度器性能在吞吐量和延时等方面的影响,v1.1.0采用了单个目标作业的方式。 - 识别方式
识别方式有两种:自定义配置和自动识别。v1.1.0暂时仅支持自动识别方式,即调度器在每个调度周期自动识别符合条件和数量的目标作业,并为其预留资源。后续版本将考虑在全局和Queue粒度支持自定义配置。
资源预留算法
资源预留算法是整个特性的核心。v1.1.0采用节点组锁定的方式为目标作业预留资源,即选定一组符合某些约束条件的节点纳入节点组,节点组内的节点从纳入时刻起不再接受新作业投递,节点规格总和满足目标作业要求。需要强调的是,目标作业将可以在整个集群中进行调度,非目标作业仅可使用节点组外的节点进行调度。
- 节点选取
在特性设计阶段,社区考虑过以下节点选取算法:规格优先、空闲优先。
【规格优先】是指集群中所有节点按照主要规格(目标作业申请资源规格)进行降序排序,选取前N个节点纳入节点组,这N个节点的资源总量满足申请量。这种方式的优点是实现简单、锁定节点数量最小化、对目标作业的调度友好(这种方式锁定的资源总量往往比申请总量大一些,且作业中各Pod容易聚集调度在锁定节点,有利于Pod间通信等);缺点是锁定资源总量大概率不是最优解、综合调度性能损失(吞吐量、调度时长)、易产生大资源碎片。v1.1.0的实现采用的是该算法。
【空闲优先】是指集群中所有节点按照主要资源类型(目标作业申请资源类型)的空闲资源量进行降序排序,选取前N个节点纳入节点组,这N个节点的资源总量满足申请量。这种方式的优点是较大概率最快腾出满足要求的资源总量;缺点是集群空闲资源分布的强动态性导致节点组不是最优解,所求解稳定性差。
- 节点数量
为了尽可能减少锁定操作对调度器综合性能的影响,在满足预留资源申请量的前提下,无论采用哪种节点选取算法,都应保证所选节点数最少。
- 锁定方式
锁定方式包括两个核心考量点:并行锁定数量、锁定节点已有负载处理手段。
并行锁定数量有三个选择:单节点锁定、多节点锁定、集群锁定。
【单节点锁定】是指每个调度周期内基于当前集群资源分布选定一个符合要求的节点纳入节点组。这种方式可以尽量减少资源分布波动对所求解的稳定性的影响,缺点是要经过较多的调度周期才能完成锁定过程。v1.1.0的实现选择的是这种方式。
以此类推,
【多节点锁定】是指每个调度周期内选定X(X>1)个满足条件的节点进行锁定。这种方式能一定程度上弥补单节点锁定引入的锁定时长过长问题,缺点是X不易找到最优值,实现复杂度高。
【集群锁定】是指一次性锁定集群所有节点,直至目标作业完成调度。这种粗暴的方式实现最为简单,目标作业等待时间最短,非常适合超大目标作业的资源预留。
【锁定节点】已有负载的处理手段有两种:抢占式预留、非抢占式预留。顾名思义,抢占式预留将会强制驱逐锁定节点上的已有负载。这种方式可以保证最快腾出所需的资源申请量,但会对已有业务造成重大影响,因此仅适用于紧急任务的资源预留。非抢占式预留则在节点锁定后不做任何处理,等待运行在其上的负载自行结束。v1.1.0采用的是非抢占式预留。
最佳实践
基于v1.1.0的实现,社区当前仅支持目标作业的自动化识别与资源预留。为此,新引入了2个action和1个plugin。elect action用于选取目标作业;reserve action用于执行资源预留动作;reservation plugin中实现了具体的目标选取和资源预留逻辑。
若要开启资源预留特性,将以上action和plugin配置到volcano的配置文件中即可。
推荐配置样例:
actions: "enqueue, elect, allocate, backfill, reserve"
tiers:
- plugins:
- name: priority
- name: gang
- name: conformance
- name: reservation
- plugins:
- name: drf
- name: predicates
- name: proportion
- name: nodeorder
- name: binpack
自行配置时,请注意以下事项:
elect action必须配置在enqueue action和allocate action之间
reserve action必须配置在allocate action之后
由于目标作业的识别、选取、资源预留都是自动化完成,整个过程在用户侧完全透明,可通过scheduler日志查看到整个过程。
附生产配置样例:
actions: "enqueue, reserve, allocate, backfill, preempt"
tiers:
- plugins:
- name: reserveresource
arguments:
reserve.cpu: 1
reserve.memory: 2Gi
- plugins:
- name: priority
- name: gang
- name: conformance
- plugins:
- name: predicates
- name: nodeorder
arguments:
nodeaffinity.weight: 20
podaffinity.weight: 20
bizaffinity.weight: 100
resourcefit.weight: 20
leastrequested.weight: 0
balancedresource.weight: 1
imagelocality.weight: 1
similaraffinity.weight: 1
- name: preemptnodeorder
- name: binpack
arguments:
binpack.weight: 10
binpack.cpu: 1
binpack.memory: 1
binpack.resources: nvidia.com/gpu,tencent.com/vcuda-core
binpack.resources.nvidia.com/gpu: 5
binpack.resources.tencent.com/vcuda-core: 5
参考资料:https://mp.weixin.qq.com/s/_KYdmJq_qpuaYx7ZwJ3Z2Q
边栏推荐
- How to answer when you encounter a jet on CSDN?
- AE tutorial - path growth animation
- 4. Oracle redo log file management
- Sorting out the latest Android interview points in 2022 to help you easily win the offer - attached is the summary of Android intermediate and advanced interview questions in 2022
- LSA Type Explanation - detailed explanation of lsa-2 (type II LSA network LSA) and lsa-3 (type III LSA network Summary LSA)
- 【高德地图POI踩坑】AMap.PlaceSearch无法使用
- Rehabilitation type force deduction brush question notes D1
- Page type
- Alibaba's new member "Lingyang" officially appeared, led by Peng Xinyu, Alibaba's vice president, and assembled a number of core department technical teams
- Record of problems in ollvm compilation
猜你喜欢
1.手动创建Oracle数据库
20220213-CTF MISC-a_ good_ Idea (use of stegsolve tool) -2017_ Dating_ in_ Singapore
cgroup_ memcg
LSA Type Explanation - detailed explanation of lsa-2 (type II LSA network LSA) and lsa-3 (type III LSA network Summary LSA)
5. Oracle tablespace
GDB code debugging
Rehabilitation type force deduction brush question notes D2
Some classic recursion problems
容斥原理 AcWing 890. 能被整除的数
数据库Mysql全部
随机推荐
Ffmpeg build download (including old version)
La redirection de l'applet Wechat ne déclenche pas onload
What is linting
Adg5412fbruz-rl7 applies dual power analog switch and multiplexer IC
容斥原理 AcWing 890. 能被整除的数
Vant weave swipecell sets multiple buttons
Markdown syntax
论文阅读报告
How to correctly ask questions in CSDN Q & A
微信小程序路由再次跳转不触发onload
LSA Type Explanation - detailed explanation of lsa-2 (type II LSA network LSA) and lsa-3 (type III LSA network Summary LSA)
Chinese remainder theorem acwing 204 Strange way of expressing integers
Package webapp or H5 pages into apps
Knapsack problem acwing 9 Group knapsack problem
Relevant information of National Natural Science Foundation of China
达梦数据库全部
Vant Weapp SwipeCell設置多個按鈕
how to understand the “model independent.“
Alibaba's new member "Lingyang" officially appeared, led by Peng Xinyu, Alibaba's vice president, and assembled a number of core department technical teams
3.Oracle-控制文件的管理