当前位置:网站首页>云原生混部最后一道防线:节点水位线设计
云原生混部最后一道防线:节点水位线设计
2022-07-06 18:34:00 【InfoQ】
引言
为什么需要单机水位线
水位线的分级
驱逐条件:基于满足度的驱逐模式
- 在 t1 时间,总资源利用率达到压制水位线的时候,对低优先级的任务进行压制,保证整体资源利用率在压制水位线之下,此时低优任务不会再被调度进来
- 在 t3 时间,总资源利用率开始进一步上升,达到驱逐水位线时,会对低优任务进行删除和驱逐的处理,保证高/中优的资源使用
- 内存的驱逐必须是实时的,因为节点上内存不足,会导致高/中优任务内存不足而 OOM
- 这个延迟时间并不好配置,配的短了没有效果,配了长了反而会引起低优 Pod 长期“饥饿”而造成低优 Pod 运行时间更长
- 如果在一个节点上,有多个低优 Pod 都在运行,是否要驱逐所有的低优 Pod?是否可能尽量的少驱逐 Pod?
- 窗口期:获取 CPU 利用率的时间窗口(例如 5 分钟),在窗口时间的平均 CPU 利用率超过驱逐水位线,则开始驱逐,可以避免抖动
- 低优 Pod 资源满足率:= 低优 Pod 实际资源使用量/低优 Pod Request 资源量
- 低优 Pod 满足率下限:一个百分比值,低于这个值的认为低优 Pod 的资源供给不足
- 窗口期内:平均低优 Pod 资源满足率 < 低优 Pod 满足率下限
- 窗口期内:低优 Pod 平均 CPU 利用率接近 100%(如 90% 或者 80%)
- 当前时间:平均低优 Pod 资源满足率 < 低优 Pod 满足率下限
- 最近时间:BE CPU 利用率接近100%(如 90% 或者 80%)
- 优先驱逐调度优先级 Priority 低的 Pod(是的,即使是低优 Pod,我们还是可以按照数值来细分不同的调度优先级)
- 如果 2 个 Pod 调度优先级一致,则计算驱逐哪一个 Pod 带来的资源释放更多,优先驱逐能释放更多资源的
展望:是否有更好的设计?
相关解决方案介绍
边栏推荐
- 处理streamlit库上传的图片文件
- Threadlocalutils (tool class IV)
- Flir Blackfly S 工业相机:通过外部触发实现多摄像头同步拍摄
- Ros Learning (23) Action Communication Mechanism
- Integrated navigation: product description and interface description of zhonghaida inav2
- Analyze "C language" [advanced] paid knowledge [End]
- When grep looks for a process, it ignores the grep process itself
- Redis configuration class redisconfig
- Web开发小妙招:巧用ThreadLocal规避层层传值
- Get to know MySQL for the first time
猜你喜欢
Flir Blackfly S 工业相机 介绍
Flir Blackfly S工业相机:颜色校正讲解及配置与代码设置方法
ROS学习(25)rviz plugin插件
ROS学习(十九)机器人SLAM功能包——cartographer
Robot team learning method to achieve 8.8 times human return
张平安:加快云上数字创新,共建产业智慧生态
Vingt - trois mille feuilles? "Yang mou" derrière l'explosion de la consommation végétale
MySQL execution process and sequence
一文带你走进【内存泄漏】
ROS学习(23)action通信机制
随机推荐
红外相机:巨哥红外MAG32产品介绍
Big guys gather | nextarch foundation cloud development meetup is coming!
The GPG keys listed for the "MySQL 8.0 community server" repository are already ins
FLIR blackfly s industrial camera: synchronous shooting of multiple cameras through external trigger
How did partydao turn a tweet into a $200million product Dao in one year
Recent applet development records
JVM memory model
Box stretch and pull (left-right mode)
ROS learning (21) robot slam function package -- installation and testing of orbslam
ROS学习(21)机器人SLAM功能包——orbslam的安装与测试
String to date object
ROS learning (24) plugin
ROS学习(25)rviz plugin插件
Reptile practice (VI): novel of climbing pen interesting Pavilion
1500万员工轻松管理,云原生数据库GaussDB让HR办公更高效
Flir Blackfly S 工业相机:配置多个摄像头进行同步拍摄
uva 1401 dp+Trie
HDU 4661 message passing (wood DP & amp; Combinatorics)
Ds-5/rvds4.0 variable initialization error
Introduction to RC oscillator and crystal oscillator