当前位置:网站首页>云原生混部最后一道防线:节点水位线设计
云原生混部最后一道防线:节点水位线设计
2022-07-06 18:34:00 【InfoQ】
引言
为什么需要单机水位线


水位线的分级

驱逐条件:基于满足度的驱逐模式

- 在 t1 时间,总资源利用率达到压制水位线的时候,对低优先级的任务进行压制,保证整体资源利用率在压制水位线之下,此时低优任务不会再被调度进来
- 在 t3 时间,总资源利用率开始进一步上升,达到驱逐水位线时,会对低优任务进行删除和驱逐的处理,保证高/中优的资源使用
- 内存的驱逐必须是实时的,因为节点上内存不足,会导致高/中优任务内存不足而 OOM
- 这个延迟时间并不好配置,配的短了没有效果,配了长了反而会引起低优 Pod 长期“饥饿”而造成低优 Pod 运行时间更长
- 如果在一个节点上,有多个低优 Pod 都在运行,是否要驱逐所有的低优 Pod?是否可能尽量的少驱逐 Pod?
- 窗口期:获取 CPU 利用率的时间窗口(例如 5 分钟),在窗口时间的平均 CPU 利用率超过驱逐水位线,则开始驱逐,可以避免抖动
- 低优 Pod 资源满足率:= 低优 Pod 实际资源使用量/低优 Pod Request 资源量
- 低优 Pod 满足率下限:一个百分比值,低于这个值的认为低优 Pod 的资源供给不足
- 窗口期内:平均低优 Pod 资源满足率 < 低优 Pod 满足率下限
- 窗口期内:低优 Pod 平均 CPU 利用率接近 100%(如 90% 或者 80%)
- 当前时间:平均低优 Pod 资源满足率 < 低优 Pod 满足率下限
- 最近时间:BE CPU 利用率接近100%(如 90% 或者 80%)
- 优先驱逐调度优先级 Priority 低的 Pod(是的,即使是低优 Pod,我们还是可以按照数值来细分不同的调度优先级)
- 如果 2 个 Pod 调度优先级一致,则计算驱逐哪一个 Pod 带来的资源释放更多,优先驱逐能释放更多资源的
展望:是否有更好的设计?
相关解决方案介绍
边栏推荐
- 机器人队伍学习方法,实现8.8倍的人力回报
- FLIR blackfly s industrial camera: synchronous shooting of multiple cameras through external trigger
- ROS learning (XIX) robot slam function package cartographer
- Ds-5/rvds4.0 variable initialization error
- 猫猫回收站
- Unicode string converted to Chinese character decodeunicode utils (tool class II)
- Recognition of C language array
- FLIR blackfly s usb3 industrial camera: white balance setting method
- 传感器:DS1302时钟芯片及驱动代码
- Processing image files uploaded by streamlit Library
猜你喜欢

JS how to quickly create an array with length n

ROS learning (21) robot slam function package -- installation and testing of orbslam

Centos8 install MySQL 8.0 using yum x

阿里云中间件开源往事

使用Ceres进行slam必须要弄清楚的几个类和函数

Jacob Steinhardt, assistant professor of UC Berkeley, predicts AI benchmark performance: AI has made faster progress in fields such as mathematics than expected, but the progress of robustness benchma

Ros Learning (23) Action Communication Mechanism

FLIR blackfly s industrial camera: auto exposure configuration and code

CISP-PTE之命令注入篇

解密函数计算异步任务能力之「任务的状态及生命周期管理」
随机推荐
sql中批量删除数据---实体中的集合
NPM install compilation times "cannot read properties of null (reading 'pickalgorithm')“
微服务架构介绍
机器人队伍学习方法,实现8.8倍的人力回报
ROS学习(26)动态参数配置
[unique] what is the [chain storage structure]?
Blue Bridge Cup 2022 13th provincial competition real topic - block painting
ROS learning (25) rviz plugin
Telnet,SSH1,SSH2,Telnet/SSL,Rlogin,Serial,TAPI,RAW
When grep looks for a process, it ignores the grep process itself
UC伯克利助理教授Jacob Steinhardt预测AI基准性能:AI在数学等领域的进展比预想要快,但鲁棒性基准性能进展较慢
ROS学习(22)TF变换
freeswitch拨打分机号源代码跟踪
Baidu flying general BMN timing action positioning framework | data preparation and training guide (Part 2)
ROS学习(二十)机器人SLAM功能包——rgbdslam的安装与测试
FLIR blackfly s usb3 industrial camera: white balance setting method
JS Es5 can also create constants?
长安链学习笔记-证书研究之证书模式
Centros 8 installation MySQL Error: The gpg Keys listed for the "MySQL 8.0 Community Server" repository are already ins
Compile command line terminal swift