当前位置:网站首页>SRE核心体系了解
SRE核心体系了解
2022-07-05 06:26:00 【寻花之梦~~】
文章目录
参考B站视频资料链接
https://www.bilibili.com/video/BV1ak4y1975Z?spm_id_from=333.1007.top_right_bar_window_custom_collection.content.clickSRE源头
SRE是什么?
- SRE-全称”Site Reliability Engineering“,站点可靠性工程,起源于2003年
- 一个可靠的运维大规模系统的框架
- 就是让软件工程师来设计运维功能所发生的事情
- 在运维层次上负责生产系统的运行
- 构建和运行高可靠性系统的、普遍适用的最佳方式
什么不是SRE?
- SRE原理听着不错,但是,它在我们这里水土不服,南橘北枳,它只能在特定文化里生长,只对超大规模才有意义
- SRE vs DevOps,两者有冲突,谁更好?应该选择哪个方向
- 可以把传统工程师和团队的名字改名为SRE 工程师/团队/部门
SRE体系结构的五大根基
SLO是什么?
- 系统的服务质量目标定义了系统应当具有的正常表现
- 专注于跟踪客户(人/机)的使用体验
- 假如客户是满意的,那么SLO就达标了
系统需要的uptime是几个9?
- 2个9是:99%
- 3个9是:99.9%
- 4个9是:99.99%
- 5个9是:99.999%
- 6个9是:99.9999%
- 7个9是:99.99999%
SLA Uptime在线计算器:
https://www.xarg.org/tools/sla-uptime-calculator/
SLO级别分布
将SLI度量数值转换成SLO百分位
面对SLI的度量,监控指标的单位本来就是不一致的;
- 网卡流量MB/s、磁盘写入write/s、HTTP响应ms、网站首页打开时间多少s等等
持续度量SLI的数值,并将采集到的SLI数值换算为在不同百分位上的数值:
- 在最近10分钟内,SLI-首页打开时间,P90(90%)均值为259ms
- 在最近10分钟内,SLI-首页打开时间,P99(99%)均值为589ms
- 在最近10分钟内,SLI-磁盘写入,P90(90%)均值为45 write/s
- 在最近10分钟内,SLI-磁盘写入,P99(99%)均值为12 write/s
思考
SLI度量数值在P90和P99的分布状态,客户满意吗?
错误预算的逻辑
吃鸡游戏案例分析
实施面向SLO的系统监控
采集负载均衡器的指标
CloudWatch可以提供采集数据
github地址:https://github.com/prometheus/cloudwatch_exporter
用Prometheus监控工具的notation表示SLI,部分示例代码如下:
指标计算
使用4周的数据计算初始SLO
建立SLO相关文档和沟通流程
- 为手游应用系统建立正式的《SLO文档》
–获得所有利益干系者的认可:产品经理、开发人员、运维人员 - 建立《出错预算策略》文档
–面向后果的,得到管理层的授权,SRE有权叫停特性的交付,有权将系统的运维工作退回给开发团队 - 建立SLO的监控仪表面板、报表和错误预算燃尽图
- 持续优化SLO目标的设置,持续优化监控方式
基于SLO和错误预算的决策
SRE工作原则
SRE需要设计和实施面向后果的SLO。
任何组织,甚至连一个SRE都不用雇,就能够设计错误预算策略。
这意味着识别和利用任何能够防范客户遭遇痛点使用体验的抓手。
你就可以开始实施:度量、负责、行动
SRE需要有时间进行优化改善。
一旦SRE人员就绪:就要确保他们知道,他们的工作不是继续遭遇运维工作的罪,而是每天都优化运维工作。
”更聪明的工作“可能意味着做不同的事情:这要看SRE能找到什么最有用最有价值的工作事项。
SRE需要有能力调控他们的工作负载。
SRE团队需要能够安排优先级并开展工作。
每一个新系统的维护都需要人力成本。
必须能够压制不可靠的工作实践,推回不可靠的系统。
边栏推荐
- [learning] database: several cases of index failure
- 4.Oracle-重做日志文件管理
- Find the combination number acwing 889 01 sequence meeting conditions
- Ffmpeg build download (including old version)
- Markdown syntax
- Record of problems in ollvm compilation
- Knapsack problem acwing 9 Group knapsack problem
- 2. Addition and management of Oracle data files
- [2021]GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields
- 微信小程序路由再次跳轉不觸發onload
猜你喜欢
求组合数 AcWing 889. 满足条件的01序列
[wustctf2020] plain_ WP
NVM Downloading npm version 6.7.0... Error
TCP's understanding of three handshakes and four waves
Rehabilitation type force deduction brush question notes D1
MPLS experiment
Redis-01. First meet redis
20220213-CTF MISC-a_ good_ Idea (use of stegsolve tool) -2017_ Dating_ in_ Singapore
Rehabilitation type force deduction brush question notes D2
All English in the code
随机推荐
6-2 sequence table operation set
时间很快,请多做有意义的事情
‘mongoexport‘ 不是内部或外部命令,也不是可运行的程序 或批处理文件。
Bit of MySQL_ OR、BIT_ Count function
在新线程中使用Handler
Record of problems in ollvm compilation
MQClientException: No route info of this topic: type_ topic
2022-5-the fourth week daily
H5内嵌App适配暗黑模式
达梦数据库全部
求组合数 AcWing 887. 求组合数 III
What is socket? Basic introduction to socket
数据库Mysql全部
TCP's understanding of three handshakes and four waves
Adg5412fbruz-rl7 applies dual power analog switch and multiplexer IC
2048项目实现
2.Oracle-数据文件的添加及管理
Redis-02. Redis command
[Chongqing Guangdong education] 1185t administrative leadership reference test of National Open University in autumn 2018
[algorithm post interview] interview questions of a small factory