当前位置:网站首页>IT系统为什么需要可观测性?
IT系统为什么需要可观测性?
2022-07-26 20:16:00 【云杉网络】
01 | 争论
IT领域中,可观测性(observability)的争论源于2017年Peter Bourgon(Go Kit 作者)的一篇文章《Metrics, tracing, and logging》。文中将可观测性问题映射到了如何处理指标(metrics)、追踪(tracing)、日志(logging)三类数据上。其后,Cindy Sridharan在其著作《Distributed Systems Observability》中,进一步讲到指标、追踪、日志是可观测性的三大支柱(three pillars)。云监控领域的领导者,Datadog也在其网站上用三大支柱来阐述可观测性。
三大支柱流传甚广,很大程度是因为,明确数据类型和优化处理方法,是广大开发者们最易理解的方式。但三大支柱只是讲到了如何实现可观测性,而非为何要采用可观测性。Ben Sigelman (Google Dapper作者)对此即有争论,说这样的定义毫无意义,因为这只是三种数据类型。Charity Majors(Honeycomb CTO)也反对上述说法。她更进一步指出如果说传统监控工具是用来解决“known-unknown”问题(已知问题),那么可观测性是用来解决“unknown-unknown”问题(未知问题)的。
既然标题是为什么需要可观测性,那么实在无需讨论三大支柱相关内容。就新技术采用的决策者来说,为什么需要可观测性比如何实现可观测性更为重要。如果答案仅仅是Charity Majors所说的“unknown-unknown”,则实在有点玄之又玄的感觉了。因此,下文将从可观测性的实际案例分析其价值,尝试说明为什么需要引入可观测技术。
02 | 价值
从实用主义出发,理解可观测性解决什么问题,比理解可观测性如何实现更有价值。Google SRE book第十二章给出了简洁明快的答案:快速排障。
There are many ways to simplify and speed troubleshooting. Perhaps the most fundamental are:
- l Building observability—with both white-box metrics and structured logs—into each component from the ground up
- l Designing systems with well-understood and observable interfaces between components.
Google SRE Book, Chapter 12
为何快速排障需要可观测性?这是由于IT系统不断增加的复杂度决定的。大量云原生技术的采用,导致IT系统越来越复杂,快速排障变得越来越难。传统的应用监控(APM)和网络监控(NPM)工具,可以发现某个函数调用失败或者某个链路性能下降,却难以在复杂的云环境下找到故障发生的根本原因。
下面的几个场景你是否也遇到过?
场景1:“谁动了我的数据库!”
某大型银行,采用私有云基础设施部署微服务架构的应用。随着业务不断上云,经常遇到这样一个棘手问题:核心数据库访问量陡增,只知道来自某个云资源池,却由于其中的80000多个容器POD都做了不止一次的IP地址转换,而无法定位到底是哪些POD造成了核心数据库的流量陡增。
如果采用传统的监控方式,只能发现陡增这个现象,而难以快速定位到引发问题的容器POD。
场景2:“审批系统每周都出问题!”
某地产公司,将面向全球数万员工的业务审批系统部署在公有云基础设施之上。该系统由30多个微服务构成,并依赖10多个外部系统,应用调用关系复杂,故障定位极其困难。
自从上了公有云,该业务审批系统每周都出现问题。即便尝试了拨测和APM等监控工具,依然没有达到每周99.9%时间可用。
场景3:“开发测试环境带来生产隐患!”
某大型金融机构,开发测试和生产系统均构建在两地三中心的私有云基础设施之上。开发测试环境中,新业务的性能出现了“一会儿好一会儿不好”的问题。无论使用云平台自带监控,还是进行人工抓包分析,数周来一直没有找到根因,即无法确定是应用还是基础设施的问题。
如果新业务真的“带病”上生产,一旦发生业务自身问题带来的生产事故,责任是极其重大的。
从以上几个场景可以看出来,云原生技术的广泛采用,大大增加了IT系统故障的复杂性,进而为快速排障带来了困难。
03 | 结语
控制领域中,研究可观测性的目的是提供基于系统内部状态(白盒),而非系统外部输出(黑盒)进行控制的理论依据。在IT领域中,简单而言,可观测性就是为复杂IT系统寻求白盒监控能力。
其实,无论三大支柱还是快速排障都是管中窥豹。最早提出可观测性的是现代控制理论奠基人Rudolf Kalman。曾经的登月计划,以及未来的无人驾驶,都离不开他发明的卡尔曼滤波器。而卡尔曼滤波器,才是最优(美)的观测器。
了解更多云原生可观测性技术实践,欢迎关注云杉网络主办的 “云原生可观测性分享会” 系列直播活动。7月27日晚20:00~21:30,第8期活动由云杉网络携手KubeSphere开源社区共同举办,并联合云原生社区同步直播,聚焦“云原生可观测性开源技术最佳实践”主题,分别讲解了在各自的技术领域中如何快速、可靠的实现云原生可观测性。
活动报名:https://www.slidestalk.com/m/1021/OSCHINAjswz

边栏推荐
- leetcode 数组类
- Leetcode linked list class
- 2022-7-26 第七组 抽象和接口
- Beginner experience of safety testing
- JDBC connection
- Buu brush inscription 2
- Leetcode array class
- Shell综合应用案例,归档文件
- AI technology, simplifying the complex world | teatalk online application practical series, issue 2
- [pytoch foundation] torch.stack() function analysis
猜你喜欢

APaaS低代码平台(一) | 把复杂留给自己,把简单留给用户

Flutter Performance Optimization Practice - UI chapter

【打新必读】工大科雅估值分析,供热节能产品

关于:获取当前客户端登录的域控
![[英雄星球七月集训LeetCode解题日报] 第26日 并查集](/img/f1/e63b1f35b883274ca077cbd2ab4c24.png)
[英雄星球七月集训LeetCode解题日报] 第26日 并查集

立即报名:7 月 29 日推荐系统峰会 2022

Sign up now: July 29 recommendation system summit 2022

SSM整合实例
![Installation and configuration of [basic services] [database] Clickhouse](/img/fe/5c24e4c3dc17a6a96985e4fe97024e.png)
Installation and configuration of [basic services] [database] Clickhouse

QT基础第一天 (1)QT,GUI(图形用户接口)开发
随机推荐
Marketing and sales document management and workflow solutions
Today, the company came across an Alibaba P8, which was really seen as the ceiling of the foundation
QT基础第一天 (1)QT,GUI(图形用户接口)开发
2022 pole technology communication - anmou technology opens a new chapter of commercialization
In the era of Web3.0, the technical theory of implementing a DAPP based on P2P DB
Interceptors
Establishment of APP automation testing framework (VIII) -- establishment of ATX server2 multi device cluster environment
Pspice simulation quartz crystal oscillation circuit
Hello, how are you
PointPillars: Fast Encoders for Object Detection from Point Clouds 阅读笔记
Chapter 2: encounter obstacles! Bypass WAF filtering! [SQL injection attack]
kubernetes之Deployment
7-year-old boy playing chess too fast? The robot actually broke its finger
Buu brush inscription 1
The UK and Germany have successively launched 5g commercial services, and Huawei has become a behind the scenes hero
Use Baidu PaddlePaddle easydl to complete garbage classification
PLSQL package
[must read new] Keya valuation analysis of University of technology, heating energy-saving products
Leetcode linked list class
Houdini notes 2