当前位置:网站首页>监控系统的内卷,有什么讲究?
监控系统的内卷,有什么讲究?
2022-08-05 05:19:00 【LinkSLA】
监控之卷,非一日练成
监控是运维的起点也是难点。这个系统需要完成这些功能:
全栈监控;
关联分析;
跨系统调用的串联;
实时报警和自动处置;
系统性能分析。
运维的两大场景:异常检测和预警。换句话说,好的监控主要为两个场景服务:体验和急症。什么样算是好的监控?
![]()
1、告警及时,第一时间通知到指定用户,及时解决故障,防止故障蔓延。
2、告警准确,不能误报、漏报和重复报,推送给用户的是精准信息。
3、监控对象要全面,从机房动环、硬件设备、操作系统、应用组件到业务系统进行全栈的监控。
4、运维要闭环,从告警触发到收敛为事件/工单,工单接收、处理和结束在SLA规定时间内完成。
传统运维依赖人力完成系统运行状态、性能指标、上线与变更服务的监控。
随着数字化进程的推进,服务器、软件模块、访问数据激增,IT系统的数量和复杂程度加剧,监控项目过多人力艰难应对,事故发生无法准确定位,迫切要求运维工作向智能化转变。
进击:数据标准和价值输出
罗马非一日建成,运维平台也经历人工工具化、工具平台化、平台智能化的发展过程。智能运维比较突出的优势则是数据标准和交付价值。
全面挖掘运维的数据价值,找全问题,找准问题,减少问题。多层监控,打破运维孤岛,全栈监控对象,包括:

01
硬件设备
硬件设备是监控运维的基础,监控包括:机房动环、服务器、网络设备、存储设备等。
02
虚拟化
例如:vsphere、powerVM、hyper-V、docker、K8S等。
03
操作系统
支持windows、linux、AIX等操作系统。
04
应用组件
支持包括数据库、中间件等常用的商用和开源组件。
05
业务系统
支持通过BPV(业务流程视图)将业务系统各个组件作为一个逻辑监控对象进行监控。
全栈对象的监控,提高运维效率,解决告警不准确、问题难定位、根因定位难的问题。主动、迅速、准确地发现和定位问题。
1、质量保障
包括异常检测、故障诊断、故障预测、故障自愈。
2、成本管理
指标监控、异常检测、资源优化、容量规划、性能优化。
3、效率提升
智能变更、机器学习算法、安全保障。
LinkSLA于2018年开始进行算法研究以及具体落地场景的选择,在全栈监控、异常检测、日志异常检测方面单点应用突破,并取得显著成效,在业务中发挥更多的数据价值,为企业发展提供决策依据。
边栏推荐
猜你喜欢
随机推荐
LinkSLA坚持用户第一,打造可持续的运维服务方案
运维的高光时刻,从智能化开始
Getting Started Documentation 12 webserve + Hot Updates
Regular expression small example - get number character and repeated the most
入门文档09 独立的watch
Getting Started Documentation 10 Resource Mapping
NIO works is analysed
技术分享杂七杂八技术
IP packet format (ICMP protocol and ARP protocol)
【Day6】文件系统权限管理 文件特殊权限 隐藏属性
[Day1] (Super detailed steps) Build a soft RAID disk array
小度 小度 在呢!
spark源码-任务提交流程之-2-YarnClusterApplication
spark算子-textFile算子
Why can't I add a new hard disk to scan?How to solve?
IP address and subnet division
ACLs and NATs
Apache configure reverse proxy
Unity物理引擎中的碰撞、角色控制器、Cloth组件(布料)、关节 Joint
spark源码-任务提交流程之-5-CoarseGrainedExecutorBackend








