当前位置:网站首页>华为云“数智”化运维
华为云“数智”化运维
2022-06-22 16:14:00 【华为云】
作者:王峰
为支撑华为云业务的快速增长,华为云运维体系建设主要可以分三个阶段:2016年—2017年,实现运维工具化,通过分散的各类小工具维护应对小体量的服务器规模,但随着业务规模的快速增长,单靠工具化手段已无法满足。2018年-2019年,构建运维自动化平台,基于场景构建自动化运维体系,开始落地AIOps能力。2020年至今,通过AI加持下的智能运维平台,在运维活动多个价值场景下进行应用,进入运维智能化。

业界把智能运维分成L1到L5几个阶段,以服务器规模增长作为指数,10台以下的服务器,通过简单的专家经验、脚本和人工方式来运维。100台规模,使用多个独立工具,让大部分工作实现工具化、流程化基本就可以满足运维所需。但当服务器规模逐渐上升至十万、百万时,运维人力又无法随着规模快速增长时,必须考虑基于数据和智能化手段来提升运维效率、质量、成本。DevOps阶段,主要是进行单点智能化能力落地,通过数据关联进一步串联多种单点能力,实现部分场景的高度自动化。AIOps阶段,在提升质量、效率、成本方面全面落地智能化手段,比如通过AI进行分析和决策、无人值守的变更,以及通过数据可视化分析来辅助智能决策。
每个阶段,我们希望提升人均运维服务器的数量,阶段越高,决策执行会越依赖于系统的自动化、智能化,对人的依赖度降低。

如果大家关注Gartner每年的人工智能成熟度曲线的变化可以看到AIOps平台的发展变化,已经从2017年的创新萌芽期,发展到2021年进入到成熟期前的谷底期。Gartner预测2-5年会进入成熟期。同时从每年的报告中可以看到G AIOPS的研究方向2021年相比2017年给出了更加细化的落地场景,通过德勤的调研报告可以看出AIOps的Top5场景主要是:智能告警、根因分析、异常检测、容量优化和故障自愈。

AIOps落地策略
对于AIOps落地策略,华为云主要从组织、数据和平台三方面来考虑。
·组织:由用户、产品化团队和技术团队三方组成AIOps落地项目团队。针对价值场景定义明确的项目目标,制定可行的技术方案;通过现网的应用落地与效果反馈,不断进行优化迭代达成最终的业务价值。
·数据:应用场景的数据质量直接影响着最终的落地效果,因此需要围绕场景,采集完备的数据;通过业务流程与案例积累满足算法研究所需的样本;通过数据治理,规范化存储管理数据。
·AI平台:通过AIOps平台构建MLOPS能力,提升AIOps场景落地的效率;支撑组织利用数据实现AIOps场景落地现网,并通过现网业务效果反馈与模型监控持续优化迭代完善。
那么,什么场景适合落地AIOps?这些场景具备哪些特点?我们总结了几点:
·基于数据解决人的判断准确性问题;
·基于已知事件挖掘数据之间的隐藏关系;
·基于历史数据对当前数据做推断;
·基于数据进行自动分析与辅助决策;
·基于历史数据与经验对未来进行预测。
同时,我们将应用流程分为三个阶段:首先由SRE提出业务需求的痛点问题,进行定量分析、需求转化,确定对应的案例数据;然后由数据科学家做数据特征分析,开发算法模型;最后由产品化团队把算法模型进行产品化落地。
我们从价值、场景、技术方案、平台算法和数据五个部分对智能运维进行了整体规划。像故障发现、故障定位、根源分析、故障规避、智能变更、智能客服、智能调度等重要场景,大部分已实现了产品化落地。值得一提的是,华为云基于ModelArts构建了服务上层智能运维场景的AIOps平台,通过平台能力加速场景的开发与落地速度。

AIOps能力构建
下面展开来具体讲下故障生命周期中的相关AIOps能力:
异常检测
告警量大、告警精度低,一直是运维人员最为头疼的事情。我们希望通过异常检测实现自适应、免维护,来解决传统的静态阈值无法精准告警的痛点。
自适应是指对不同的指标特征自动适应检测的需求,自动感知周期性指标,使告警不受季节性变化干扰。免维护是指无需算法人员手动调整参数和配置参数,智能调参解决运维人员无法配置的模型参数。此外,算法模型压缩,大幅降低了模型在训练时的资源开销问题。

智能告警
如何实现告警降噪?首先进行告警分类,使用算法对持续告警、波动告警、因果告警等进行自动聚类,然后再匹配不同的算法方案进行压缩。常用的FP-growth,可以挖掘关联告警的频繁关系,通过模式挖掘和滑窗方式来检测,以达到告警降噪。如果要实现更准确的告警压缩,还要结合拓扑空间数据,进一步识别根因告警,提升故障处理效率。
智能故障定位
多指标定位算法能够精准识别出引发故障的相关性指标,SRE通过该指标快速定界故障,实现故障快速恢复;日志定位首先提取日志模板,通过检测异常模板来识别出对应的异常故障节点相关日志报错信息,减少日志分析时间;结合指标、日志,调用链可以实现多数据源根因定位,该方式是通过请求方、链路方式运作的业务场景。

智能故障自愈
故障自愈是指无需人工干预,自动完成故障隔离恢复。但此场景有很大局限性,核心能力包括如下方面:
·自动化驱动:多源故障流程驱动,适配各种故障场景。
·智能诊断:一一诊断可能诱发故障的因素,确定引发故障的根因。
·快速自愈:根据诊断结果,分钟级自动化处理故障,恢复客户业务。
·安全可靠:提供流控+底线场景+灰度机制,防雪崩。
以硬件故障自动化诊断&自愈为例,AIOPS系统预测内存即将引发主机宕机场景,自愈平台收到对应预测告警后会启动诊断机制,判定并且执行对应的自愈动作。当自愈流程时间较短时,对客户产生的影响非常小,甚至可以做到客户无感知。
通过当前硬件故障自愈能力,可实现5分钟级硬件故障诊断&自动化处理(从告警上报到故障恢复仅需5分钟),极大减小故障对客户的业务影响。不过自愈并非每次都能生效,在发现故障到处理的所有逻辑都满足的条件下,才会触发自愈流程。

以上是华为云在故障生命周期中所做的AIOps实践,在这个过程中我们总结了四条主要的经验:
·Data First:数据质量是AIOps落地成功的必要条件,样本数据与现网反馈决定了模型的质量与效果,完备的数据才能在特征工程阶段发现有效的特征。
·工程落与算法一样重要:不能低估工程的难度与重要性,算法不能解决的问题从工程方案上进行弥补。比如内存中一些无法预测的场景,通过工程化手段来弥补,同时要持续监控运营算法模型在实际中的表现,及时发现劣化现象并实施优化。
·现网可用性比算法技术指标更重要:我们需要考虑算法与产品整合以后的整体可用性,因为现网不是实验室,产品落地后的产品质量与稳定性会影响AI技术的推广与应用,所以现网可用性非常重要。
·需要考虑算法落地成本:需要充分评估算法效率与推理的数据规模,数据规模与算法效率决定了应用资源成本。

最后,希望我们的实践经验,能够给正在或即将落地AIOps的朋友带来帮助。华为将继续致力于把数字世界带给所有人,构建万物互联的智能世界。
边栏推荐
- CMB model 23 ukey is not recognized on win7
- 一文带你掌握Tcpdump命令的使用
- [recruitment] [Beijing Zhongguancun / remote] [tensorbase][open source data warehouse] and other people do one thing
- MySQL stored procedure exception handling error code: 1337
- Simple integration of client go gin -update
- 【人脸识别】基于GoogleNet深度学习网络的人脸识别matlab仿真
- 0基础如何入门软件测试,能转行成功吗?
- redis. clients. jedis. exceptions. JedisDataException ERR invalid password.
- 启牛学堂给的中信建投证券账户是不是真的?开户安全吗
- On the closure function of Scala
猜你喜欢

Quickly master asp Net authentication framework identity - user registration

JSP learning (I) -- overview of JSP

以小见大:一个领域建模的简单示例,理解“领域驱动”。

170million passwords of Netcom learning link have been leaked! What are the remedies?

写给 Kubernetes 工程师的 mTLS 指南

内容推荐流程

测试组的任务职责和测试的基本概念

High availability ResourceManager

Xshell 7 (SSH Remote Terminal tool) v7.0.0109 official Chinese Version (with file + installation tutorial)

How to do well in R & D efficiency measurement and index selection
随机推荐
短视频带货源码,保存图片到相册/图库
Mybaits:接口代理方式实现Dao
Some difficulties in making web pages
Read Apache shardingsphere
[cursor nesting] nesting of MySQL stored procedure cursors
缺失值处理
imx6ull的GPIO操作方法
Tried several report tools, and finally found a report based on Net 6
一文带你掌握Tcpdump命令的使用
Problems and recovery of spark streaming checkpoint
Cross platform brake browser
WPF effect chapter 190: playing listbox again
Blazor University (30) form - derived from inputbase
无心剑中文随感《探求真谛》
MySQL string field to floating point field
STM32 series (HAL Library) - f103c8t6 hardware SPI illuminates OLED screen with word library
Ad20/altium Designer - oil for manhole cover
What is a flush? Is online account opening safe?
synchronized实现原理
Source code of live video system, hiding and Title Modification of the top title bar