当前位置:网站首页>【运维思考】如何做好云上运维服务?
【运维思考】如何做好云上运维服务?
2020-11-09 15:20:00 【嘉为科技】
上云后需要运维吗?当然需要。上云确实可以简化一部分运维工作,比如对于服务器的日常运维,但由于云计算的特性(即开即用、灵活扩展等)以及云产品的快速迭代,相比与传统运维的稳态,云运维更体现出敏态特性。如何做好云上运维服务呢?除了做好云运维基础服务保障系统不出问题外,更应该做好增值核心运维服务。同时,云计算技术日新月异,运维人员的能力也需要与时俱进。云时代正在重塑IT运维。
云运维与传统运维的区别
云计算发展如火如荼,从互联网行业向制造、金融、交通、医疗等传统行业不断渗透和融合,促进传统行业转型升级,企业正在享受着云计算释放的巨大红利。但是,上了云就万事大吉了吗?当然不是,要想享受到云计算红利,需要用好云,云运维服务工作必不可少。
云运维与传统运维有什么区别呢?云与传统数据中心的建设目标是一致的,都是为企业提供IT服务;运维的职责都是为了保障IT服务的质量,围绕服务等级协议SLA展开各种运维活动。但由于云计算的特性,云运维相比传统运维还是有很大区别:
运维对象区别
传统运维,接触的起点大都是硬件,如服务器、网络设备、存储设备和风火水电,在云计算时代,运维人员已经无法见到物理的任何设备,云运维的对象更加偏软一些。
运维要求区别
由于云计算的特性,在云平台上实现应用的快速部署、快速更新、实时监控等方面对云运维提出了更高要求;同时对灵活扩展、云原生等云特性优势的运维服务也提出了更高要求。
运维形态区别
云厂商的产品在不断快速迭代,相比与传统运维的稳态,云运维更处于一种敏态过程中,运维人员需要伴随着云产品的升级迭代而不断更新自己的知识库。
云上运维服务的重点
做好云上运维服务,需要先清楚服务的内容和重点,以及服务的方式方法,云上运维服务体系如下图:

01 云运维基础服务
云运维基础服务主要体现在三个方面:监控告警、安全运维、日常问题处理。
监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。 监控既涉及到基础架构如主机CPU、内存、磁盘IOPS、网络流量等监控,也涉及到应用APM监控,同时运维人员是否确认收到告警信息、对告警问题是否在处理、处理的过程和结果进行跟踪管理同样重要。
安全运维包括安全加固、漏洞扫描、补丁修复、安全架构优化。安全加固是对安全基线检查以及安全基线配置加固,漏洞扫描针对应用进行安全扫描,补丁修复对操作系统、中间件、数据库进行补丁更新或漏洞修复,安全架构优化针对现有架构和安全产品进行安全能力提升。
日常问题处理,包括云上各类资源产品的安装配置、升降配、备份服务、技术问题的及时处理等。
02 云运维核心服务
云运维基础服务保障的是系统运行不出问题,对于企业来讲,这还远远不够。企业需要的是更规范、更标准、更低成本、更低风险、更好扩展性的保障系统运行,对于运维人员来讲,需要投入更多精力在运维服务的核心方面。
云运维的核心服务也体现在三个方面:云最佳实践标准、云成本优化、云深度巡检与优化。
云最佳实践意味着云上的部署都是按最优标准来配置的。包括架构的最佳实践、云资源选择和配置的最佳实践、云上管理的最佳实践。对于任何一个上云的企业来说,都希望按照最佳实践标准来使用云。
比如,下面这个混合云架构,就是按照最佳实践标准来设计的。

企业本地IDC与公有云之间通过专线或VPN打通,在公有云跨可用区部署应用,通过负载均衡分发用户请求,形成高可用架构,数据库尽可能使用云数据库,在网络、主机、应用、数据库等不同层次部署云安全产品全方位保障应用和数据安全,文件、数据库通过云原生备份服务进行定时备份,使用堡垒机、访问控制服务、云监控等产品辅助运维管理。
同样,在云资源方面,云资源传统五大件(计算、存储、网络、数据库、安全)和其他资源的选择和配置也需要建立标准。比如是规划一个VPC还是多个VPC,交换机子网网段如何规划设计、虚机的命名规范、虚机的选配标准、安全组端口开放原则等等,只有按照最佳实践标准来选配,未来运维才更高效,扩展性也才更好。
云上管理的最佳实践包括备份、容灾、账号、权限等等方面。
云运维的另一个核心服务,就是帮助企业节省成本。据专业咨询机构RightScale的一份调研报告显示,当下的企业级用户在云计算支出一项的浪费高达30%。
如何做好云成本优化运维服务?涉及到云成本优化体系的建立,建立一套从事前规划到事中分析,再到事后评估改善的不断循环的成本优化体系。

体系重在落实,比如事中分析如何降低云资源浪费,可以从下图中的5个维度进行审视分析:

云深度巡检与优化,通过定期(比如每季度一次)对架构、资源、配置和费用等全面健康巡检,发现可能存在的不合理配置及薄弱环节,进行调整优化,提升资源使用效率、减少系统出现故障的概率。
云深度巡检务必对所有的云资源进行巡检,巡检对象包括整体架构、安全、成本、网络、计算、存储、数据库、监控、账号、备份。
对发现的问题进行高、中、低分级,级别为高的问题已经对系统运行、可用性、功能产生影响,建议立即采取行动。级别为中、低的问题建议采取行动或保持关注。
03 使用工具平台辅助云运维
运维的工作量和复杂度达到一定程度后,就需要自动化工具平台来协助,比如自动化巡检、自动化发布、告警事件的自动处理等,提升效率的同时减少人工处理的出错率。
另外,很多中大型企业在进行云战略规划时会选择多云战略,如何对多云进行统一的管理,比如在统一的界面中对各种云平台资源进行全生命周期管理、如何对资源的申请审批流程管理、如何进行用量分析、成本分析等,此时就需要多云管理平台。
云运维服务的进一步思考
云运维工作是一项繁琐、高要求的工作,除了常规的日常运维服务之外,有时还需要做好专项运维支持服务。比如企业高并发的电商业务放到云上后,在类似618、双11等促销期,往往还需要做好高并发护航的专项支持工作,比如全链路压测、数据库调优、容灾演练等等,确保在活动期间系统稳定运行。
云计算技术日新月异,容器、无服务器、微服务、IOT、人工智能等新兴技术在带来更强优势与便利的同时,对云运维人员也提出了更高的要求,运维人员的能力需要与时俱进。云时代正在重塑IT运维。
版权声明
本文为[嘉为科技]所创,转载请带上原文链接,感谢
https://my.oschina.net/u/4026796/blog/4710061
边栏推荐
- CAD2016下载AutoCAD2016下载安装详细教程CAD下载
- 解密未来数据库设计:MongoDB新存储引擎WiredTiger实现(事务篇)
- Some common types of error exception in Python
- What can DNS do besides resolving domain names?
- AE(After Effects)的简单使用——记一次模板套用的过程
- Explain three different authentication protocols in detail
- spark学习(二)--作业调度和shuffle解析
- 【亲测有效】Github无法访问或者访问速度的解决方案
- CAD tutorial cad2016 installation course
- What kind of experience does a doctor have when he turns his secret love brother into a husband?
猜你喜欢

spark学习(三)--内存管理和性能调优

懒得写文档,swagger文档导出来不香吗

arthas无网络环境下离线安装方法

A letter to myself

C language (circular list) to achieve the basic function of snake

华为云GaussDB:从颠覆自我到颠覆行业,重构数据库市场新格局

I interviewed a 33 year old Android programmer, who could only program for Baidu, but wanted 25K, which was met by me

Put method of immutablemap

It's amazing! Ali senior architect 20 years of experience, collate and share servicemesh actual combat documents, pay rise is bad for this article!
![What is website [new four modernizations]?](/img/3b/00bc81122d330c9d59909994e61027.jpg)
What is website [new four modernizations]?
随机推荐
To me, multithreading transaction must be a pseudo proposition!
A certification and authorization solution based on. Net core - hulutong 1.0 open source
使用基于GAN的过采样技术提高非平衡COVID-19死亡率预测的模型准确性
c语言(循环链表)实现贪吃蛇的基本功能
要我说,多线程事务它必须就是个伪命题!
Low power Bluetooth single chip helps Internet of things
cad教程 cad2016安装教程
JS判断对象类型方法_typeof怎么用_instanceof怎么用_constructor怎么用_Object.prototype.toString()怎么用
HomeLede 2020.11.08 v5.4.72内核 UPnP+NAS+多拨+网盘+DNS优化+帕斯沃 无缝集成+软件包
To me, multithreading transaction must be a pseudo proposition!
CCF BDCI热门赛题:非结构化商业文本信息中隐私信息识别
What can DNS do besides resolving domain names?
How can you be a big data worker with an annual salary of 40W if you don't work hard?
Cad2016 download autocad2016 download installation detailed tutorial CAD Download
「代码整洁之道-程序员的职业素养」读书笔记
Infrastructure testing based on chef inspec
Method of conversion between JS character and ASCII code
Two ways for Tencent cloud server to build WordPress website
如何使用Camtasia制作动态动画场景?
为什么现在开发一款软件的时间越来越长?