当前位置:网站首页>用“绿色计算“技术推动算力可持续发展
用“绿色计算“技术推动算力可持续发展
2022-08-04 19:27:00 【支付宝技术】
7月30日,2022中国算力大会在济南开幕,大会突出创新、融合、绿色三大理念,多位知名院士专家、行业领军人物围绕“算赋百业 力导未来”主题展开深入研讨,共话算力产业发展。蚂蚁集团基础设施委员会主席、绿色计算负责人何征宇应邀参会并在主论坛发表演讲。
以下是何征宇的演讲核心内容:
1
算力飙升时代更需要绿色战略
各位下午好,非常高兴在泉城跟大家相见。今天我代表蚂蚁集团,在算力大会上分享一下我们在这个问题上的一些思考和实践。
蚂蚁是一家专注于互联网应用的一个科技平台,除了有大家熟悉的支付宝、余额宝、蚂蚁森林等业务,蚂蚁集团还有数字科技产业,在区块链、数据库等非常基础的核心技术领域,我们已经开始服务一些重要的政府以及企业单位。在这个业务和产业背景之下,蚂蚁对算力的需求日益增长,并从软件侧的角度观察到了算力现有的一些效率问题。
算力的飙升和粗放利用会带来大量碳排放和能源消耗,这个消耗不仅对于任何企业来说是巨大的发展成本,同时也是整个社会的发展成本,需要企业主动去思考和解决。如何能够更加可持续地、更加高质量地发展算力,蚂蚁有一些自己的经验摸索以及观点思考,今天我分享的主题,就是“绿色计算”。
蚂蚁集团从创立之初开始,一直秉承着绿色普惠的理念,在上个月,我们又宣布了ESG可持续发展战略,重新升级了整个公司战略。蚂蚁的公司战略一共就4个关键点,绿色低碳、数字普惠、科技创新和开放生态,其中第一条就是绿色低碳。此前在国家宣布了双碳目标后,我们也积极响应并在2021年公布了碳中和的目标,承诺2030年达到净零的排放。大家知道,对于一个科技平台来说,最大的碳排放就来自于数据中心本身。
在这样的业务背景和公司战略基础上,对绿色计算的研发就成为了蚂蚁的一个技术重点。
2
云原生架构升级奠定绿色计算基础
从2018年开始,我们发现蚂蚁集团内部的服务器数量已经呈现翻番式的增长。当时业内的服务器利用水平很低,今天峰会上邬贺铨院士提到,数据中心需要7×24小时工作,但通常并非7×24小时都在计算,非计算状态下也耗能。对这点我非常有共鸣,大量的能源被消耗在维护服务器上,而没有去提供真正的算力,2017年时,蚂蚁的整个服务器利用率只有8%左右,大量的服务器是处于闲置状态。
闲置显然不是我们故意如此,而是由于互联网业务有峰值的特性。比如说早上7点钟大家会集中去蚂蚁森林抢能量,中午吃饭时大家用支付宝来付款,以及早晚高峰坐地铁,甚至是基金的尾盘交易,大家会在同一个时间统一使用服务,意味着我们一定要用峰值时的算力来储备。这就导致在闲时会带来巨大的浪费。
所幸的是当时我们找到了一个契机,就是整个云时代的到来,蚂蚁将自己的架构做了云原生的整体升级,这个升级并不是简单地使用用云计算。蚂蚁有非常复杂的应用系统,在人工智能之外,大量计算还是被应用于常规的事务处理、交易处理,以及音视频的处理等等。所以我们就有了一个机会。借着云原生架构改造的同时,我们把所有应用系统全部按照统一的标准建设,放到了同一个底座上,同时我们制订了一系列的规范以及标准,让蚂蚁的整个集群形成了一个统一的资源池,形成了统一的可调度、可被伸缩的一个大的计算架构的范式。
2020年,国家宣布双碳战略后,蚂蚁集团成立了绿色计算团队,把我们对算力技术的研发统一在绿色计算的体系下,并制定自己的碳中和路线图。到了2021年的双11,大家知道双11这种规模的活动,峰值跟往常比是百倍、千倍的增长,所有的服务包括在线服务、数据库、人工智能等等,都会在那一天有爆发式的增长。我们运用这几年的积累,包括技术架构、核心技术、应用技术等等,在那天首次规模化的应用了全套的绿色计算技术栈,取得了不错的成绩。
根据第三方的审计,一场双11,蚂蚁通过绿色计算减少了394吨碳排放,2021全年则节省了近3万吨。我刚才讲了,2017年时蚂蚁的服务器利用率是8%,到2021年,服务器利用率已经达到了30%。这当中的一些成果,我们已经开始通过开源的方式对外开放,蚂蚁集团今年正式加入了“低碳专利承诺”,目前已经将首批7件“绿色计算”相关专利无偿开放,全球任何个人、企业、机构都可以免费使用这些专利。通过这种方式,我们希望能够推动行业一起更绿色地使用能源,更高效地使用算力。
3
纵深攻关技术难题,多层次提升算力效率
那么蚂蚁在绿色计算上是怎么构思和建设的?首先我们非常同意,算力是重要的。但是从双碳战略角度来说,在谈算力的同时,一定要结合对国家和行业都至关重要的能源安全。我打个比方,在数据中心、IDC层次我国目前已经做了非常好的工作,在包括东数西算、包括各个机架厂商以及各位硬件厂商努力下,我们的PUE可以降到非常低。这好比我们生产了非常多的优质节能灯。
但还有一个问题,LED节能灯买回来,如果长期开着,人不在房间里也不关,那么再节能的灯,对能源也仍然是严重的浪费。对于蚂蚁的绿色计算来说,我们没有涉及到硬件以及IDC的生产、制造,而是在采购绿电、使用绿色的计算中心的前提下,通过蚂蚁本身全套软件栈的自研能力,包括数据库、操作系统、中间件、编译器技术,以及蚂蚁有全套场景去做更多适配,在这基础之上,我们开发了一套聚焦于资源提效的“绿色计算”技术体系。在可信原生技术层面包含三种主要技术,分别是云原生分时调度、AI弹性容量和在离线混合部署技术。
第一个,分时调度技术,简单来说跟潮汐车道类似,早上7点大家在蚂蚁森林抢能量,临时需要非常多的资源机器,但过了7点就不要了,等到中午就餐的时候,又需要很多算力,我们就用云原生的调度能力进行潮汐调度。这项能力对整个基础技术的要求非常高,包括应用的稳定性和启动速度。
第二个,运用AI技术去做弹性的预测。互联网还有一个特点,就是需求不固定,很多时候有突发性的高峰。但是我们通过使用AI,能像预测天气预报一样去预测我们的容量大小。
第三个在离线混合部署技术是我们的关键核心技术。在很多企业比如能源、金融行业,出于安全性或者隔离性、稳定性的考虑,很多公司会把在线和离线应用拆开。但是在蚂蚁,因为我们自己有安全容器技术,在主机侧可以用多个内核做在离线隔离,让我们的整机离线利用率在达到70%、80%的时候,在线有请求来的时候仍然是不抖的。用这个技术就可以把整个在线应用和离线应用混部起来。
今年蚂蚁已经进一步开始向数据库混部,这是业界比较大的一个难点,需要保证在业务高峰来临时,能快速释放离线的计算资源,保障业务访问稳定。蚂蚁对所有数据库产品推进了容器化,让存储和应用的计算资源可以统一调度,结合数据库容量、调度、容器化隔离技术,做到了在混部场景下安全稳定的运行,混部CPU利用率70%的情况下,数据库容量降低在10%以内。
除此之外,面向未来,蚂蚁已经在积极布局一些绿色AI技术。近十年来,AI所需算力呈亿倍的增长,而且这一数字在“大力出奇迹”的业界思路下继续飞速攀升,就像几位专家院士今天讲到的,AI肯定是未来算力的极大需求者,我们需要今天就开始着手攻克这个问题。举个例子,当平台进行每一次推荐的时候,很多的AI模型在很多场景里面是会有大量无效的计算,所以我们认为应该更多关注算力和效果的比较,而不是一味的追求大模型。
从技术上来说,绿色AI的难点在于,一方面需要将AI硬件的算力效率提升到最高,逼近硬件理论算力,另一方面要降低越来越多业务场景“智能化”的算力需求。蚂蚁目前正在从打造智能的在离线计算集群调度优化系统;优化升级检索工程,模型推理,模型训练,推荐工程系列AI工程系统;打造多业务共享的多任务,多模态预训练模型等方向,着手打造一流的绿色AI工程和算法技术栈。
4
以开源、开放助力绿色算力发展
对绿色计算的研发,得益于蚂蚁有自研的全套核心技术栈,我们也希望能够跟业界或者社区来分享我们的技术,推动整个行业走向绿色计算技术的方向,为国家和社会创造更大的效益。前两天,蚂蚁在开放原子基金会全球峰会上宣布了我们的开源战略,就是把蚂蚁的核心基础技术成熟一个开放一个,降低全行业的软件开发成本。我们已经在原生分布式系统上面已经开源了OceanBase、MOSN、Kata Containers等很多核心技术,同时我们最近刚刚开源了可信隐私计算框架“隐语”,助力整个行业在数据隐私安全保护上的发展。
与此同时,我们也非常荣幸能和很多高校展开合作,蚂蚁自身也有一些研究型实习生的项目,旨在搭建一个推动产学研融合的平台,进一步开放蚂蚁的产业场景及技术资源。我们也非常期待,能够有机会跟各位专家进行一些研究计划的合作。
最后我总结一下,从算力基础设施的角度,蚂蚁是一个应用方、一个场景方。我们希望能够用自己的一些基础能力,从软件侧更多地为这个社会带来微小而美好的改变。用更绿色的技术,用绿色计算的技术,我相信我们可以一起携手创造更大的价值。
谢谢大家。
延伸阅读:
本文分享自微信公众号 - 支付宝技术(Ant-Techfin)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。
边栏推荐
- Zip4j使用
- 判断字符串中是否包含中文
- [Latest Information] 2 new regions will announce the registration time for the soft exam in the second half of 2022
- Exploration and Practice of Database Governance
- lc marathon 8.3
- 电脑一键重装系统内存完整性无法打开怎么办
- Regular expression is incomplete
- Infrared image filtering
- Dragoma(DMA)元宇宙系统开发
- 指静脉识别-matlab
猜你喜欢
随机推荐
八一建军节 | 致敬中国人民解放军
Switch node version and switch npm source tool
The CPU suddenly soars and the system responds slowly, what is the cause?Is there any way to check?
openharmony代码框架初识(2)
02 ts 变量定义,类型
拥抱Cmake小朋友 简单又实用,但是不灵活
ERC20转账压缩
目标检测的发展与现状
seata源码解析:seata server各种消息处理流程
The Development and Current Situation of Object Detection
win10 uwp json
v-model的使用
量化交易机器人系统开发
MMDetection usage example: from entry to exit
什么是内部客户服务?
迪赛智慧数——其他图表(主题河流图):近年居民消费、储蓄、投资意愿
如何理解 SAP UI5 的 sap.ui.define 函数
百度智能云重庆工业互联网平台正式亮相,深耕重庆,辐射西南
对比几类主流的跨端技术方案
Storage resource activation system to help new infrastructure