当前位置:网站首页>共创软硬件协同生态:Graphcore IPU与百度飞桨的“联合提交”亮相MLPerf
共创软硬件协同生态:Graphcore IPU与百度飞桨的“联合提交”亮相MLPerf
2022-07-07 10:52:00 【飞桨PaddlePaddle】
本文已在飞桨公众号发布,查看请戳链接:
共创软硬件协同生态:Graphcore IPU与百度飞桨的“联合提交”亮相MLPerf
AI领域最负盛名的产业级基准测试榜单MLPerf Training 2.0于6月30日正式发布。本次榜单中,百度飞桨与Graphcore合作,在MLPerf中开启了一种创新的“联合提交”模式。
“联合提交”亮相MLPerf
本次MLPerf Training v2.0中,百度飞桨与Graphcore合作了一种创新的结果提交模式:Graphcore与百度使用同样的软硬件配置(Graphcore IPU和飞桨深度学习框架)提交了MLPerf BERT模型的成绩。图1展示了此次Graphcore与百度使用IPU提交的BERT基准测试结果,飞桨的性能与Graphcore高度优化的自研框架PopART性能相当。
图1:MLPerf Training v2.0, Graphcore与百度提交的BERT模型在Graphcore IPU上的训练性能结果。其中,红色代表Graphcore使用原生框架PopART取得的成绩,蓝色代表Graphcore与百度使用飞桨框架取得的成绩。
“联合提交”:飞桨硬件生态共创计划的新尝试
百度飞桨在WAVE SUMMIT 2022深度学习开发者峰会上,携手十余家硬件厂商发布了硬件生态共创计划。飞桨将结合伙伴自有软硬件基础开发栈特色,针对不同应用场景和产品,面向广大开发者共同推出厂商定制版飞桨框架、建设开源模型库、开发课程与培训内容等,更好地服务开发者,实现生态繁荣共赢。
百度飞桨与Graphcore合作的MLPerf联合提交,是飞桨硬件生态共创计划的一次创新尝试。两个公司采用完全一样的软硬件配置进行成绩提交,这种联合提交方式在MLPerf比赛中首次出现。为此,我们在准备阶段跟组织者MLCommons做了细致的沟通,以确定这一提交方式的可行性。这次合作的成果令人欣慰,不仅双方技术合作的成果通过MLPerf介绍给全球开发者,这种软硬合作提交的模式也在MLPerf媒体沟通会上获得其他厂商代表的称赞。
“联合提交”背后的技术合作
针对本次MLPerf联合提交,百度飞桨与Graphcore进行了深度协同优化,主要体现在如下方面:
优化并行度
针对模型切分策略进行优化,从而提高模型并行度,并且通过优化并行读取数据集的策略,将模型在IPU上的吞吐发挥到极致。
提高片上内存使用率
通过降低部分操作的精度压缩片上内存占用,节省片上存储空间,从而支持将优化器状态从片下存储迁移到片上存储,减少片上片下的IO交互,并且也能提高部分算子的片上内存使用比例,提升算子计算效率。
融合collective算子
将数据并行中产生的多个collective算子融合成单个算子,能减少同步开销的同时,也能增加对带宽的使用率,发挥IPU高效的计算性能。
减少不必要的计算资源占用
原本在evaluation的过程中需要进行无效的反向计算,当前通过仅计算前向图的特性,节省evalution过程中无效的计算资源占用,提升整体evalution性能。
硬件优化
Bow-2000相较于M2000具有更高的主频(1.4x), 大幅提升了计算效率。
飞桨与Graphcore的合作历程
飞桨一直积极与硬件厂商合作以优化用户体验与性能。2020年,飞桨携手13家硬件厂商发起“硬件生态圈”,Graphcore即是初始成员之一。2021年,百度飞桨实现了在Graphcore IPU上训练与推理的全面支持,并开源了相关代码。双方团队在IPU-POD16&64上进行数据并行与模型并行,以及在Bert-Base模型上进行精读和吞吐量验证取得了良好的性能效果。Graphcore的Poplar SDK 2.3与百度飞桨框架最新的2.3版本已经完全集成,相关代码已在百度飞桨的GitHub上线供开发者获取。
2022年5月,Graphcore在WAVE SUMMIT 2022深度学习开发者峰会上正式宣布加入由百度飞桨发起的硬件生态共创计划。Graphcore和百度飞桨将基于该共创计划共同研发技术方案,协同定制飞桨框架,建设模型库与场景范例,以“IPU+飞桨”为产业赋能,推动产业AI化转型和升级。
结语
随着人工智能技术在各行业的广泛应用及快速发展,业界已从各自独立的硬件算力驱动和算法创新驱动进入到算法和硬件协同创新阶段。本次MLPerf的联合提交,是百度飞桨与硬件生态共创伙伴Graphcore合作的创新尝试。未来,飞桨将通过硬件生态共创计划,与更多硬件厂商一起,加速人工智能的应用落地,推动AI工业大生产的实现进程。
MLPerf介绍
MLPerf是由AI领域世界知名的学术研究者和产业专家发起的人工智能领域基准测试标杆。MLPerf旨在提供一个公平、实用的基准测试平台,展示业界领先的AI软硬件系统的最佳性能,其测试结果已获得AI领域的普遍认可。世界上几乎所有主流的硬件生产商和软件服务提供商都会参考MLPerf发布的结果构建自己的基准测试系统,以测试其开发的新的AI加速芯片和深度学习框架在MLPerf模型上的性能表现。
更多阅读
直播预告
7月6日(星期三)20:00,飞桨总架构师于佃海和飞桨资深研发工程师曾锦乐将通过直播,为大家揭秘同等GPU配置下,百度飞桨性能「世界第一」背后的关键技术。
扫描下方二维码,后台回复【学习】进行报名,直播间还有更多好礼等你来拿!
关注【飞桨PaddlePaddle】公众号
获取更多技术内容~
本文同步分享在 博客“飞桨PaddlePaddle”(CSDN)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。
边栏推荐
- [pytorch practice] use pytorch to realize image style migration based on neural network
- [statistical learning methods] learning notes - Chapter 4: naive Bayesian method
- 谷歌浏览器如何重置?谷歌浏览器恢复默认设置?
- Sample chapter of "uncover the secrets of asp.net core 6 framework" [200 pages /5 chapters]
- .Net下极限生产力之efcore分表分库全自动化迁移CodeFirst
- 博文推荐|Apache Pulsar 跨地域复制方案选型实践
- Day26 IP query items
- [爬虫]使用selenium时,躲避脚本检测
- 【无标题】
- Ip2long and long2ip analysis
猜你喜欢
[statistical learning method] learning notes - support vector machine (Part 2)
达晨与小米投的凌云光上市:市值153亿 为机器植入眼睛和大脑
ACL 2022 | 序列标注的小样本NER:融合标签语义的双塔BERT模型
.Net下极限生产力之efcore分表分库全自动化迁移CodeFirst
[crawler] avoid script detection when using selenium
2022 examination questions and online simulation examination for safety production management personnel of hazardous chemical production units
Day-19 IO stream
.Net下極限生產力之efcore分錶分庫全自動化遷移CodeFirst
认养一头牛冲刺A股:拟募资18.5亿 徐晓波持股近40%
Charles: four ways to modify the input parameters or return results of the interface
随机推荐
Charles: four ways to modify the input parameters or return results of the interface
[learn microservice from 0] [01] what is microservice
visual stdio 2017关于opencv4.1的环境配置
[difficult and miscellaneous]pip running suddenly appears modulenotfounderror: no module named 'pip‘
如何将 @Transactional 事务注解运用到炉火纯青?
Find ID value MySQL in string
【无标题】
处理链中断后如何继续/子链出错removed from scheduling
非分区表转换成分区表以及注意事项
Smart cloud health listed: with a market value of HK $15billion, SIG Jingwei and Jingxin fund are shareholders
[爬虫]使用selenium时,躲避脚本检测
Design and implementation of communication protocol
Cookie
通讯协议设计与实现
2022a special equipment related management (boiler, pressure vessel and pressure pipeline) simulated examination question bank simulated examination platform operation
Day22 deadlock, thread communication, singleton mode
3D content generation based on nerf
Leetcode skimming: binary tree 22 (minimum absolute difference of binary search tree)
ACL 2022 | 序列标注的小样本NER:融合标签语义的双塔BERT模型
【从 0 开始学微服务】【01】什么是微服务