当前位置:网站首页>【AI系统前沿动态第40期】Hinton:我的深度学习生涯与研究心法;Google辟谣放弃TensorFlow;封神框架正式开源

【AI系统前沿动态第40期】Hinton:我的深度学习生涯与研究心法;Google辟谣放弃TensorFlow;封神框架正式开源

2022-07-04 12:34:00 智源社区

1、Geoffrey Hinton:我的五十年深度学习生涯与研究心法

 

饱经风霜之后,这位已经74岁的“深度学习教父”依然奋战在AI研究一线,他不惮于其他学者发出的质疑,也会坦然承认那些没有实现的判断和预言。不管怎样,他仍然相信,在深度学习崛起十年之后,这一技术会继续释放它的能量,而他也在思索和寻找下一个突破点。

 

https://mp.weixin.qq.com/s/kRdlK3VEqeKSr9up0ay5dg

 

2、Google 辟谣放弃 TensorFlow

 

展望 TensorFlow 的未来,Google 进一步表明了态度,「我们打算继续开发 TensorFlow,作为应用 ML 的一流平台,与 JAX 并肩,推动 ML 的研究范围。我们将继续投资这两个 ML 框架,以推动数百万用户的研究和应用。」

 

https://mp.weixin.qq.com/s/JAGHRVUb1Mla_wIWoyJPeA

 

3、封神框架正式开源,轻松预训练和微调“封神榜”各大模型

 

FengShen是为“封神榜”系列大模型量身定制的预训练模型框架。封神榜团队专注中文NLP大模型开源,然而模型增大带来的不仅仅是训练难度的增加,使用难度也水涨船高。有了FengShen,用户可以根据自己的需求,从“封神榜”上挑选预训练模型,再利用FengShen快速微调下游任务。

 

https://mp.weixin.qq.com/s/NtaEVMdTxzTJfVr-uQ419Q

 

 

4、训练GPT-3,为什么原有的深度学习框架吃不消?

 

本文将重点梳理深度学习框架在支持大规模预训练模型时面临的技术挑战,以及当前各类框架的基本解决思路,帮助算法工程师对业界各类框架的分布式训练能力有更清晰的认知。

 

https://mp.weixin.qq.com/s/qZ6qYfAX442vQBiJXwt6uA

 

5、对抗软件系统复杂性①:如无必要,勿增实体

 

我们经常面临如何评价一个大型软件系统质量的问题。首要的评价指标肯定是功能,软件是否满足主要的需求(do right things)。如果有多条技术路径可以实现同样的功能,人们倾向于选择更简单的办法。奥卡姆剃刀准则“如无必要,勿增实体”非常好的概括了这种偏好,对简单的偏好是为了对抗复杂性的挑战,其底层逻辑是:“简单的才是对路的”(do things right)。

 

https://mp.weixin.qq.com/s/TmbTQYakDcDEh7nbnfumPQ

 

 

6、如何开发机器学习系统:高性能GPU矩阵乘法

 

现代机器学习框架会把用户的Python程序进行编译为调用GPU算子的数据流程序。矩阵乘法作为众多GPU算子的基础操作,如何优化其性能便成为了重中之重。更重要的是,在优化矩阵乘法的过程中,我们会使用许多GPU的高性能开发技巧。这些技巧会在开发各种GPU算子(卷积,池化等)频繁使用的。因此,通过理解高性能GPU乘法,掌握GPU使用技巧将会成为各大AI公司和高校的重要教授内容。

 

https://zhuanlan.zhihu.com/p/531498210

 

7、针对深度学习的GPU共享

 

GPU共享涉及到的技术面较广,包括GPU架构(计算,存储等),Cuda,IO(内存,显存),机器学习框架(Tf,Pytorch),集群&调度,ML/DL算法特性,通信(单机内和多机间),逆向工程等等,是一个自上而下的工作。本篇文章希望能提供一个对GPU共享工作的分享,希望能和相关领域的研究者们共同讨论。

 

https://zhuanlan.zhihu.com/p/285994980

 

 

8、深入浅出GPU优化系列:reduce优化

 

本篇文章主要是介绍如何对GPU中的reduce算法进行优化。目前针对reduce的优化,Nvidia的官方文档reduce优化已经说得比较详细,但是过于精简,很多东西一笔而过。对于初入该领域的新人而言,理解起来还是较为费劲。因而在官方文档的基础,进行更深入地说明和讲解,尽可能地让每一个读者通过此文都能彻底地了解reduce的优化技术。

 

https://zhuanlan.zhihu.com/p/426978026

 

9、从MLPerf谈起:如何引领AI加速器的下一波浪潮

 

也许,如果脱离张量密集型模型就能实现“AI加速2.0”,迎来AI硬件的下一波浪潮。那时,“AI加速2.0”不需要将矩阵相乘,但支持不规则的计算模式,并拥有灵活的表征和任意并行化的计算引擎。具有这些特性的加速器(或此类加速器的异构集成)将拥有更广泛的应用范围,也更接近真正的AI。

 

https://mp.weixin.qq.com/s/n116POs9H9v5wqJA7_km6A

 

10、写给小白的开源编译器

 

the-super-tiny-compiler 这个宝藏级的开源项目,它是一个仅 1000 行左右的迷你编译器,其中注释占了代码量的 80%,实际代码只有 200 行!麻雀虽小但五脏俱全,完整地实现了编译器所需基本功能,通过 代码+注释+讲解 让你通过一个开源项目入门编译器。

https://zhuanlan.zhihu.com/p/515999515

 

 

11、OneFlow源码解析:算子签名的自动推断

 

深度学习框架是一个复杂的系统,而用户使用最多的就是算子(op)。用户通过op构造模型,进行训练、预测。这个笔记就从op入手,看看从Python前端到C++底层,OneFlow如何执行算子的计算逻辑。

 

https://mp.weixin.qq.com/s/_0w3qhIk2e8Dm9_csCfEcQ

 

其他人都在看

欢迎体验OneFlow v0.7.0:https://github.com/Oneflow-Inc/oneflow/

 

原网站

版权声明
本文为[智源社区]所创,转载请带上原文链接,感谢
https://hub.baai.ac.cn/views/18590