当前位置:网站首页>从云原生到智能化,深度解读行业首个「视频直播技术最佳实践图谱」
从云原生到智能化,深度解读行业首个「视频直播技术最佳实践图谱」
2022-07-25 11:15:00 【阿里云视频云】

在2022阿里云直播峰会上,多位直播产业领域技术专家与行业先行者,共同探讨超视频化时代视频直播技术的演进趋势与未来发展。会上,阿里云重磅发布了行业首个「视频直播技术最佳实践图谱」,将直播技术归纳总结为7点:云原生、高可靠、低延时、超高清、智能化、专业性及多场景,本文将对「视频直播技术最佳实践图谱」进行深度解读。
视频直播的趋势就是极致降低延时,其包含传输延时和计算延时。
谈到延时,大众对于延时的理解主要集中在传输延时上,依据视频的延时,可以将视频分成点播、直播、连麦互动、实时互动等。
- 当传输的延时在3-10秒,这样的视频具备可广播的属性,如:体育赛事直播;
- 当传输的延时在250-800毫秒之间,可进行沟通、互动,如:互动课堂连麦等;
- 当传输的延时降低至50-80毫秒,此时视频便具有可操控性和沉浸感,如:云实时3D渲染、远程视频操控……

除了传输延时,视频的编解码、高清化等技术的计算也会带来算力的延时。紧随直播的趋势,如何能将传输延时和计算延时不断降低,为更多直播场景带来技术支撑及想象空间?
阿里云的直播技术基于云原生的底座和分布式边缘节点,通过对传输协议的改造,融合实时媒体处理能力与边缘算力,能够大幅有效降低传输延时与计算延时,并通过全球实时流媒体传输网络GRTN(Global Real-time Transport Network)、超低延时直播服务RTS(Real-time Streaming)、实时媒体处理能力、视频+AI等技术应用,完成低延时的最佳实践,实现成本与体验的最佳平衡,在带来众多通用直播解决方案的同时,也衍生出众多场景化解决方案。
本次峰会发布的行业首个「视频直播技术最佳实践图谱」,是经过阿里云多年的直播技术探索与实践沉淀而来的,归纳总结为7大点:云原生、高可靠、低延时、超高清、智能化、专业性及多场景。

云原生
视频技术就是云原生的最佳实践。
阿里云所倡导的云原生主要有三点:“产品的服务化”,“随意的弹性”,“软硬一体、云边一体、云端一体”,而视频技术恰恰就是云原生的最佳实践。
云的基础设施,包括中心节点、边缘节点、CDN网络是保障大规模分发和传输的基础;云原生的软硬一体,能支持CPU/GPU/FPGA/ASIC等多种软硬件异构方案;云与端的紧密协同和算力分配,能实现云、移动端、Web端、PC端渲染效果一致。
除此之外,云原生的时间、空间、异构弹性,不仅能支持数十种业务混跑,云边端计算量化灵活调整,还能实现100+种实时传输、媒体处理、AI任务多机型异构混跑,给视频业务带来无限的算力的同时将资源充分有效利用起来,大幅降低成本,衍生出更多新场景。

高可靠
热点视频有千万级的实时并发,高可靠是最基本的要求。
视频直播技术需要高可靠,尤其是热点视频往往会带来百万、千万级的并发,此时高可靠是最基本的要求。阿里云的视频技术高可靠主要体现两方面,一是在架构上拥有全链路日志/监测/报警/预测和高可靠、多副本的秒级切换,能实现智能自动化运维和接入网络秒级信息排查,带来跨中心逃逸能力及容灾服务保障。
高可靠的第二个方面,体现在对弱网体验的提升。阿里云独有的QoS技术,能对带宽进行精准预测,大幅提升带宽利用率和拥塞控制能力,同时结合编码器的弱网感知和抗丢包技术,能在70%的丢包状态下仍达到较高清晰度和流畅性。基于深度学习的智能语音丢包补偿,能提升弱网状态下的音频清晰度,而麦上麦下延迟敏感自适应技术,能在多场景下实现音频流畅性和通话延迟的平衡。QoS技术能识别和动态适配如:丢包、延时等多种网络场景,大大提升终端用户对业务性能的音视频主观感受。

低延时
GRTN打造最佳流媒体实践场景。
延时指的是主播端的画面传递到用户屏幕所耗费的时间,当排除网络、码流、设备性能的情况下,在不同的直播场景中选用合适的直播流协议,能大大降低直播的延时。回顾直播的历史,也是直播协议的历史,主流的协议有耳熟能详的HLS、DASH、RTMP等,延时普遍在5s以上,在强互动的需求下,直播协议也在不断向低延时转化,比如:SRT、LL-HLS等。

阿里云在低延时上的最佳实践,主要在两个方面。一是在网络层面,将传统的CDN内容分发网络改造成GRTN全球实时传输网,其定位是基于中心云和边缘云的异构节点,构建超低延时、全分布式下沉的通信级流媒体传输网络。
GRTN目前融合了互联网直播和RTC等多种业务场景的音视频流传输和交换,并具有众多其他核心技术,如:GRTN构建的双向的实时信令网能够做到切网消息的毫秒级传递,当有一个发布端的媒体流发生网络切换后,订阅的客户端对GRTN内部发生的切换行为是完全无感知的。

二是在这“一张网”上,阿里云打造了超低延时直播服务RTS(Real-Time Streaming)。基于GRTN的短延时直播RTS可以支持标准H5 WebRTC推播,在千万级并发情况下延时可以控制在1s以内;RTC端到端延时可以控制在250ms左右。观看下方RTS和RTMP的直播协议的对比视频,可以发现在有一定丢包率的情况下,RTS在体验、流畅度和色彩上都相对RTMP有明显的优势。
RTS与RTMP延迟对比
超高清
成本与体验的最佳调和,带来更沉浸、更极致的音视频体验。
关于超高清在视频直播技术中的实践,阿里云自研的s265编码技术能实现高画质低码率,并支持4K实时编码;支持AV1编码,较HEVC节省25%以上的码率。大众熟知的“窄带高清”技术,窄高1.0对多场景进行优化,通过RIO和JND智能编码节约码率,窄高2.0自适应视频降噪和内容修复,通过色彩和纹理增强提升人眼主观画质,带来体验和成本的最佳调和。

与此同时,阿里云在直播技术上还对采集编码传输链路进行优化,全链路支持4K和8K。在工程上,通过各类算法对帧率、码率、分辨率、色彩等各维度进行提升,无论是老片、瑕疵、人像、还是动画场景,都能进行修复带来超高清的体验。
除了在云端对视频进行处理,还能在端侧进行超分插帧、降噪、色彩增强等,即使是非HDR的设备,通过色彩增强SDR+技术,也能实现端侧一致的超高清体验。

端侧超高清对比

色彩增强SDR+技术
智能化
在超视频化时代,音视频的智能化是一大趋势。
深度学习能带来各类AI能力的提升,在视频实践上是最好的一个出口。在智能化方面,阿里云的视频直播技术,除了传统的智能配音、智能拆条、智能集锦,还能对音视频内容实时审核,针对黄反暴恐广告实现精准识别,节省了大量的人工甄别成本。

经过训练的虚拟人技术,支持3D头像、Live2D、风格化迁移、虚拟主播等,带来更多XR技术的演进。此外,“智能化”还体现在音频体验上,基于深度学习技术与传统信号处理有机结合的3A技术,能实现智能降噪、突出人声、无损音乐,并可以广泛应用于各类实时场景。智能语音超分技术,在小模型的情况下仍可保持高音质,这些都是AI与视频结合带来的效果。
“智能降噪”的多场景体验
专业性
专业性,让直播逐渐演变成“智播”。
阿里云对于直播技术的专业性体现在多码率、多协议、内容保护和实时制作上,直播逐渐演变为“智播”。值得一提的是,在实时制作方面,阿里云将传统导播台云端再造,融合实时翻译、图文包装、动态标签、广告替换等导播创新能力,兼顾直播专业性与远程导播优势。

同时,基于多路实时实景抠像,阿里云还曾将“虚拟演播室”搬到冬奥现场。阿里云的“云导播”技术,不仅支持多种设备、多机位、异地开播,还能够实现双屏、分屏、画中画等开播场景,最大程度贴近直播需求。
互动虚拟演播室助力冬奥
阿里云在直播技术上的专业性结合“云导播”丰富的节目制作形式、更低的成本,能够广泛应用到广电新媒体、赛事直播、活动直播、商业直播等场景中,帮助客户打破业务瓶颈,更快更好地开展业务。
《这!就是街舞》云导播+帧级别多视角同步
多场景
“直播+”已成为一种趋势,渗透到各个场景。
从场景来看,直播从最早的大型文体直播、电商直播、游戏直播逐渐渗透到企业培训、在线教育、广电新媒体场景。阿里云将直播、点播、在线会议的各种算法能力都集成到同一个SDK里面,实现多场景融合的同时,一体化SDK还能按需打包实现灵活的自定义。
从传统的SDK接入、API接入到“低代码直播样板间”,阿里云直播针对电商直播、在线教育、企业直播等提供一站式接入的场景方案,通过简单的三步对接和十几行代码,让客户轻松接入直播的体验,助力业务的发展。

当前,直播业务已成为数字化社会服务的重要组成部分,越来越多的内容与产业转向“直播+”模式,直播技术发展的未来图景随着市场需求变化更加清晰。
「视频直播技术最佳实践图谱」正是基于阿里云在直播技术上多年的探索和最佳实践,从直播技术的核心,到直播的全场景覆盖,再到直播技术创新与应用,助力企业深度理解“直播”,打破技术壁垒,携手各行各业在万物互联的浪潮中不断更迭与前行。
「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。公众号后台回复【技术】可加入阿里云视频云产品技术交流群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。
边栏推荐
- 【AI4Code】《Unified Pre-training for Program Understanding and Generation》 NAACL 2021
- JVM performance tuning methods
- 【云驻共创】AI在数学界有哪些作用?未来对数学界会有哪些颠覆性影响?
- PHP 上传ftp路径文件到外网服务器上 curl base64图片
- 微星主板前面板耳机插孔无声音输出问题【已解决】
- How to solve the problem of the error reported by the Flink SQL client when connecting to MySQL?
- php 一台服务器传图片到另一台上 curl post file_get_contents保存图片
- Innovation and breakthrough! AsiaInfo technology helped a province of China Mobile complete the independent and controllable transformation of its core accounting database
- Functions in JS
- 知识图谱用于推荐系统问题(MVIN,KERL,CKAN,KRED,GAEAT)
猜你喜欢

Video Caption(跨模态视频摘要/字幕生成)

【AI4Code】《GraphCodeBERT: Pre-Training Code Representations With DataFlow》 ICLR 2021

Heterogeneous graph neural network for recommendation system problems (ackrec, hfgn)
![[multimodal] hit: hierarchical transformer with momentum contract for video text retrieval iccv 2021](/img/48/d5ec2b80cd949b359bcb0bcf08f4eb.png)
[multimodal] hit: hierarchical transformer with momentum contract for video text retrieval iccv 2021

阿里云技术专家秦隆:可靠性保障必备——云上如何进行混沌工程

【多模态】《TransRec: Learning Transferable Recommendation from Mixture-of-Modality Feedback》 Arxiv‘22
![[untitled]](/img/83/9b9a0de33d48f7d041acac8cfe5d6a.png)
[untitled]

【GCN-RS】Are Graph Augmentations Necessary? Simple Graph Contrastive Learning for RS (SIGIR‘22)

brpc源码解析(四)—— Bthread机制

创新突破!亚信科技助力中国移动某省完成核心账务数据库自主可控改造
随机推荐
【无标题】
奉劝那些刚参加工作的学弟学妹们:要想进大厂,这些并发编程知识是你必须要掌握的!完整学习路线!!(建议收藏)
JS运算符
Application and innovation of low code technology in logistics management
已解决 Files‘ name is invalid or does not exist (1205)
brpc源码解析(三)—— 请求其他服务器以及往socket写数据的机制
LeetCode第303场周赛(20220724)
Transformer变体(Sparse Transformer,Longformer,Switch Transformer)
PHP one server sends pictures to another. Curl post file_ get_ Contents save pictures
JS数据类型以及相互转换
【高并发】我用10张图总结出了这份并发编程最佳学习路线!!(建议收藏)
Web APIs(获取元素 事件基础 操作元素)
【AI4Code】《CodeBERT: A Pre-Trained Model for Programming and Natural Languages》 EMNLP 2020
toString()与new String()用法区别
Javescript loop
[USB device design] - composite device, dual hid high-speed (64BYTE and 1024byte)
对比学习的应用(LCGNN,VideoMoCo,GraphCL,XMC-GAN)
I advise those students who have just joined the work: if you want to enter the big factory, you must master these concurrent programming knowledge! Complete learning route!! (recommended Collection)
Objects in JS
什么是全局事件总线?