当前位置:网站首页>HMS Core音频编辑服务音源分离与空间音频渲染,助力快速进入3D音频的世界
HMS Core音频编辑服务音源分离与空间音频渲染,助力快速进入3D音频的世界
2022-07-29 16:08:00 【华为移动服务】
从单声道、立体声、环绕声发展到三维声,音频回放技术的迭代演进是为了还原真实世界的声音。其中,三维声技术使用信号处理的方法对到达两耳的声音信号进行模拟,将声场还原为三维空间,更接近真实世界。凭借这个技术,各厂商在游戏、影视、音乐等场景中为用户创造更真实自然且沉浸的听觉体验,也实现了更好的用户订阅增长。
传统3D音频的制作需获取原始的分轨素材(如录制的人声、钢琴声等),并使用专业的数字音频工作站(DAW)和3D混音插件手工制作,因此制作周期长、生产效率低、成本高、门槛高。此外,开发者由于没有歌曲的原始分轨,因此通过传统方法进行3D音频制作的难度很大。HMS Core音频编辑服务(Audio Editor Kit)提供了音源分离(获取分轨)、空间音频渲染能力,开发者仅需输入立体声,就能快速生成3D音频内容,提升用户音频体验和提升产品竞争力!
HMS Core音频编辑服务3D音频生成示意图
音源分离技术
由于我们当前接触到的音频大都是立体声,所有音频对象(如音乐中的人声、钢琴、吉他等)都已经混合在左右两个声道当中,无法轻易地分开,更不要提将其渲染放置在不同的空间位置,因此将立体声中的特定元素分离是3D化的一个核心技术。
华为算法团队通过对大量的音乐进行深度学习建模,并结合传统信号处理能力最终实现音源分离:首先利用短时傅里叶变换(STFT)将一维的音频信号变换到二维的时频谱;然后将得到的二维的时频谱与原始的一维时域信号一起作为双流输入,通过多层的残差编码及大量数据的训练,获得目标乐器的隐空间表达;最后进一步通过一系列的变换矩阵最终还原成原始的对象立体声信号。 上述处理过程中使用的变换矩阵和网络结构是华为的独特技术,是针对不同的乐器音色特点专门设计的,能够确保每一个乐器都能尽可能的分离完整且干净,为3D化提供足够优质的分轨素材。其涉及的核心能力包括:
1、 音频信号特征提取:包括通过编码器从时域信号直接提取特征,以及通过短时傅里叶变换从时域信号提取时频谱特征;
2、 深度学习模型构建:加入残差模块与注意力机制,增强对不同乐器谐波建模能力与时序关联能力;
3、 多通道维纳滤波:结合传统信号处理的能力,通过深度学习建模预测对象与非对象功率谱关系,构建与处理滤波系数。
音频分离技术示意图
目前,HMS Core已对外开放了12种音源分离的能力(人声、伴奏、鼓、小提琴、贝斯、钢琴、木吉他、电吉他、弦乐、主唱、带伴唱伴奏和管弦乐),帮助开发者快速地提取出自己想要的乐器进行3D化编辑。
空间音频渲染技术
仅通过两只耳朵收听外部声音,人类为什么可分辨声源的位置呢?这是由于从声源传递到两只耳朵的声音实际上存在细微的差异,包括到达时间、接收到的能量、以及相位差等信息。而这些信息差综合体现在一系列传递函数,称为头相关传递函数(HRTF)。通过将HRTF叠加到单点声源,我们就可以虚拟出真实世界中声音的方位直达声的部分。为解决因头型、肩宽等人体体征的差异带来的HRTF因人而异的难题,我们通过大量数据的分析,设计了一套较普适的HRTF,可以让每个人都能享受到3D音频。另外为了营造空间中声音的反射、散射、干涉等物理现象,我们还通过叠加一系列的房间相应函数(RIR)来构建真实的空间,形成所谓的混响。因此,通过一系列的HRTF和RIR对声源进行滤波,我们就可以将之前分离的素材进行3D化,形成3D音乐。
空间音频渲染技术示意图
目前,HMS Core音频编辑服务提供的音源分离、空间音频渲染服务这套组合拳已经应用在华为音乐的高级音效当中,用户可以进入华为音乐音效页面,在高级音效栏目中选择声空音效或声乐纯享,感受3D音频的魅力。
华为音乐声空音效与声乐纯享功能
以上技术来自华为2012实验室,通过HMS Core音频编辑服务面向开发者开放,在音乐音频领域为用户带来差异化的3D音频体验。其他更多关于HMS Core音频编辑服务的信息,请访问华为开发者联盟-HMS Core音频编辑服务官网
了解更多详情>>
访问华为开发者联盟官网
获取开发指导文档
华为移动服务开源仓库地址:GitHub、Gitee
关注我们,第一时间了解 HMS Core 最新技术资讯~
边栏推荐
猜你喜欢
pycaret在钻石数据集上的使用 - 回归问题
【服务器存储数据恢复】华为OceanStor某型号存储raid5硬盘故障离线,热备盘同步数据失败导致raid崩溃的数据恢复案例
Twin all things digital visual | join the real world and the digital space
Moving forward steadily without forgetting the original intention, Volvo's sense of security comes from the public's recognition
Knowledge map construction whole process
Nuggets quantification: Obtain data through the history method, and use the same proportional weighting factor as Sina Finance and Snowball.different from a flush
两军交锋
Flutter动态化 | Fair 2.6.0 新版本特性
【地形】【虚拟纹理】地形虚拟纹理技术介绍
STC8h1k28六个基本实验
随机推荐
Practice of Weibo Advertising Operation and Maintenance Technology Supporting Ten Billions of Requests
uni-app判断平台开发环境和生产环境
【软考软件评测师】自动化测试章节上篇
如何在C语言中定义自己的数据类型?
MUD DAO火爆入世,DAO主轮募集蓄势待发
再见Postman!一款更适合国人的接口管理工具
华虹半导体四季度营收再创历史新高,同比增长15.4%
[Server Storage Data Recovery] A data recovery case of a RAID 5 crash caused by the failure of a certain model of Huawei OceanStor storage RAID 5 hard disk and the failure to synchronize data with the
微信公众号借助小程序云函数实现支付功能
Flutter动态化 | Fair 2.6.0 新版本特性
1802. 有界数组中指定下标处的最大值【贪心 +二分】
Win11 最新补丁更新破坏了任务栏中的“开始”菜单
TensorFlow Serving high-performance machine learning model of service system
This article penetrates the architecture design and cluster construction of the distributed storage system Ceph (hands-on)
Google Play 政策更新 | 2022 年 7 月
CRM如何帮助企业营销获客
718. 最长重复子数组
商城商品的知识图谱构建
[C语言刷题篇]链表运用讲解
CRM如何帮助企业营销获客