当前位置:网站首页>HMS Core音频编辑服务音源分离与空间音频渲染,助力快速进入3D音频的世界
HMS Core音频编辑服务音源分离与空间音频渲染,助力快速进入3D音频的世界
2022-07-30 20:01:00 【nginx】
传统3D音频的制作需获取原始的分轨素材(如录制的人声、钢琴声等),并使用专业的数字音频工作站(DAW)和3D混音插件手工制作,因此制作周期长、生产效率低、成本高、门槛高。此外,开发者由于没有歌曲的原始分轨,因此通过传统方法进行3D音频制作的难度很大。HMS Core音频编辑服务(Audio Editor Kit)提供了音源分离(获取分轨)、空间音频渲染能力,开发者仅需输入立体声,就能快速生成3D音频内容,提升用户音频体验和提升产品竞争力!

HMS Core音频编辑服务3D音频生成示意图
音源分离技术
由于我们当前接触到的音频大都是立体声,所有音频对象(如音乐中的人声、钢琴、吉他等)都已经混合在左右两个声道当中,无法轻易地分开,更不要提将其渲染放置在不同的空间位置,因此将立体声中的特定元素分离是3D化的一个核心技术。
华为算法团队通过对大量的音乐进行深度学习建模,并结合传统信号处理能力最终实现音源分离:首先利用短时傅里叶变换(STFT)将一维的音频信号变换到二维的时频谱;然后将得到的二维的时频谱与原始的一维时域信号一起作为双流输入,通过多层的残差编码及大量数据的训练,获得目标乐器的隐空间表达;最后进一步通过一系列的变换矩阵最终还原成原始的对象立体声信号。
上述处理过程中使用的变换矩阵和网络结构是华为的独特技术,是针对不同的乐器音色特点专门设计的,能够确保每一个乐器都能尽可能的分离完整且干净,为3D化提供足够优质的分轨素材。其涉及的核心能力包括:
1、音频信号特征提取:包括通过编码器从时域信号直接提取特征,以及通过短时傅里叶变换从时域信号提取时频谱特征;
2、深度学习模型构建:加入残差模块与注意力机制,增强对不同乐器谐波建模能力与时序关联能力;
3、多通道维纳滤波:结合传统信号处理的能力,通过深度学习建模预测对象与非对象功率谱关系,构建与处理滤波系数。

音频分离技术示意图
目前,HMS Core已对外开放了12种音源分离的能力(人声、伴奏、鼓、小提琴、贝斯、钢琴、木吉他、电吉他、弦乐、主唱、带伴唱伴奏和管弦乐),帮助开发者快速地提取出自己想要的乐器进行3D化编辑。
空间音频渲染技术
仅通过两只耳朵收听外部声音,人类为什么可分辨声源的位置呢?这是由于从声源传递到两只耳朵的声音实际上存在细微的差异,包括到达时间、接收到的能量、以及相位差等信息。而这些信息差综合体现在一系列传递函数,称为头相关传递函数(HRTF)。通过将HRTF叠加到单点声源,我们就可以虚拟出真实世界中声音的方位直达声的部分。为解决因头型、肩宽等人体体征的差异带来的HRTF因人而异的难题,我们通过大量数据的分析,设计了一套较普适的HRTF,可以让每个人都能享受到3D音频。另外为了营造空间中声音的反射、散射、干涉等物理现象,我们还通过叠加一系列的房间相应函数(RIR)来构建真实的空间,形成所谓的混响。因此,通过一系列的HRTF和RIR对声源进行滤波,我们就可以将之前分离的素材进行3D化,形成3D音乐。

空间音频渲染技术示意图
目前,HMS Core音频编辑服务提供的音源分离、空间音频渲染服务这套组合拳已经应用在华为音乐的高级音效当中,用户可以进入华为音乐音效页面,在高级音效栏目中选择声空音效或声乐纯享,感受3D音频的魅力。

华为音乐声空音效与声乐纯享功能
以上技术来自华为2012实验室,通过HMS Core音频编辑服务面向开发者开放,在音乐音频领域为用户带来差异化的3D音频体验。其他更多关于HMS Core音频编辑服务的信息,请访问华为开发者联盟-HMS Core音频编辑服务官网
了解更多详情>>
访问华为开发者联盟官网
获取开发指导文档
华为移动服务开源仓库地址:GitHub、Gitee
关注我们,第一时间了解 HMS Core 最新技术资讯~
边栏推荐
- el-input can only input integers (including positive numbers, negative numbers, 0) or only integers (including positive numbers, negative numbers, 0) and decimals
- The technology is very powerful, do you still need to "manage up"?
- 基于人脸的常见表情识别(2)——数据获取与整理
- 推荐系统-排序层-模型(一):Embedding + MLP(多层感知机)模型【Deep Crossing模型:经典的Embedding+MLP模型结构】
- Common Expression Recognition Based on Face (1) - Basic Knowledge of Deep Learning
- 如何优化OpenSumi终端性能?
- 移动web开发01
- How to build FTP server under win2003
- 倾斜文档扫描与字符识别(opencv,坐标变换分析)
- 对int变量赋值的操作是原子的吗?
猜你喜欢
随机推荐
After watching "Second Uncle", I was even more internalized
Linux download and install mysql5.7 version tutorial the most complete and detailed explanation
MySQL数据库之JDBC编程
ERROR 1045 (28000) Access denied for user 'root'@'localhost'Solution
推荐系统:AB测试(AB Test)
【请教】SQL语句按列1去重来计算列2之和?
4年测试经验去面试10分钟就被赶出来了,面试官说我还不如应届生?都这么卷吗...
数据库索引:索引并不是万能药
jOOQ是如何设计事务API(详细指南)
The technology is very powerful, do you still need to "manage up"?
MySQL数据库 ---MySQL表的增删改查(进阶)
win2003下FTP服务器如何搭建
After MySQL grouping, take the largest piece of data [optimal solution]
阿里面试官:给我描述一下缓存击穿的现象,并说说你的解决思路?
MySQL database --- Addition, deletion, modification and query of MySQL tables (advanced)
推荐系统:冷启动问题【用户冷启动、物品冷启动、系统冷启动】
Based on the face of the common expression recognition - model building, training and testing
时间复杂度与空间复杂度
Different lower_case_table_names settings for server (‘1‘) and data dictionary (‘0‘) 解决方案
halcon——轮廓线









