当前位置:网站首页>HMS Core音频编辑服务音源分离与空间音频渲染,助力快速进入3D音频的世界
HMS Core音频编辑服务音源分离与空间音频渲染,助力快速进入3D音频的世界
2022-07-30 20:01:00 【nginx】
传统3D音频的制作需获取原始的分轨素材(如录制的人声、钢琴声等),并使用专业的数字音频工作站(DAW)和3D混音插件手工制作,因此制作周期长、生产效率低、成本高、门槛高。此外,开发者由于没有歌曲的原始分轨,因此通过传统方法进行3D音频制作的难度很大。HMS Core音频编辑服务(Audio Editor Kit)提供了音源分离(获取分轨)、空间音频渲染能力,开发者仅需输入立体声,就能快速生成3D音频内容,提升用户音频体验和提升产品竞争力!

HMS Core音频编辑服务3D音频生成示意图
音源分离技术
由于我们当前接触到的音频大都是立体声,所有音频对象(如音乐中的人声、钢琴、吉他等)都已经混合在左右两个声道当中,无法轻易地分开,更不要提将其渲染放置在不同的空间位置,因此将立体声中的特定元素分离是3D化的一个核心技术。
华为算法团队通过对大量的音乐进行深度学习建模,并结合传统信号处理能力最终实现音源分离:首先利用短时傅里叶变换(STFT)将一维的音频信号变换到二维的时频谱;然后将得到的二维的时频谱与原始的一维时域信号一起作为双流输入,通过多层的残差编码及大量数据的训练,获得目标乐器的隐空间表达;最后进一步通过一系列的变换矩阵最终还原成原始的对象立体声信号。
上述处理过程中使用的变换矩阵和网络结构是华为的独特技术,是针对不同的乐器音色特点专门设计的,能够确保每一个乐器都能尽可能的分离完整且干净,为3D化提供足够优质的分轨素材。其涉及的核心能力包括:
1、音频信号特征提取:包括通过编码器从时域信号直接提取特征,以及通过短时傅里叶变换从时域信号提取时频谱特征;
2、深度学习模型构建:加入残差模块与注意力机制,增强对不同乐器谐波建模能力与时序关联能力;
3、多通道维纳滤波:结合传统信号处理的能力,通过深度学习建模预测对象与非对象功率谱关系,构建与处理滤波系数。

音频分离技术示意图
目前,HMS Core已对外开放了12种音源分离的能力(人声、伴奏、鼓、小提琴、贝斯、钢琴、木吉他、电吉他、弦乐、主唱、带伴唱伴奏和管弦乐),帮助开发者快速地提取出自己想要的乐器进行3D化编辑。
空间音频渲染技术
仅通过两只耳朵收听外部声音,人类为什么可分辨声源的位置呢?这是由于从声源传递到两只耳朵的声音实际上存在细微的差异,包括到达时间、接收到的能量、以及相位差等信息。而这些信息差综合体现在一系列传递函数,称为头相关传递函数(HRTF)。通过将HRTF叠加到单点声源,我们就可以虚拟出真实世界中声音的方位直达声的部分。为解决因头型、肩宽等人体体征的差异带来的HRTF因人而异的难题,我们通过大量数据的分析,设计了一套较普适的HRTF,可以让每个人都能享受到3D音频。另外为了营造空间中声音的反射、散射、干涉等物理现象,我们还通过叠加一系列的房间相应函数(RIR)来构建真实的空间,形成所谓的混响。因此,通过一系列的HRTF和RIR对声源进行滤波,我们就可以将之前分离的素材进行3D化,形成3D音乐。

空间音频渲染技术示意图
目前,HMS Core音频编辑服务提供的音源分离、空间音频渲染服务这套组合拳已经应用在华为音乐的高级音效当中,用户可以进入华为音乐音效页面,在高级音效栏目中选择声空音效或声乐纯享,感受3D音频的魅力。

华为音乐声空音效与声乐纯享功能
以上技术来自华为2012实验室,通过HMS Core音频编辑服务面向开发者开放,在音乐音频领域为用户带来差异化的3D音频体验。其他更多关于HMS Core音频编辑服务的信息,请访问华为开发者联盟-HMS Core音频编辑服务官网
了解更多详情>>
访问华为开发者联盟官网
获取开发指导文档
华为移动服务开源仓库地址:GitHub、Gitee
关注我们,第一时间了解 HMS Core 最新技术资讯~
边栏推荐
- Apple Silicon配置二进制环境(一)
- MySQL database - DQL data query language
- Frog jumping steps (recursive and non-recursive) ------- Xiaolele walks the steps
- MySql密码
- PHP低代码开发平台 V5.0.7新版发布
- How to install and use PostgreSQL 14.4
- JUnit 5测试中的临时目录(附实例及代码)
- MySQL数据库字段超长问题
- Common Expression Recognition Based on Face (1) - Basic Knowledge of Deep Learning
- MySQL kills 10 questions, how many questions can you stick to?
猜你喜欢

Cesium加载离线地图和离线地形

vookloop函数怎么用?vlookup函数的使用方法介绍

centos7安装mysql8

推荐系统:AB测试(AB Test)

ECCV2022 | 对比视觉Transformer的在线持续学习

mysql慢查询优化

M3SDA:用于多源域自适应的矩匹配

【PM专用】快速统计团队还有谁没有登记上报信息,快速筛选出属于自己项目组的成员,未完成XXX工作事项的名单

从离线到实时对客,湖仓一体释放全量数据价值

Recommender systems: overview of the characteristics of architecture: user/item engineering -- -- -- -- -- -- -- -- > recall layer > sort layer - > test/evaluation 】 【 cold start problems, real-time 】
随机推荐
网络层协议------IP协议
推荐系统-模型:FNN模型(FM+MLP=FNN)
Maxwell 一款简单易上手的实时抓取Mysql数据的软件
Database indexes: indexes are not a panacea
[flink] Error finishing Could not instantiate the executor. Make sure a planner module is on the classpath
excel数字如何转换成文本?excel表格数据转换成文本的方法
ERROR 1045 (28000) Access denied for user 'root'@'localhost'Solution
Download and installation of the latest version of MySQL 8.0 under Linux (detailed steps)
MySQL数据库 ---MySQL表的增删改查(进阶)
用jOOQ 3.17投射类型安全的嵌套表记录
.eslintrc.js for musicApp
【视频】极值理论EVT与R语言应用:GPD模型火灾损失分布分析
MySQL sub-database sub-table
推荐系统:评估指标【离线评估指标:RMSE(均方根误差)、AUC、准确率、召回率、F1】【在线评估:A/B测试】【一般要求响应时间<0.5s】
PostgreSQL 14.4如何安装使用
一文2500字手把手教你配置Jenkins自动化邮件通知
推荐系统:冷启动问题【用户冷启动、物品冷启动、系统冷启动】
并发与并行的区别
ceph的部署练习
WPS怎么独立窗口显示?wps单独窗口显示怎么操作?