当前位置:网站首页>声纹技术(五):声纹分割聚类技术
声纹技术(五):声纹分割聚类技术
2022-06-25 07:36:00 【u013250861】
5.1 分割聚类:更好地理解对话语音
5.1.1 关于名称与历史
声纹分割聚类(speaker diarization)是声纹领域里仅次于声纹识别的第二大课题,其难度远大于声纹识别。声纹识别所解决的问题可以简单概括为——“这是谁说的”,而这其中便包含了一个假设,那就是已知待识别的语音中,有且仅有一个说话人的声音。而在声纹分割聚类问题中,我们却推翻了这个假设,也就是说,一段语音中可以包含多个说话人交替说话的声音。因此,声纹分割聚类所解决的问题可以概括为——“谁在什么时间说的”(who spoke when)。
英文中diarization 一词,来源于单词diary,也就是日记或日志。从diary 到动词diarize,再到名词diarization,从字面来说,可以理解为“使……成为日志”,或者说“日志化”。一般而言,一篇日志通常会记载在一天的时间里,什么人在什么时间做了什么事。那么引申到speaker diarization,自然就可以理解为“什么人在什么时间说了什么话”。
关于speaker diarization 这个名称最早的由来,已经难以考究了。一些早期的文献直接将该问题称作speaker segmentation and clustering [114,115],这也是为什么较多的中文文献将其翻译为“声纹分割聚类”[116]。不过随着该领域的发展,尤其是近年来监督式方法(见5.5 节)甚至是端到端模型(见5.5.6 节)的出现,“分割聚类”这个名称已经不再合适了。无论是分割还是聚类,都可以用其他方法来替代。笔者比较喜欢的另一个中文翻译是“声纹分时归档”
边栏推荐
- SharePoint:SharePoint 2013 with SP1 简易安装
- Hyper-v:Hyper-v 第 1 代或第 2 代虚拟机
- SharePoint:SharePoint Server 2013 与 ADRMS 集成指南
- Almost taken away by this wave of handler interview cannons~
- Trendmicro:apex one server tools folder
- 初识生成对抗网络(12)——利用Pytorch搭建WGAN-GP生成手写数字
- How to calculate critical weight indicators?
- 打新债的安全性 有风险吗
- 4個不可不知的采用“安全左移”的理由
- UEFI: repair efi/gpt bootloader
猜你喜欢

Measure the current temperature

How to design test cases

在二叉树(搜索树)中找到两个节点的最近公共祖先(剑指offer)

堆栈认知——栈溢出实例(ret2libc)

检测点是否在多边形内

Unity addressable batch management

How to calculate the positive and negative ideal solution and the positive and negative ideal distance in TOPSIS method?

How to analyze the grey prediction model?

linux中的mysql有10061错误怎么解决

Beam search and five optimization methods
随机推荐
iframe简单使用 、获取iframe 、获取iframe 元素值 、iframe获取父页面的信息
leetcode.13 --- 罗马数字转整数
Find out the possible memory leaks caused by the handler and the solutions
Rank sum ratio (RSR) index calculation
About i/o -- the relationship between memory and CPU and disk
SharePoint:SharePoint 2013 with SP1 简易安装
What are the indicators of entropy weight TOPSIS method?
【总结】1361- package.json 与 package-lock.json 的关系
How to solve the 10061 error of MySQL in Linux
故障:Outlook 收发邮件时的 0x800CCC1A 错误
Summary of NLP data enhancement methods
想开个户,网上股票开户安不安全?
堆栈认知——栈溢出实例(ret2libc)
某视频网站m3u8非感知加密分析
城鏈科技平臺,正在實現真正意義上的價值互聯網重構!
[515. find the maximum value in each tree row]
How to calculate the characteristic vector, weight value, CI value and other indicators in AHP?
[QT] QT 5 procedure: print documents
Bluecmsv1.6- code audit
【515. 在每个树行中找最大值】