身份向量identity vector
总体变化空间total variability space:定义了一个新的低维的依赖于说话人和信道的空间
两个说话人确认系统
- 基于支持向量机SVM,用余弦核来估计输入数据之间的相似性
- 直接用余弦相似度作为最终决策得分
三种信道补偿技术
- 类内协方差正则化 WCCN
- 线性判别分析 LDA
- 最大化说话人之间的差异,最小化说话人内部的差异
- 扰动属性投影 NAP
当WCCN跟在LDA后面时结果最好,EER为1.12%,MinDCF为0.0094,与经典的联合因子分析 JFA相比,我们还在10s-10s条件下获得了4%的绝对EER改善。
1 Intro
- JFA在GMM下补偿信道差异
- GMM-SVM:NAP
- 核是基于两个GMM之间的KL距离的线性近似。超向量线性核
- GMM平均超向量是通过最大后验 MAP 自适应将通用背景模型 UBM 平均超向量适配到说话人帧得到的
- 结合JFA和SVM,直接用JFA估计的说话人因子作为SVM的输入,用WCCN补偿的余弦核效果最好。
- JFA估计的被认为仅模拟信道效应的信道因子,也包括说话人的信息。
- 提出一种新的基于因子分析的说话人确认系统作为特征提取器,因子分析用来定义一个低维空间——总变化空间,在这个空间中,一个给定的声纹可以被total factor表示,也就是i-vector
2 JFA
依赖于说话人的超向量由说话人的分向量和信道子空间组成
m是说话者和信道无关的超向量,通常来自UBM,V和D定义了一个说话人子空间,分别是特征语音矩阵和对角残差,U定义了会话子空间(特征信道矩阵)。
yxz是各自子空间的说话人和信道相关因子,是服从N(0,I)正态分布的随机向量。
评分是通过计算测试话语的特征向量相对于补偿说话人模型的可能性来完成的。
###3 前端因素分析
w是总因子,T是总变化空间矩阵
的总可变性矩阵和的特征语音矩阵的训练过程几乎一致,除了在总可变性矩阵的情况下,假设给定说话人的每个话语都是不同的说话人产生的。
Baum–Welch 统计数据
余弦核的效果最好
只考虑两个向量之间的角度而不考虑它们的大小,因此提高了鲁棒性。
用目标说话人的i-vector和测试i-vector的余弦核作为决策评分,将这个值与阈值比较。优点是不需要目标说话人的参与。
4 实验
5 结论
和JFA相比,我们是在新的低维i-vector向量空间中处理信道效应,而不是在高维GMM平均超向量空间。
当WCCN跟在LDA后面时结果最好,EER为1.12%,MinDCF为0.0094,与联合因子分析 JFA相比,我们还在10s-10s条件下获得了4%的绝对EER改善。
将总可变性系统扩展到NIST 2008 SRE的接口和麦克风条件。该方法包括将话筒数据集中额外的因子叠加到原来的电话总因子。