i-vector 对说话人确认的前置因子分析

身份向量identity vector

总体变化空间total variability space:定义了一个新的低维的依赖于说话人和信道的空间

两个说话人确认系统

  • 基于支持向量机SVM,用余弦核来估计输入数据之间的相似性
  • 直接用余弦相似度作为最终决策得分

三种信道补偿技术

  • 类内协方差正则化 WCCN
  • 线性判别分析 LDA
    • 最大化说话人之间的差异,最小化说话人内部的差异
  • 扰动属性投影 NAP

当WCCN跟在LDA后面时结果最好,EER为1.12%,MinDCF为0.0094,与经典的联合因子分析 JFA相比,我们还在10s-10s条件下获得了4%的绝对EER改善。

1 Intro

  • JFA在GMM下补偿信道差异
  • GMM-SVM:NAP
    • 核是基于两个GMM之间的KL距离的线性近似。超向量线性核
  • GMM平均超向量是通过最大后验 MAP 自适应将通用背景模型 UBM 平均超向量适配到说话人帧得到的
  • 结合JFA和SVM,直接用JFA估计的说话人因子作为SVM的输入,用WCCN补偿的余弦核效果最好。
  • JFA估计的被认为仅模拟信道效应的信道因子,也包括说话人的信息。
  • 提出一种新的基于因子分析的说话人确认系统作为特征提取器,因子分析用来定义一个低维空间——总变化空间,在这个空间中,一个给定的声纹可以被total factor表示,也就是i-vector

2 JFA

依赖于说话人的超向量由说话人的分向量和信道子空间组成

M=m+Vy+Ux+DzM=m+Vy+Ux+Dz

m是说话者和信道无关的超向量,通常来自UBM,V和D定义了一个说话人子空间,分别是特征语音矩阵和对角残差,U定义了会话子空间(特征信道矩阵)。

yxz是各自子空间的说话人和信道相关因子,是服从N(0,I)正态分布的随机向量。

评分是通过计算测试话语的特征向量相对于补偿说话人模型MUxM-Ux的可能性来完成的。

###3 前端因素分析

M=m+TwM=m+Tw

w是总因子,T是总变化空间矩阵

TT的总可变性矩阵和VV的特征语音矩阵的训练过程几乎一致,除了在总可变性矩阵的情况下,假设给定说话人的每个话语都是不同的说话人产生的。

Baum–Welch 统计数据

余弦核的效果最好

k(w1,w2)=<w1,w2>w1w2k(w_1,w_2)=\frac{<w_1,w_2>}{||w_1||||w_2||}

只考虑两个向量之间的角度而不考虑它们的大小,因此提高了鲁棒性。

用目标说话人的i-vector和测试i-vector的余弦核作为决策评分,将这个值与阈值比较。优点是不需要目标说话人的参与。

4 实验

5 结论

和JFA相比,我们是在新的低维i-vector向量空间中处理信道效应,而不是在高维GMM平均超向量空间。

当WCCN跟在LDA后面时结果最好,EER为1.12%,MinDCF为0.0094,与联合因子分析 JFA相比,我们还在10s-10s条件下获得了4%的绝对EER改善。

将总可变性系统扩展到NIST 2008 SRE的接口和麦克风条件。该方法包括将话筒数据集中额外的因子叠加到原来的电话总因子。