VoiceLive: 智能手机语音认证中基于音素定位的活体检测
当手机靠近用户的嘴巴时,它会将音素声音序列中的到达时差(TDoA)变化捕捉到手机的两个麦克风上,
因为它不需要额外的硬件,只需要两个通道的立体声录音,几乎所有智能手机都支持这一功能。
VoiceLive对不同的手机位置具有鲁棒性,并兼容不同的采样率和手机型号。
1 Introduction
-
Shang等人建议将输入语音样本与过去访问的存储实例进行比较,以检测认证系统之前看到的语音样本
-
Villalba等人和Wang等人提出,录音和扬声器引入的额外信道噪声可用于攻击检测[32,33]。然而,这些方法在实践中效果有限。例
-
Chetty和Wagner建议使用摄像机来提取嘴唇运动,以进行活体检测
-
Poss等人将神经树网络和HMM模型的技术结合起来,以提高认证精度[28]。
-
Aley Raz等人开发了一个基于“会话内语音变化”的活体检测系统,集成到Nuance VocalPassword中。除了用户选择的密码短语,它还要求用户重复系统提示的一个或多个随机句子。
TDoA dynamic 到达时差动态
系统限制:要求用户在注册和认证过程中以相同的姿势将手机紧握在嘴边。
3 系统设计
在替换攻击下,对手极不可能(如果不是不可能的话)将立体声录音机(如智能手机)放在离受害者嘴边很近的地方,
音素分割提取语音中的音素
HMM强制对齐
VoiceGesture:一种用于语音认证的基于发音姿势的活体检测
重播攻击
VoiceGesture:利用用户说出短语的独特发音姿势和移动音频硬件的进步检测真实用户
将智能手机用作多普勒雷达Doppler,从内置扬声器发射高频声音,并监听用户说话时的麦克风反射
用户发音姿势->信号反射->多普勒偏移
不需要多余硬件除了一个扬声器和麦克风,也不需要用户执行任何繁琐操作
超过99%acc和1%EER,对不同的手机摆放位置有鲁棒性,而且能真不同采样频率下工作。
1 Introduction
传统方法依赖于输入语音的声学特性,只有包含明显的叠加或卷积噪声时才有效。
当前语音认证服务提供商主要依靠基于challenge-response的方法进行活跃度检测。除了用户注册的密码短语之外,还会提示用户重复一组闭集中的句子。但这种方法增加了用户的操作开销,还需要用户合作,很麻烦。
-
最近提出了一种基于智能手机的活体检测系统,要求用户在声源附近按预定轨迹移动智能手机时说出密码短语。
-
VoiceLive 还有一种基于智能手机的解决方案,当用户说出密码短语的时候测量手机两个麦克风的一系列音素声音的到达时差(TDoA)变化,但是它需要用户将手机保持在特定位置。
虽然有效但是都需要引入额外的步骤,或者以一些新的方式拿住或者移动手机。
人类语音的产生依赖于多个发音器官协调的多维运动来产生每个音素的声音,称为发音姿势。但扬声器仅依靠在一维(即向前和向后)移动的振膜发出声音。
因此,通过在说出密码短语时感知发音运动,可以将人类说话者与扬声器区分开来。此外,由于人类声道的个体差异以及音素发音的习惯方式,人们之间的发音姿势存在微小差异,可以进一步用于检测模仿者。
现在手机支持的高采样频率使我们能够提取细粒度的频域特征,以捕捉人与人之间的发音动作以及发音姿势的细微差异。
在用户注册过程中,基于语音密码短语提取用户特定的频移特征,然后将其存储在活跃度检测系统中。在线认证过程中,将用户输入话语的提取特征与系统中的特征进行比较。
将相似性分数和预定义的阈值比较从而判别。
2 Preliminaries
两种重放攻击:回放攻击playback attack和模仿攻击mimicry attack
多普勒效应:当接收器和发射器相对移动时观察到的波频率的变化
发音人远离麦克风会导致负多普勒频移,而发音人靠近麦克风会导致正多普勒频移。
更快的速度(即v)会导致更大的多普勒频移。因此,多普勒频移的大小可以进一步用于区分不同的手势或以不同速度产生相同音素声音的人。
由于介质中的信号衰减,离麦克风较近的发音人反射会产生更强的能量。例如,嘴唇运动通常导致其多普勒频移的能量高于舌尖的能量。因此,多普勒频移的能量分布为区分发音姿势提供了另一个维度的信息。
3 系统设计
认证系统,手机底部的内置扬声器会在20kHz的频率下发出一种听不见的声音。
用户的语音样本(通常位于10kHz以下)将被分离,用于常规语音认证,将高频带保留在20kHz左右,用于提取多普勒频移中的特征。该系统基于观测到的多普勒频移中的频移分布和能量分布来提取特征。然后将提取的特征与用户注册系统进行实时用户检测时获得的特征进行比较。
HMM
从多普勒频移中提取两类特征:能带频率特征和频带能量特征。
小波去噪wavelet based denoising:基于Discrete Wavelet Transform (DWT)
Discussion
局限性
要求用户将手机靠近嘴巴,以可靠地捕捉发音手势,限制了系统的适用场景。
LipPass:通过在智能手机上语音感知的基于唇读的用户认证
现有的活体检测方法对周围环境如环境光和周围的声音噪音十分敏感,所以利用用户的嘴运动进行用户身份验证。
LipPass
首先研究了由用户说话的嘴引起的声学信号的多普勒分布,发现不同的人有独特的嘴运动模式。
为了描述口腔运动,我们提出了一种基于深度学习的方法,从多普勒轮廓中提取有效的特征,并使用softmax函数、支持向量机SVM、支持向量域描述SVDD来分别用于构造口腔状态识别、用户识别、欺骗检测的多类标识符、二元分类器和欺骗检测器。
之后,我们开发了一种基于平衡二叉树的身份验证方法,利用这些二叉分类器和欺骗检测器准确识别每个注册用户。
最后,为了增强认证结果的可靠性,我们设计了一个加权投票方案,通过检测多个单词的说话模式来进行用户认证。
VibLive: 物联网环境下安全语音用户界面的连续活体检测
语音用户界面(VUI)
VibLive:当人类在进行活体检测时,捕捉骨传导振动和空气传导声音之间的差异。
-
文本无关的系统,它可以验证实时用户并检测欺骗攻击,而无需用户注册特定的密码短语。
-
实用且透明,因为除了VUI上通常配备的扬声器和麦克风外,它不需要额外的操作或额外的硬件。
-
对各种使用场景都具有鲁棒性。
-
可以自由更改位置
利用支持VUI的物联网设备的内置扬声器发出听不见的探头信号,并使用内置麦克风记录骨传导振动调制的混响探头信号。
当用户说话或扬声器重放语音命令时,振动的人头或扬声器相应地延长或缩短传播路径的距离,从而导致探测信号的不同衰减。
我们分析调制探头信号的接收信号强度(RSS)以提取振动。然后,我们通过线性预测码(LPC)频谱将恢复的振动与记录的语音进行比较,这揭示了实时用户和欺骗攻击检测中信号调制的频谱特征。
VocalLock:利用智能手机上的声音信号感知声道实现密码无关的用户身份验证
与密码短语无关
利用声音信号的FMCW(调频连续波)来描述说话过程中声道的静态形状和动态运动,然后通过GMM-UBM基于声道的独特特性构建一个与密码无关的用户认证模型
提出EDNN(编码器-解码器神经网络)来将声道的特征转换为语音的特征,然后用GMM-UBM来构建与密码无关的用户认证模型。
攻击者可以远程或物理地接管语音识别会话。
都依赖于文本。例如,VoiceLive和VoiceGesture在用户说出注册密码短语时检查人类的发音特征
VoicePop在注册句子中是用户呼吸噪音的两倍。
尽管CaField[60]与文本无关,但它仍然需要用户注册,并具有与用户相关的声场功能。虽然CaField几乎没有位置限制,但它要求用户将智能手机保持在一致的位置,以提取类似的现场打印。
局限性
- 智能手机和声道之间的相对位置受到限制。需要保持特定的角度和距离之内,可能可以利用智能手机上广泛集成的多个扬声器来扩展传感方向。
- 注册阶段要求用户在安静的环境中提供数据样本,用于训练EDNN模型