论文学习:Practical Adversarial Attacks Against Speaker Recognition Systems

文章题目:Practical Adversarial Attacks Against Speaker Recognition Systems

来源:ACM HotMobile 2020

链接:https://dl.acm.org/doi/abs/10.1145/3376897.3377856

文章概述

对基于X-vector的multi-class speaker recognition system(其实就是一个闭集多分类模型,speaker identificaiton)进行adversarial example attacks,即对输入音频加入人类察觉不到的小扰动使得speaker recognition system分类出错。具体包括两种攻击类型:untargeted attack and targeted attack。并且加在generate adversarial example时加入了estimated RIR(room impulse response),模拟在真实场景下的各种因素(multi-path effect, noise etc.)。在VCTK数据集上进行digital attack和practical attack,每种场景下都评估上述两种攻击类型的表现。98% digital untargeted attack success rate, 50% practical targeted attack success rate。

系统框架

处理流程

Room impulse Response Estimation

其中,$
y\left( t \right)
$是麦克风记录音频样本,$
x\left( t \right)
$是扬声器发出的音频样本,$
K\left[ \right]
$ is the N-th order discrete-time Volterra kernel to represent a nonlinear memoryless system,$
h’\left( t \right)
$ is an impulse response characterizing linear distortions (i.e., delays and attenuations),$
\bigotimes
$是卷积操作,$
n\left( t \right)
$是与输入音频无关的环境噪声。

实际情况下一般简化考虑为:

其中$
h\left( t \right)
$为RIR(Room Iimpulse Response),是一个能够综合表示线性和非线性的因素的脉冲响应。

文章通过preliminary experiment测量出不同场景下的estimated RIR,具体如下:

1.使用扬声器发射一个刺激信号$
x_e\left( t \right)
$,具体可表示如下:

2.使用麦克风记录音频信号,通过卷积操作得到estimated RIR, $
h\left( t \right)
$,具体如下:

其中$
f\left( t \right)
$由$
x_e\left( t \right)
$进行time-reversal得到

通过实验证明了这种preliminary experiment的有效性,在后续攻击评估中都使用了这种方法预先测量出estimated RIR

Untargeted Attack Example

untargeted attack即使得speaker recognition system分类错误就行,制造这种example只需对输入样本加上一个扰动$
\delta
$即可:

由于是untargeted attack,因此扰动$
\delta
$可以直接利用DNN模型的局部线性特性,使用FGSM(fast gradient sign method)生成,即对每个输入样本计算(一次计算生成):

具体到本文攻击的x-vector多说话人分类模型,因此loss使用cross-entropy,adversarial example可表示为:

对应的,在真实场景中进行attack的example,加入estiamted RIR即可:

Targeted Attack Example

由于是targeted attack,需要让speaker recognition system将adversarial example分类为攻击者指定的目标$
y_t
$。因此需要解决一个optimization problem:

上式可简化为:

因此需要对每个样本进行梯度下降(迭代生成)得到optimal $
\delta *
$,然后对原始样本加上扰动即可

类似的,如果要生成在真实场景下的adversarial example,考虑estimated RIR即可:

实验评估

数据集和Baseline Model

使用VCTK数据集,对x-vector多说话人分类speaker recognition systemt进行adversarial example attack evaluation

Metrics

  • Speaker Recognition Accuracy
  • Attack Success Rate
  • Distortion Metric:评估perturbation相对原始音频的幅值占比,越大代表扰动perturbation越明显,越容易被发觉

实验结果

Evaluation of Digital Attacks

Evaluation of Practical Attacks

对于untargeted attack,由于various environmental interferences (e.g., multipath, ambient noises),导致x-vector based speaker recognition mis-classified all samples. 因此attack success ratio是100%

问题

white-box setting

has complete knowledge to the speaker recognition model,需要Practical Black-box Attack,比如现在商用的speaker recognition system(e.g. Microsoft Azure)是不公开model的

可能的解决方案

  1. gradient-free optimization algorithms (e.g., genetic algorithm)

  2. training a substitute model.

estimated RIR:

通过preliminary experiment来estimating RIR,可能在某些室内场景中是不可行的或者在室外环境中是很难实现的

可能的解决方案

  1. room simulators to approximate the actual RIR
  2. RIR augmentation techniques:direction-to-reverberant ratio (DRR)

Bypassing Liveness Detection

防守方可以加入liveness detection即可抵抗本文的攻击方法

可能的解决方案

  1. 设计一种audio-agnostic universal perturbation,与输入音频样本无关,当活体输入语音时,注入这种perturbation从而绕过liveness detection

文章的Practical attack evaluation

由于文章中使用的Speaker recognition system是Kaldi Pre-trained,因此并不具备Robust ablilty to environmental interferences,因此得到的实验结果其实也是不可靠的。