北京工业大学鲍长春教授团队对干扰声源抑制方法展开研究，成果以“基于聚焦信号子空间估计导向矢量的干扰声源抑制方法”（Suppression Method of the Interference Sound Sources by the Estimated Steering Vector Based on the Focusing Signal Subspace）发表在《电子学报》2023年第1期。

内容简介

随着互联网技术与人工智能产业的迅速发展，远场语音通信的应用场景越来越多，如远场人机交互、远场视听会议等，且质量需求也越来越高。然而，由于噪声及干扰声源等因素的影响，远场语音通信的质量不如人意，尤其是干扰声源极易导致语音识别率的下降和降低通信中的远端用户听觉质量。针对这一问题，学者们提出了许多解决方法，其中，最小方差无失真响应(Minimum Variance Distortionless Response, MVDR)波束形成器是目前最为常用的方法。因其自适应零陷抑制能力强、约束简洁、优化处理灵活，故常被用于干扰声源及噪声的抑制中。然而，MVDR是基于观测信号协方差矩阵求逆的自适应波束形成器，所以，其性能极易受到导向矢量失配的影响。造成导向矢量失配的主要因素是声源到达方向(Direction Of Arrival, DOA)失配和阵列结构失配。

为解决上述问题，本工作提出了基于聚焦信号子空间估计导向矢量的干扰声源抑制方法。首先，将语音信号的频带划分为多个子带，通过聚焦信号子空间方法估计各子带的声源DOA信息，并采用统计直方图估计各声源的初始DOA信息；其次，建立目标声源导向矢量估计的凸优化方程，使得目标声源导向矢量远离干扰声源空间，降低DOA估计和阵列结构误差对导向矢量失配的影响；最后，根据估计的导向矢量，估计干扰声源加噪声协方差矩阵，以获得MVDR波束形成器的滤波权重。

本工作的原理如图1所示，其中，STFT(Short Time Fourier Transform)和ISTFT(Inverse STFT)为短时傅里叶变换和短时傅里叶逆变换，SVD(Singular Value Decomposition)为奇异值分解，Capon功率为信号的空间响应功率，MUSIC(MUltiple SIgnal Classification)为多信号分类。

首先，将观测信号x̃(t)经STFT变换到频域，求得各频带协方差矩阵R(k)，并对R(k)做SVD获得声源信号子空间VS(k)；其次，以500Hz频率间距划分子带，在各子带内分别求取聚焦频率f0及聚焦矩阵C(k)，并对平滑聚焦协方差矩阵进行子空间分解，构建出噪声子空间ÛN(f0)，从而通过MUSIC谱的统计结果获得各声源的初始DOA信息(如目标声源初始DOA信息θ0)；然后，根据各声源初始DOA信息所划分的角度空域及目标声源初始导向矢量â(k,θ0)，求得目标声源的协方差矩阵R̂S(k)及干扰声源子空间UI(k)，通过解凸优化方程估计出导向矢量a(k,θ0)，并根据Capon功率重新求得目标声源的协方差矩阵，计算出MVDR空域滤波权重w(k)；最后，对频域观测信号进行MVDR空域滤波，通过ISTFT获得时域增强信号z̃(t)。

[电子学报]基于聚焦信号子空间估计导向矢量的干扰声源抑制方法

图1 本工作提出的抑制干扰声源方法的原理框图

本工作使用了TIMIT语料库中随机抽取的600句语音进行仿真实验。其中，200句用作目标声源，200句用作干扰声源1，200句用作干扰声源2。阵元数目为8，阵元间距为0.02m，并随机生成0~2mm的阵元位置误差，通过麦克风阵列信号生成器来生成实验所需的阵列信号。本工作通过均方误差(Mean Square Error,MSE)来评测DOA的估计性能，通过输出信干噪比(Signal to Interference-plus-Noise Ratio,SINR)、语音质量感知评估(Perceptual Evaluation of Speech Quality,PESQ)评估干扰声源抑制性能与鲁棒性。

图2的实验结果表明，在声源数目为1~3的情况下，本工作所提的聚焦信号子空间方法较参考方法获得了更小的MSE，即DOA估计误差更小。同时，图3的实验结果表明，所提DOA估计方法联合所提导向矢量估计方法所设计的MVDR波束形成方法较参考方法获得了更优的干扰抑制性能和更高的语音质量。

[电子学报]基于聚焦信号子空间估计导向矢量的干扰声源抑制方法