在真实的声学环境中,尤其是户外录音时,语音信号的感知质量和可懂度通常会受到非平稳背景噪声的严重影响。风噪一般是由用户头部、记录设备或其他障碍物周围的湍流气流产生,会严重削弱语音通信的声音质量。

澳门百老汇官网网址,近日,中国科学院声学研究所噪声与振动院重点实验室助理研究员彭任华等提出一种在线性残差域利用人耳听觉特性约束的单通道语音信号增强滤波器,可显著提高语音质量。

为了消除语音通信中的风噪、减少语音失真,中国科学院声学研究所语言声学与内容理解重点实验室的白海钏、葛凤培等人提出了一种应用于实时通信的语音增强方法。相关研究成果发表于学术期刊China
Communications
2018年第9期。

近年来,传声器阵列的应用愈加广泛,但绝大部分低成本设备仍在使用单传声器录音方案。受录音环境噪声和混响等因素影响,单传声器语音信号质量会出现显著下降。传统的单通道语音信号增强算法,利用谱减算法,通过估计噪声及混响的功率谱密度,与带噪信号相减,实现语音信号增强。声学所该实验室音频研究组曾提出一种广义特征值算法,即在线性残差域利用广义特征值分解方法增强单通道语音信号,并证明了在线性残差域,噪声及晚期混响可以采用相同的算法处理框架。然而,在低信噪比条件下,谱减算法和广义特征值算法在增强信号过程中均会出现大量可听“音乐噪声”(频率和时间轴上随机出现的短时单频信号),严重影响算法性能。科研人员认为,人耳听觉响应特性曲线在音乐噪声信号抑制方面具有非常大的应用前景。

深度神经网络模型可以通过利用特定环境中采音的大量数据,对风噪和语音成分进行有效估计。但是由于3kHz以下低频区域风噪与语音频谱的重叠性,该区域仍然不可避免存在少量残余风噪。在较低信噪比的条件下,残余噪声极易被人耳感知,从而导致增强后语音信号的听觉质量和可懂度明显下降。

利用人耳噪声掩蔽曲线指导残留“音乐噪声”的抑制,该研究推导了在线性残差域的噪声掩蔽曲线到广义特征值的映射关系,以及噪声掩蔽曲线约束的最优滤波器,并将该最优滤波器应用于信号增强。通过比较增强信号的分段信噪比(segmentSNR)、感知语音质量评价,以及语音混响调制能量比等客观指标,新算法相比传统算法具有更好的算法性能,MUSHRA(MUltiple
Stimuli with Hidden Reference and
Anchor)主观测听实验进一步表明了该算法在仿真实验以及实际实验中的有效性。

基于软听觉噪声掩蔽原理,研究人员提出了一种新的基于深度神经网络的风噪语音增强方法。采用心理声学模型计算语音频谱的听觉掩蔽阈值,并结合软听觉噪声掩蔽原理构建基于频谱加权的语音增强方法。为了适应信号的快速时变特性,语音和噪声频谱均基于深度学习网络进行建模。

相关研究成果发表在Speech Communication上。

客观测试和主观评价结果均表明,与传统的基于深度神经网络的风噪抑制方法相比,这种新的语音增强方法有效地抑制了低频区域中的残余风噪,显著提升了降噪性能。

论文链接

该研究获得国家自然科学基金(No.11590772, 11590770)资助。

澳门百老汇官网网址 1

论文信息:BAI Haichuan, GE Fengpei, YAN Yonghong. DNN-based Speech
Enhancement Using Soft Audible Noise Masking for Wind Noise Reduction.
China Communications
(Volume 15 Issue 9, September 2018, Pages
235-243). DOI: 10.1109/CC.2018.8456465.

新方法在语音段以及静音段带听觉特性约束的广义特征值

论文链接

相关文章