Hongbo Mao bio photo

Email

Github

Hybrid neural networks for on-device directional hearing

AAAI 2022

有待补充的blog

Abstract

结合了传统波束成形(减轻计算负担,提高泛化性)和自定义的轻量级神经网络(减小内存和计算开销,实现实时和低延迟操作)。

传统波束成形:计算上轻量级但是性能有限

神经网络:性能好但是计算昂贵,不能运行在可穿戴计算平台


Architecture

输入信号首先通过三个不同的轻量级beamformer处理,产生三个不同版本的beamformered signal,这三个信号和原始信号一同被输入到神经网络中。

Prebeamforming

三种统计波束形成器从非自适应、自适应和非线性方法跨越了不同类型的波束形成技术。因此为后续神经网络的输入信息提供多样的空间信息。

  • superdirective beamformer:在扩散噪声下进行优化
  • online adaptive MVDR beamformer:提取空间信息,抑制噪声和干扰
  • WebRTC non-linear beamformer:抑制更可能是噪声或干扰的时频成分

此外对输入channel转变到输入direction上(没看懂

Neural Network

Complex Tensor Representation

使用复张量可以在准确性不下降的情况下有效减小模型大小,每个参数可以表示为\([R, -I, I, R]\)而不是一个\(2 \times 2\)矩阵。同时复神经网络在无线沟通,噪声压缩等方面更有效。

ps:复数乘法捕获复数域中的旋转,可以很容易地操纵信号的相位。

缺点是全复数神经网络对于共轭操作和相位缩放的效率低,因此引入一个额外的component-wise operation,定义\(TRELU(x _ {c, t})\)如下:


其中x为复数输入、c为channel、t为time indices、h和b是训练得到的参数。

该操作对既能模拟共轭缩放又能模拟相位缩放的2D复空间进行线性变换,然后分别对实部和虚部独立进行relu激活操作。

Complex Masking

分离器输出一个从0到1的复掩码范围,与编码器输出相乘后送入解码器。当掩码不能超过1时,可训练的编码器和解码器可以缓解这一限制。我们在保留角度分量的同时对复张量的幅值进行tanh运算。 \(C \tan h ( x ) = \tan h ( | | x | | ) \ast \frac { x } { | | x | | }\)

Strided Dilated Convolution

由N个TCN(时序卷积网络)堆叠而成。在每个包含M个空洞卷积层的TCN之间,我们添加了一个步长为2的2 × 1卷积层对信号进行下采样,有效地减少了后续层的填充大小。在求和之前,根据原始采样率,使用最近邻方法对跳跃连接进行上采样。


简化版TCN:

  • 使用传统卷积而不是D-conv(depthwise separable convolution)
  • 对每个TCN stack只在最后一个卷积层上应用skip-connections
  • 我们将膨胀增长因子k放宽到2以上

Evaluation

我们还合成了另一个版本,其中只有一个声源和第一个麦克风存在,并且没有产生混响作为groundtruth

Limitations

  • 更大的真实世界数据集
  • 双耳设置?
  • CPU的替代品:DNN、GPU等
  • 更低的延迟?
  • 运行时间优化:网络剪枝和量化