Hybrid neural networks for on-device directional hearing

AAAI 2022

有待补充的blog

Abstract

结合了传统波束成形（减轻计算负担，提高泛化性）和自定义的轻量级神经网络（减小内存和计算开销，实现实时和低延迟操作）。

传统波束成形：计算上轻量级但是性能有限

神经网络：性能好但是计算昂贵，不能运行在可穿戴计算平台

Architecture

输入信号首先通过三个不同的轻量级beamformer处理，产生三个不同版本的beamformered signal，这三个信号和原始信号一同被输入到神经网络中。

Prebeamforming

三种统计波束形成器从非自适应、自适应和非线性方法跨越了不同类型的波束形成技术。因此为后续神经网络的输入信息提供多样的空间信息。

superdirective beamformer：在扩散噪声下进行优化
online adaptive MVDR beamformer：提取空间信息，抑制噪声和干扰
WebRTC non-linear beamformer：抑制更可能是噪声或干扰的时频成分

此外对输入channel转变到输入direction上（没看懂）

Neural Network

Complex Tensor Representation

使用复张量可以在准确性不下降的情况下有效减小模型大小，每个参数可以表示为\([R, -I, I, R]\)而不是一个\(2 \times 2\)矩阵。同时复神经网络在无线沟通，噪声压缩等方面更有效。

ps：复数乘法捕获复数域中的旋转，可以很容易地操纵信号的相位。

缺点是全复数神经网络对于共轭操作和相位缩放的效率低，因此引入一个额外的component-wise operation，定义\(TRELU(x _ {c, t})\)如下：

其中x为复数输入、c为channel、t为time indices、h和b是训练得到的参数。

该操作对既能模拟共轭缩放又能模拟相位缩放的2D复空间进行线性变换，然后分别对实部和虚部独立进行relu激活操作。

Complex Masking

分离器输出一个从0到1的复掩码范围，与编码器输出相乘后送入解码器。当掩码不能超过1时，可训练的编码器和解码器可以缓解这一限制。我们在保留角度分量的同时对复张量的幅值进行tanh运算。 \(C \tan h ( x ) = \tan h ( | | x | | ) \ast \frac { x } { | | x | | }\)

Strided Dilated Convolution

由N个TCN（时序卷积网络）堆叠而成。在每个包含M个空洞卷积层的TCN之间，我们添加了一个步长为2的2 × 1卷积层对信号进行下采样，有效地减少了后续层的填充大小。在求和之前，根据原始采样率，使用最近邻方法对跳跃连接进行上采样。

简化版TCN：

使用传统卷积而不是D-conv（depthwise separable convolution）
对每个TCN stack只在最后一个卷积层上应用skip-connections
我们将膨胀增长因子k放宽到2以上

Evaluation

我们还合成了另一个版本，其中只有一个声源和第一个麦克风存在，并且没有产生混响作为groundtruth

Limitations

更大的真实世界数据集
双耳设置？
CPU的替代品：DNN、GPU等
更低的延迟？
运行时间优化：网络剪枝和量化