Hongbo Mao bio photo

Email

Github

Conformer: Convolution-augmented Transformer for Speech Recognition

INTERSPEECH 2020

Abstract

Transformer擅长捕捉基于内容的全局交互但不擅长捕捉局部特征,而CNN擅长利用局部特征,然而需要更多更深的层去捕捉全局信息。因此本文提出CNN增强的transformer模型Conformer,将CNN融入到transformer中,得到的很好的实验效果。

Architecture


Multi-Headed Self-Attention Module


Convolution Module


Feed Forward Module


Conformer Block