Conformer: Convolution-augmented Transformer for Speech Recognition
INTERSPEECH 2020
Abstract
Transformer擅长捕捉基于内容的全局交互但不擅长捕捉局部特征,而CNN擅长利用局部特征,然而需要更多更深的层去捕捉全局信息。因此本文提出CNN增强的transformer模型Conformer,将CNN融入到transformer中,得到的很好的实验效果。
INTERSPEECH 2020
Transformer擅长捕捉基于内容的全局交互但不擅长捕捉局部特征,而CNN擅长利用局部特征,然而需要更多更深的层去捕捉全局信息。因此本文提出CNN增强的transformer模型Conformer,将CNN融入到transformer中,得到的很好的实验效果。