October 25, 2020

Conformer: Transformador aumentado con convolución para el reconocimiento de voz

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Recientemente, los modelos basados en Transformer y en redes neuronales convolucionales (CNN) han mostrado resultados prometedores en el Reconocimiento Automático del Habla (ASR), superando a las redes neuronales recurrentes (RNN). Los modelos Transformer son buenos para capturar interacciones globales basadas en el contenido, mientras que las CNN explotan eficazmente las características locales. En este trabajo, logramos lo mejor de ambos mundos estudiando cómo combinar redes neuronales convolucionales y transformers para modelar de manera eficiente en parámetros dependencias locales y globales de una secuencia de audio. Para ello, proponemos el transformador aumentado con convolución para el reconocimiento de voz, llamado Conformer. Conformer supera significativamente a los modelos anteriores basados en Transformer y CNN, logrando precisiones de última generación. En el ampliamente usado benchmark LibriSpeech, nuestro modelo alcanza tasas de error de palabra (WER) de 2.1%/4.3% sin usar un modelo de lenguaje y de 1.9%/3.9% con un modelo de lenguaje externo en test/testother. También observamos un rendimiento competitivo de 2.7%/6.3% con un modelo pequeño de solo 10 millones de parámetros.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Anmol Gulati

James Qin

Chung‐Cheng Chiu

Actions

Institutions

Google (United States)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Conformer: Transformador aumentado con convolución para el reconocimiento de voz

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider