Los puntos clave no están disponibles para este artículo en este momento.
Recientemente, los modelos basados en Transformer y en redes neuronales convolucionales (CNN) han mostrado resultados prometedores en el Reconocimiento Automático del Habla (ASR), superando a las redes neuronales recurrentes (RNN). Los modelos Transformer son buenos para capturar interacciones globales basadas en el contenido, mientras que las CNN explotan eficazmente las características locales. En este trabajo, logramos lo mejor de ambos mundos estudiando cómo combinar redes neuronales convolucionales y transformers para modelar de manera eficiente en parámetros dependencias locales y globales de una secuencia de audio. Para ello, proponemos el transformador aumentado con convolución para el reconocimiento de voz, llamado Conformer. Conformer supera significativamente a los modelos anteriores basados en Transformer y CNN, logrando precisiones de última generación. En el ampliamente usado benchmark LibriSpeech, nuestro modelo alcanza tasas de error de palabra (WER) de 2.1%/4.3% sin usar un modelo de lenguaje y de 1.9%/3.9% con un modelo de lenguaje externo en test/testother. También observamos un rendimiento competitivo de 2.7%/6.3% con un modelo pequeño de solo 10 millones de parámetros.
Building similarity graph...
Analyzing shared references across papers
Loading...
Anmol Gulati
James Qin
Chung‐Cheng Chiu
Google (United States)
Building similarity graph...
Analyzing shared references across papers
Loading...
Gulati et al. (Sun,) estudiaron esta cuestión.
www.synapsesocial.com/papers/69da08450d540cafc583823c — DOI: https://doi.org/10.21437/interspeech.2020-3015
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: