May 3, 2024Open Access

Revelando el Potencial del ASR Basado en LLM en Conjuntos de Datos de Código Abierto en Chino

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los Modelos de Lenguaje Grande (LLMs) han demostrado una eficacia sin igual en diversas tareas de PLN, y la integración de LLMs con el reconocimiento automático del habla (ASR) está convirtiéndose en un paradigma dominante. Aprovechando este impulso, nuestra investigación realiza un examen profundo de este paradigma en un gran conjunto de datos abierto en chino. Específicamente, nuestro estudio busca evaluar el impacto de varias configuraciones de codificadores de voz, LLMs y módulos proyectoras en el contexto del paradigma ASR de codificador base de voz-LLM. Además, presentamos un enfoque de entrenamiento en tres etapas, desarrollado expresamente para mejorar la capacidad del modelo de alinear información auditiva y textual. La implementación de este método, junto con la integración estratégica de componentes ASR, nos permitió alcanzar el rendimiento SOTA en los conjuntos de prueba AISHELL-1, TestNet y TestMeeting. Nuestro análisis proporciona una base empírica para futuras investigaciones en sistemas ASR basados en LLM y ofrece perspectivas para optimizar el rendimiento utilizando conjuntos de datos chinos. Publicaremos públicamente todos los scripts utilizados para la preparación de datos, entrenamiento, inferencia y evaluación, así como modelos preentrenados y registros de entrenamiento para fomentar la investigación reproducible.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xuelong Geng

Tianyi Xu

Kun Wei

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Revelando el Potencial del ASR Basado en LLM en Conjuntos de Datos de Código Abierto en Chino

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study