Los puntos clave no están disponibles para este artículo en este momento.
Los Modelos de Lenguaje Grande (LLMs) han demostrado una eficacia sin igual en diversas tareas de PLN, y la integración de LLMs con el reconocimiento automático del habla (ASR) está convirtiéndose en un paradigma dominante. Aprovechando este impulso, nuestra investigación realiza un examen profundo de este paradigma en un gran conjunto de datos abierto en chino. Específicamente, nuestro estudio busca evaluar el impacto de varias configuraciones de codificadores de voz, LLMs y módulos proyectoras en el contexto del paradigma ASR de codificador base de voz-LLM. Además, presentamos un enfoque de entrenamiento en tres etapas, desarrollado expresamente para mejorar la capacidad del modelo de alinear información auditiva y textual. La implementación de este método, junto con la integración estratégica de componentes ASR, nos permitió alcanzar el rendimiento SOTA en los conjuntos de prueba AISHELL-1, TestNet y TestMeeting. Nuestro análisis proporciona una base empírica para futuras investigaciones en sistemas ASR basados en LLM y ofrece perspectivas para optimizar el rendimiento utilizando conjuntos de datos chinos. Publicaremos públicamente todos los scripts utilizados para la preparación de datos, entrenamiento, inferencia y evaluación, así como modelos preentrenados y registros de entrenamiento para fomentar la investigación reproducible.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xuelong Geng
Tianyi Xu
Kun Wei
Building similarity graph...
Analyzing shared references across papers
Loading...
Geng et al. (viernes,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e6bbccb6db64358763c4cd — DOI: https://doi.org/10.48550/arxiv.2405.02132