Aunque los modelos de Reconocimiento Automático de Voz (ASR) de extremo a extremo han mostrado un rendimiento impresionante en la transcripción del habla general, a menudo tienen dificultades para reconocer con precisión palabras clave contextualmente relevantes, como nombres propios o entidades específicas del usuario. En enfoques previos se ha explorado el aprovechamiento de diccionarios de palabras clave en la modalidad textual para mejorar el reconocimiento de palabras clave, ya sea mediante fusión a nivel de token que guía la generación token por token o fusión a nivel de frase que permite la copia directa de frases clave. Sin embargo, estos métodos operan en diferentes granularidades y tienen sus propias limitaciones. En este artículo proponemos un nuevo enfoque de fusión multi-granular que aprovecha conjuntamente las fortalezas tanto de la fusión a nivel de token como a nivel de frase con grandes modelos de lenguaje (LLMs). Nuestro método incorpora una estrategia de fusión tardía que combina elegantemente la información acústica del ASR con el rico conocimiento contextual de los LLMs, equilibrando la precisión fina a nivel de token con la comprensión holística a nivel de frase. Experimentos en conjuntos de datos en chino e inglés demuestran que nuestro enfoque logra un rendimiento de estado del arte en métricas relacionadas con palabras clave, manteniendo alta precisión en texto que no contiene palabras clave. Estudios de ablación confirman además que los componentes a nivel de token y de frase contribuyen significativamente a las mejoras de rendimiento, complementándose mutuamente en nuestro marco conjunto multi-granular. El código y los modelos estarán disponibles públicamente en https://github.com/.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shilin Zhou
Zhenghua Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhou et al. (Wed,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68ef858cc6a308ba0635567d — DOI: https://doi.org/10.48550/arxiv.2507.12252
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: