Los puntos clave no están disponibles para este artículo en este momento.
Aunque los grandes modelos de lenguaje sobresalen en una variedad de tareas de procesamiento de lenguaje natural (PLN), para desempeñarse bien en tareas de comprensión del lenguaje hablado (SLU), deben depender ya sea de sistemas de reconocimiento automático de voz (ASR) comerciales para la transcripción, o estar equipados con una modalidad de habla incorporada. Este trabajo se centra en el primer escenario, donde la precisión del LLM en tareas SLU está limitada por la precisión de un sistema ASR fijo sobre la entrada hablada. Específicamente, abordamos la tarea de clasificación de intención de voz, donde una alta tasa de error de palabra puede limitar la capacidad del LLM para entender la intención hablada. En lugar de buscar una alta precisión mediante el diseño de arquitecturas complejas o especializadas sin considerar los costos de implementación, buscamos responder hasta qué punto se puede avanzar sin cambiar sustancialmente el ASR y el LLM subyacentes, que potencialmente pueden ser compartidos por múltiples tareas no relacionadas. Para ello, proponemos alimentar al LLM con una lista n-best de hipótesis del ASR en lugar de solo la hipótesis errónea 1-best. Exploramos la ingeniería de indicaciones para explicar el concepto de listas n-best al LLM; seguido del ajuste fino de Adaptadores de Bajo Rango en las tareas descendentes. Nuestro enfoque usando listas n-best demuestra ser efectivo en una tarea de detección de habla dirigida a dispositivos así como en una tarea de detección de palabras clave, donde los sistemas que usan indicaciones con listas n-best superan a aquellos que usan la hipótesis 1-best del ASR; allanando así el camino para un método eficiente de explotar la incertidumbre del ASR vía LLM para aplicaciones basadas en voz.
Building similarity graph...
Analyzing shared references across papers
Loading...
Pranay Dighe
Yi Su
Shangshang Zheng
Apple (United Kingdom)
Building similarity graph...
Analyzing shared references across papers
Loading...
Dighe et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e7376bb6db6435876b0fe0 — DOI: https://doi.org/10.1109/icassp48485.2024.10446132
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: