March 18, 2024Open Access

Aprovechamiento de grandes modelos de lenguaje para explotar la incertidumbre de ASR

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Aunque los grandes modelos de lenguaje sobresalen en una variedad de tareas de procesamiento de lenguaje natural (PLN), para desempeñarse bien en tareas de comprensión del lenguaje hablado (SLU), deben depender ya sea de sistemas de reconocimiento automático de voz (ASR) comerciales para la transcripción, o estar equipados con una modalidad de habla incorporada. Este trabajo se centra en el primer escenario, donde la precisión del LLM en tareas SLU está limitada por la precisión de un sistema ASR fijo sobre la entrada hablada. Específicamente, abordamos la tarea de clasificación de intención de voz, donde una alta tasa de error de palabra puede limitar la capacidad del LLM para entender la intención hablada. En lugar de buscar una alta precisión mediante el diseño de arquitecturas complejas o especializadas sin considerar los costos de implementación, buscamos responder hasta qué punto se puede avanzar sin cambiar sustancialmente el ASR y el LLM subyacentes, que potencialmente pueden ser compartidos por múltiples tareas no relacionadas. Para ello, proponemos alimentar al LLM con una lista n-best de hipótesis del ASR en lugar de solo la hipótesis errónea 1-best. Exploramos la ingeniería de indicaciones para explicar el concepto de listas n-best al LLM; seguido del ajuste fino de Adaptadores de Bajo Rango en las tareas descendentes. Nuestro enfoque usando listas n-best demuestra ser efectivo en una tarea de detección de habla dirigida a dispositivos así como en una tarea de detección de palabras clave, donde los sistemas que usan indicaciones con listas n-best superan a aquellos que usan la hipótesis 1-best del ASR; allanando así el camino para un método eficiente de explotar la incertidumbre del ASR vía LLM para aplicaciones basadas en voz.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Pranay Dighe

Yi Su

Shangshang Zheng

Actions

Institutions

Apple (United Kingdom)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Dighe et al. (Mon,) estudiaron esta cuestión.

www.synapsesocial.com/papers/68e7376bb6db6435876b0fe0 — DOI: https://doi.org/10.1109/icassp48485.2024.10446132

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Evaluating Large Language Models Trained on Code· 2021 · 1,422 citations
Weighted finite-state transducers in speech recognition· 2002 · 881 citations
LatticeRnn: Recurrent Neural Networks Over Lattices· 2016 · 70 citations
Vicuna· 2015 · 17 citations
DeepSpeed· 2020 · 699 citations

Aprovechamiento de grandes modelos de lenguaje para explotar la incertidumbre de ASR

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider