What type of study is this?

This is a Quantitative Study study.

October 1, 2025Open Access

SimulS2S-LLM: Liberando la Inferencia Simultánea de LLMs de Voz para Traducción de Voz a Voz

Puntos clave

SimulS2S-LLM logra un mejor equilibrio calidad-latencia en la traducción simultánea de voz.
Se observan mejoras de 3 puntos en las puntuaciones ASR-BLEU manteniendo una latencia similar a métodos existentes.
La incorporación de una política en tiempo de prueba resuelve la discordancia entre entrenamiento e inferencia en LLMs de voz.
El enfoque incluye una búsqueda incremental en haz única que expande el espacio de búsqueda de predicción.

Resumen

La traducción simultánea de voz (SST) produce traducciones en paralelo con la entrada de voz en flujo, equilibrando la calidad de la traducción y la latencia. Aunque los modelos de lenguaje grandes (LLMs) se han extendido para manejar la modalidad de voz, el procesamiento en flujo sigue siendo un desafío ya que la voz se antepone como un prompt para todo el proceso de generación. Para desbloquear la capacidad de transmisión en LLMs, este artículo propone SimulS2S-LLM, que entrena LLMs de voz fuera de línea y emplea una política en tiempo de prueba para guiar la inferencia simultánea. SimulS2S-LLM alivia la discordancia entre entrenamiento e inferencia extrayendo prompts de voz conscientes de los límites, lo que le permite coincidir mejor con los datos de entrada de texto. SimulS2S-LLM logra traducción simultánea de voz a voz (Simul-S2ST) prediciendo tokens discretos de voz de salida y luego sintetizando la voz de salida usando un vocoder preentrenado. Se diseña una búsqueda incremental en haz para expandir el espacio de búsqueda de predicción de tokens de voz sin aumentar la latencia. Experimentos con los datos de voz CVSS muestran que SimulS2S-LLM ofrece un mejor equilibrio calidad-latencia que los métodos existentes que usan los mismos datos de entrenamiento, mejorando puntajes ASR-BLEU en 3 puntos con latencia similar.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Keqi Deng

Wenxi Chen

Xie Chen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

SimulS2S-LLM: Liberando la Inferencia Simultánea de LLMs de Voz para Traducción de Voz a Voz

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider