La traducción simultánea de voz (SST) produce traducciones en paralelo con la entrada de voz en flujo, equilibrando la calidad de la traducción y la latencia. Aunque los modelos de lenguaje grandes (LLMs) se han extendido para manejar la modalidad de voz, el procesamiento en flujo sigue siendo un desafío ya que la voz se antepone como un prompt para todo el proceso de generación. Para desbloquear la capacidad de transmisión en LLMs, este artículo propone SimulS2S-LLM, que entrena LLMs de voz fuera de línea y emplea una política en tiempo de prueba para guiar la inferencia simultánea. SimulS2S-LLM alivia la discordancia entre entrenamiento e inferencia extrayendo prompts de voz conscientes de los límites, lo que le permite coincidir mejor con los datos de entrada de texto. SimulS2S-LLM logra traducción simultánea de voz a voz (Simul-S2ST) prediciendo tokens discretos de voz de salida y luego sintetizando la voz de salida usando un vocoder preentrenado. Se diseña una búsqueda incremental en haz para expandir el espacio de búsqueda de predicción de tokens de voz sin aumentar la latencia. Experimentos con los datos de voz CVSS muestran que SimulS2S-LLM ofrece un mejor equilibrio calidad-latencia que los métodos existentes que usan los mismos datos de entrenamiento, mejorando puntajes ASR-BLEU en 3 puntos con latencia similar.
Building similarity graph...
Analyzing shared references across papers
Loading...
Keqi Deng
Wenxi Chen
Xie Chen
Building similarity graph...
Analyzing shared references across papers
Loading...
Deng et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68dd91c7fe798ba2fc4985d6 — DOI: https://doi.org/10.48550/arxiv.2504.15509
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: