La generación multimodal adaptativa ahora permite interlocutores artificiales que perciben simultáneamente el habla, la mirada y el gesto, y ajustan la retroalimentación en milisegundos. Aprovechando estos avances, el presente estudio diseña y valida un sistema adaptativo al aprendiz que fusiona el reconocimiento de voz basado en wav2vec, un transformador de visión para señales no verbales y un motor de indicaciones de avatar por difusión entrenado mediante aprendizaje por refuerzo con rúbricas de fluidez humana como recompensa. Ciento veinte aprendices intermedios de inglés (B1B2) practicaron con el agente o un programa comunicativo dirigido por un profesor durante doce semanas. La telemetría detallada capturó 63,948 enunciados, 5.7 millones de cuadros prosódicos y 173 horas de cuadros de video. El modelado de crecimiento de efectos mixtos muestra que el grupo de IA mejoró palabras por minuto en 48.6 ppm (IC 95 % = 42.4-54.8), longitud media de secuencia en 3.91 sílabas (IC = 3.34-4.48), y redujo la densidad de pausas llenas en 6.3 pausas por 100 palabras (IC = 5.1-7.5), superando a los controles en todos los puntos finales (p < 0.001). Los diarios de los aprendices corroboran las ganancias cuantitativas, citando menor ansiedad y mayor experimentación prosódica. Los hallazgos evidencian que sincronizar análisis multimodales con realimentación generativa en tiempo real genera beneficios sustanciales en fluidez y ofrecen principios de diseño para tutores de habla asistidos por IA escalables.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ye Li
Yan Liang
Theoretical and Natural Science
University of Edinburgh
Changchun University
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (Wed,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68c1a25a54b1d3bfb60dd266 — DOI: https://doi.org/10.54254/2753-8818/2025.25631
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: