June 19, 2024Open Access

Module d'alignement transférable pour modèle de langage large de la parole au texte

Key Points

Key points are not available for this paper at this time.

Abstract

En tirant parti de la puissance des modèles de langage large (LLMs) et des modèles fondamentaux de la parole, les travaux bimodaux parole-texte à la pointe de la technologie peuvent accomplir des tâches difficiles comme la traduction parlée (ST) et la réponse aux questions (SQA) avec des architectures beaucoup plus simples. Dans cet article, nous utilisons la capacité de l'encodeur Whisper et du Yi-6B pré-entraîné. Les résultats empiriques révèlent que l'alignement modal peut être réalisé avec un module à une couche et un corpus multitâche parole-texte de cent heures. Nous remplaçons ensuite le Yi-6B par la version alignée sur les préférences humaines de Yi-6B-Chat durant l'inférence, et découvrons que la capacité d'alignement s'applique également. De plus, le sous-espace d'alignement révélé par la décomposition en valeurs singulières (SVD) implique aussi que le sous-espace d'alignement linéaire est sparse, ce qui laisse la possibilité de concaténer d'autres caractéristiques comme l'empreinte vocale ou la vidéo pour étendre la modalité.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Boyong Wu

Chao Yan

Haoran Pu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Module d'alignement transférable pour modèle de langage large de la parole au texte

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider