Key points are not available for this paper at this time.
En tirant parti de la puissance des modèles de langage large (LLMs) et des modèles fondamentaux de la parole, les travaux bimodaux parole-texte à la pointe de la technologie peuvent accomplir des tâches difficiles comme la traduction parlée (ST) et la réponse aux questions (SQA) avec des architectures beaucoup plus simples. Dans cet article, nous utilisons la capacité de l'encodeur Whisper et du Yi-6B pré-entraîné. Les résultats empiriques révèlent que l'alignement modal peut être réalisé avec un module à une couche et un corpus multitâche parole-texte de cent heures. Nous remplaçons ensuite le Yi-6B par la version alignée sur les préférences humaines de Yi-6B-Chat durant l'inférence, et découvrons que la capacité d'alignement s'applique également. De plus, le sous-espace d'alignement révélé par la décomposition en valeurs singulières (SVD) implique aussi que le sous-espace d'alignement linéaire est sparse, ce qui laisse la possibilité de concaténer d'autres caractéristiques comme l'empreinte vocale ou la vidéo pour étendre la modalité.
Building similarity graph...
Analyzing shared references across papers
Loading...
Boyong Wu
Chao Yan
Haoran Pu
Building similarity graph...
Analyzing shared references across papers
Loading...
Wu et al. (mer,) ont étudié cette question.
www.synapsesocial.com/papers/68e642a2b6db6435875d459b — DOI: https://doi.org/10.48550/arxiv.2406.13357
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: