May 9, 2024Open Access

Amélioration des modèles de langage large multimodaux avec retrait des tokens visuels pour une inférence rapide

Key Points

Key points are not available for this paper at this time.

Abstract

Les modèles de langage large multimodaux (MLLMs) nécessitent des calculs considérables pour l'inférence en raison de leurs nombreux paramètres et des tokens d'entrée additionnels requis pour la représentation de l'information visuelle. Nous introduisons ici Visual Tokens Withdrawal (VTW), un module plug-and-play pour booster les MLLMs afin d'accélérer l'inférence. Notre approche s'inspire de deux phénomènes intrigants que nous avons observés : (1) le phénomène d'absorption de l'attention, prédominant dans les LLMs, persiste également dans les MLLMs, suggérant que les tokens initiaux et voisins reçoivent la majorité de l'attention, tandis que les tokens visuels intermédiaires attirent peu d'attention dans les couches profondes ; (2) la présence d'une migration d'information, impliquant que l'information visuelle est transférée aux tokens textuels suivants dans les premières couches des MLLMs. Selon nos résultats, nous concluons que les tokens visuels ne sont pas nécessaires dans les couches profondes des MLLMs. Nous les retirons donc stratégiquement à une certaine couche, permettant uniquement aux tokens textuels de participer aux couches suivantes. Pour identifier la couche idéale de retrait des tokens visuels, nous analysons initialement un ensemble limité de petits jeux de données et choisissons la première couche qui satisfait le critère de divergence de Kullback-Leibler. Notre méthode VTW peut réduire la charge computationnelle de plus de 40 % sur diverses tâches multimodales tout en maintenant la performance. Notre code est disponible sur https://github.com/lzhxmu/VTW.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhihang Lin

Mingbao Lin

Luxi Lin

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Amélioration des modèles de langage large multimodaux avec retrait des tokens visuels pour une inférence rapide

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider