Key points are not available for this paper at this time.
Les modèles de langage large multimodaux (MLLMs) nécessitent des calculs considérables pour l'inférence en raison de leurs nombreux paramètres et des tokens d'entrée additionnels requis pour la représentation de l'information visuelle. Nous introduisons ici Visual Tokens Withdrawal (VTW), un module plug-and-play pour booster les MLLMs afin d'accélérer l'inférence. Notre approche s'inspire de deux phénomènes intrigants que nous avons observés : (1) le phénomène d'absorption de l'attention, prédominant dans les LLMs, persiste également dans les MLLMs, suggérant que les tokens initiaux et voisins reçoivent la majorité de l'attention, tandis que les tokens visuels intermédiaires attirent peu d'attention dans les couches profondes ; (2) la présence d'une migration d'information, impliquant que l'information visuelle est transférée aux tokens textuels suivants dans les premières couches des MLLMs. Selon nos résultats, nous concluons que les tokens visuels ne sont pas nécessaires dans les couches profondes des MLLMs. Nous les retirons donc stratégiquement à une certaine couche, permettant uniquement aux tokens textuels de participer aux couches suivantes. Pour identifier la couche idéale de retrait des tokens visuels, nous analysons initialement un ensemble limité de petits jeux de données et choisissons la première couche qui satisfait le critère de divergence de Kullback-Leibler. Notre méthode VTW peut réduire la charge computationnelle de plus de 40 % sur diverses tâches multimodales tout en maintenant la performance. Notre code est disponible sur https://github.com/lzhxmu/VTW.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhihang Lin
Mingbao Lin
Luxi Lin
Building similarity graph...
Analyzing shared references across papers
Loading...
Lin et al. (Thu,) ont étudié cette question.
www.synapsesocial.com/papers/68e6aec4b6db643587630ee3 — DOI: https://doi.org/10.48550/arxiv.2405.05803
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: