March 19, 2024Open Access

VL-ICL Bench : Le Diable dans les détails de l'évaluation des performances de l'apprentissage en contexte multimodal

Key Points

Key points are not available for this paper at this time.

Abstract

Les grands modèles de langage (LLM) présentent bien connu un apprentissage émergent en contexte (ICL) – la capacité à s'adapter rapidement à de nouvelles tâches en utilisant des exemples few-shot fournis comme invite, sans mettre à jour les poids du modèle. Construits sur la base des LLM, les modèles de langage visuels (VLLM) ont connu des avancées significatives dans des domaines tels que la reconnaissance, le raisonnement et l'ancrage. Cependant, les recherches sur l'ICL multimodal se sont principalement concentrées sur la réponse à des questions visuelles few-shot (VQA) et la génération de légendes d'images, qui, comme nous le montrerons, n'exploitent ni les forces de l'ICL, ni ne testent ses limites. Les capacités et limitations plus larges de l'ICL multimodal restent sous-explorées. Dans cette étude, nous introduisons une évaluation complète, VL-ICL Bench, pour l'apprentissage en contexte multimodal, englobant un large spectre de tâches impliquant à la fois des images et du texte en entrée et sortie, ainsi que différents types de défis, allant de la perception au raisonnement et aux longues séquences contextuelles. Nous évaluons les capacités des VLLM à la pointe contre cette suite de benchmarks, révélant leurs forces et faiblesses diverses, et montrant que même les modèles les plus avancés, tels que GPT-4, trouvent ces tâches difficiles. En mettant en lumière une série de nouvelles tâches d'ICL, ainsi que les forces et limitations associées des modèles existants, nous espérons que notre jeu de données inspirera des travaux futurs pour améliorer les capacités d'apprentissage en contexte des VLLM, ainsi que de nouvelles applications exploitant l'ICL des VLLM. Le code et le jeu de données sont disponibles à https://github.com/ys-zong/VL-ICL.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yongshuo Zong

Ondrej Bohdal

Timothy M. Hospedales

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

VL-ICL Bench : Le Diable dans les détails de l'évaluation des performances de l'apprentissage en contexte multimodal

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider