Key points are not available for this paper at this time.
Les grands modèles de langage (LLM) présentent bien connu un apprentissage émergent en contexte (ICL) – la capacité à s'adapter rapidement à de nouvelles tâches en utilisant des exemples few-shot fournis comme invite, sans mettre à jour les poids du modèle. Construits sur la base des LLM, les modèles de langage visuels (VLLM) ont connu des avancées significatives dans des domaines tels que la reconnaissance, le raisonnement et l'ancrage. Cependant, les recherches sur l'ICL multimodal se sont principalement concentrées sur la réponse à des questions visuelles few-shot (VQA) et la génération de légendes d'images, qui, comme nous le montrerons, n'exploitent ni les forces de l'ICL, ni ne testent ses limites. Les capacités et limitations plus larges de l'ICL multimodal restent sous-explorées. Dans cette étude, nous introduisons une évaluation complète, VL-ICL Bench, pour l'apprentissage en contexte multimodal, englobant un large spectre de tâches impliquant à la fois des images et du texte en entrée et sortie, ainsi que différents types de défis, allant de la perception au raisonnement et aux longues séquences contextuelles. Nous évaluons les capacités des VLLM à la pointe contre cette suite de benchmarks, révélant leurs forces et faiblesses diverses, et montrant que même les modèles les plus avancés, tels que GPT-4, trouvent ces tâches difficiles. En mettant en lumière une série de nouvelles tâches d'ICL, ainsi que les forces et limitations associées des modèles existants, nous espérons que notre jeu de données inspirera des travaux futurs pour améliorer les capacités d'apprentissage en contexte des VLLM, ainsi que de nouvelles applications exploitant l'ICL des VLLM. Le code et le jeu de données sont disponibles à https://github.com/ys-zong/VL-ICL.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yongshuo Zong
Ondrej Bohdal
Timothy M. Hospedales
Building similarity graph...
Analyzing shared references across papers
Loading...
Zong et al. (mardi,) ont étudié cette question.
www.synapsesocial.com/papers/68e73752b6db6435876b0408 — DOI: https://doi.org/10.48550/arxiv.2403.13164
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: