March 19, 2024Open Access

VL-ICL Bench: El diablo está en los detalles del benchmarking del aprendizaje multimodal en contexto

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los grandes modelos de lenguaje (LLMs) exhiben de manera famosa el aprendizaje emergente en contexto (ICL) — la capacidad de adaptarse rápidamente a nuevas tareas usando ejemplos de pocos disparos proporcionados como un aviso, sin actualizar los pesos del modelo. Construidos sobre los LLMs, los grandes modelos de lenguaje visuales (VLLMs) han avanzado significativamente en áreas como el reconocimiento, el razonamiento y el anclaje. Sin embargo, las investigaciones sobre ICL multimodal se han centrado predominantemente en preguntas visuales de pocos disparos (VQA) y en la generación de subtítulos para imágenes, que, como mostraremos, ni explotan las fortalezas del ICL ni prueban sus limitaciones. Las capacidades y limitaciones más amplias del ICL multimodal siguen siendo poco exploradas. En este estudio, presentamos un benchmark completo, VL-ICL Bench, para el aprendizaje multimodal en contexto, que abarca un amplio espectro de tareas que involucran tanto imágenes como texto como entradas y salidas, y diferentes tipos de desafíos, desde la percepción hasta el razonamiento y el manejo de contextos largos. Evaluamos las habilidades de los VLLMs de última generación frente a esta suite de benchmarks, revelando sus diversas fortalezas y debilidades, y demostrando que incluso los modelos más avanzados, como GPT-4, encuentran las tareas desafiantes. Al destacar una variedad de nuevas tareas de ICL y las fortalezas y limitaciones asociadas de los modelos existentes, esperamos que nuestro conjunto de datos inspire futuros trabajos para mejorar las capacidades de aprendizaje en contexto de los VLLMs, así como que fomente nuevas aplicaciones que aprovechen el ICL de los VLLMs. El código y el conjunto de datos están disponibles en https://github.com/ys-zong/VL-ICL.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yongshuo Zong

Ondrej Bohdal

Timothy M. Hospedales

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

VL-ICL Bench: El diablo está en los detalles del benchmarking del aprendizaje multimodal en contexto

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider