Los puntos clave no están disponibles para este artículo en este momento.
Los grandes modelos de lenguaje (LLMs) exhiben de manera famosa el aprendizaje emergente en contexto (ICL) — la capacidad de adaptarse rápidamente a nuevas tareas usando ejemplos de pocos disparos proporcionados como un aviso, sin actualizar los pesos del modelo. Construidos sobre los LLMs, los grandes modelos de lenguaje visuales (VLLMs) han avanzado significativamente en áreas como el reconocimiento, el razonamiento y el anclaje. Sin embargo, las investigaciones sobre ICL multimodal se han centrado predominantemente en preguntas visuales de pocos disparos (VQA) y en la generación de subtítulos para imágenes, que, como mostraremos, ni explotan las fortalezas del ICL ni prueban sus limitaciones. Las capacidades y limitaciones más amplias del ICL multimodal siguen siendo poco exploradas. En este estudio, presentamos un benchmark completo, VL-ICL Bench, para el aprendizaje multimodal en contexto, que abarca un amplio espectro de tareas que involucran tanto imágenes como texto como entradas y salidas, y diferentes tipos de desafíos, desde la percepción hasta el razonamiento y el manejo de contextos largos. Evaluamos las habilidades de los VLLMs de última generación frente a esta suite de benchmarks, revelando sus diversas fortalezas y debilidades, y demostrando que incluso los modelos más avanzados, como GPT-4, encuentran las tareas desafiantes. Al destacar una variedad de nuevas tareas de ICL y las fortalezas y limitaciones asociadas de los modelos existentes, esperamos que nuestro conjunto de datos inspire futuros trabajos para mejorar las capacidades de aprendizaje en contexto de los VLLMs, así como que fomente nuevas aplicaciones que aprovechen el ICL de los VLLMs. El código y el conjunto de datos están disponibles en https://github.com/ys-zong/VL-ICL.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yongshuo Zong
Ondrej Bohdal
Timothy M. Hospedales
Building similarity graph...
Analyzing shared references across papers
Loading...
Zong et al. (martes) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e73752b6db6435876b0408 — DOI: https://doi.org/10.48550/arxiv.2403.13164
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: