May 16, 2024Open Access

Aprendizaje en Contexto Many-Shot en Modelos Fundamentales Multimodales

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los grandes modelos de lenguaje son bien conocidos por ser efectivos en el aprendizaje en contexto con pocos ejemplos (few-shot in-context learning, ICL). Avances recientes en modelos fundamentales multimodales han permitido ventanas de contexto sin precedentes de gran longitud, lo que presenta una oportunidad para explorar su capacidad de realizar ICL con muchos más ejemplos demostrativos. En este trabajo, evaluamos el rendimiento de modelos fundamentales multimodales que escalan desde pocos ejemplos hasta muchos ejemplos en ICL. Realizamos un benchmark de GPT-4o y Gemini 1.5 Pro en 10 conjuntos de datos que abarcan múltiples dominios (imágenes naturales, imágenes médicas, teledetección e imágenes moleculares) y tareas (clasificación multiclase, multilabel y fina). Observamos que el ICL many-shot, incluyendo hasta casi 2,000 ejemplos multimodales demostrativos, conduce a mejoras sustanciales en comparación con el ICL few-shot (<100 ejemplos) en todos los conjuntos de datos. Además, el rendimiento de Gemini 1.5 Pro continúa mejorando de forma logarítmico-lineal hasta el número máximo de ejemplos probados en muchos conjuntos de datos. Dado los altos costos de inferencia asociados con los prompts largos requeridos para el ICL many-shot, también exploramos el impacto de agrupar múltiples consultas en una sola llamada API. Mostramos que agrupar hasta 50 consultas puede llevar a mejoras de rendimiento tanto en ICL zero-shot como many-shot, con ganancias significativas en el escenario zero-shot en múltiples conjuntos de datos, al mismo tiempo que reduce drásticamente el costo y la latencia por consulta. Finalmente, medimos la eficiencia de datos en ICL de los modelos, o la tasa a la cual los modelos aprenden de más ejemplos demostrativos. Encontramos que si bien GPT-4o y Gemini 1.5 Pro obtienen un rendimiento zero-shot similar en los conjuntos de datos, Gemini 1.5 Pro exhibe mayor eficiencia de datos en ICL que GPT-4o en la mayoría de ellos. Nuestros resultados sugieren que el ICL many-shot podría permitir a los usuarios adaptar eficientemente modelos fundamentales multimodales a nuevas aplicaciones y dominios. Nuestra base de código está disponible públicamente en https://github.com/stanfordmlgroup/ManyICL.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yixing Jiang

Jeremy Irvin

Ji Hun Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Aprendizaje en Contexto Many-Shot en Modelos Fundamentales Multimodales

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider