Los puntos clave no están disponibles para este artículo en este momento.
Los grandes modelos de lenguaje son bien conocidos por ser efectivos en el aprendizaje en contexto con pocos ejemplos (few-shot in-context learning, ICL). Avances recientes en modelos fundamentales multimodales han permitido ventanas de contexto sin precedentes de gran longitud, lo que presenta una oportunidad para explorar su capacidad de realizar ICL con muchos más ejemplos demostrativos. En este trabajo, evaluamos el rendimiento de modelos fundamentales multimodales que escalan desde pocos ejemplos hasta muchos ejemplos en ICL. Realizamos un benchmark de GPT-4o y Gemini 1.5 Pro en 10 conjuntos de datos que abarcan múltiples dominios (imágenes naturales, imágenes médicas, teledetección e imágenes moleculares) y tareas (clasificación multiclase, multilabel y fina). Observamos que el ICL many-shot, incluyendo hasta casi 2,000 ejemplos multimodales demostrativos, conduce a mejoras sustanciales en comparación con el ICL few-shot (<100 ejemplos) en todos los conjuntos de datos. Además, el rendimiento de Gemini 1.5 Pro continúa mejorando de forma logarítmico-lineal hasta el número máximo de ejemplos probados en muchos conjuntos de datos. Dado los altos costos de inferencia asociados con los prompts largos requeridos para el ICL many-shot, también exploramos el impacto de agrupar múltiples consultas en una sola llamada API. Mostramos que agrupar hasta 50 consultas puede llevar a mejoras de rendimiento tanto en ICL zero-shot como many-shot, con ganancias significativas en el escenario zero-shot en múltiples conjuntos de datos, al mismo tiempo que reduce drásticamente el costo y la latencia por consulta. Finalmente, medimos la eficiencia de datos en ICL de los modelos, o la tasa a la cual los modelos aprenden de más ejemplos demostrativos. Encontramos que si bien GPT-4o y Gemini 1.5 Pro obtienen un rendimiento zero-shot similar en los conjuntos de datos, Gemini 1.5 Pro exhibe mayor eficiencia de datos en ICL que GPT-4o en la mayoría de ellos. Nuestros resultados sugieren que el ICL many-shot podría permitir a los usuarios adaptar eficientemente modelos fundamentales multimodales a nuevas aplicaciones y dominios. Nuestra base de código está disponible públicamente en https://github.com/stanfordmlgroup/ManyICL.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yixing Jiang
Jeremy Irvin
Ji Hun Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiang et al. (Thu,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e69c41b6db643587621e2c — DOI: https://doi.org/10.48550/arxiv.2405.09798
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: