Los puntos clave no están disponibles para este artículo en este momento.
El progreso reciente en la adaptación de pocas muestras de Modelos Visión-Lenguaje (VLMs) ha impulsado aún más sus capacidades de generalización, a costa de solo unas pocas muestras etiquetadas dentro de la tarea descendente objetivo. Sin embargo, esta prometedora y ya bastante abundante literatura sobre pocas muestras se ha centrado principalmente en el aprendizaje mediante prompts y, en menor medida, en adaptadores, pasando por alto los avances recientes en el Afinado de Parámetros Eficiente (PEFT). Además, los métodos existentes de aprendizaje con pocas muestras para VLMs suelen depender de procedimientos de entrenamiento extensos y/o hiperparámetros específicos de la tarea cuidadosamente seleccionados, lo que podría obstaculizar su aplicabilidad. En respuesta, introducimos la Adaptación de Bajo Rango (LoRA) en el aprendizaje con pocas muestras para VLMs, y mostramos su potencial en 11 conjuntos de datos, en comparación con los enfoques actuales de punta basados en prompts y adaptadores. Sorprendentemente, nuestro simple método CLIP-LoRA presenta mejoras sustanciales, mientras reduce los tiempos de entrenamiento y mantiene los mismos hiperparámetros en todas las tareas objetivo, es decir, en todos los conjuntos de datos y números de muestras. Ciertamente, nuestros sorprendentes resultados no descartan el potencial de la investigación basada en aprendizaje por prompts y adaptadores. Sin embargo, creemos que nuestra sólida línea base podría usarse para evaluar el progreso en estos temas emergentes en VLMs con pocas muestras.
Building similarity graph...
Analyzing shared references across papers
Loading...
Maxime Zanella
Ismail Ben Ayed
Building similarity graph...
Analyzing shared references across papers
Loading...
Zanella et al. (mar,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e68232b6db64358760b9b6 — DOI: https://doi.org/10.48550/arxiv.2405.18541
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: