En los últimos años, con el rápido desarrollo del aprendizaje multimodal, modelos preentrenados como CLIP han demostrado potentes capacidades zero-shot en tareas de alineación imagen-texto, situándolos en el centro de la investigación multimodal. Sin embargo, persiste un desafío clave: cómo transferir efectivamente estas capacidades preservando las fortalezas de CLIP. Para abordarlo, proponemos un marco de ajuste fino multitarea eficiente en parámetros: Multi-Task CLIP-Adapter. Al insertar módulos adaptadores ligeros después del codificador CLIP congelado, nuestro método permite una adaptación unificada en múltiples tareas, incluyendo clasificación, recuperación imagen-texto y regresión. Los resultados experimentales muestran que nuestro enfoque logra una mejora de rendimiento entre 8% y 12% con menos del 0.2% de parámetros adicionales, manteniendo la capacidad zero-shot original del modelo. En comparación con el CLIP original y estrategias convencionales de transferencia, el Multi-Task CLIP-Adapter ofrece ventajas significativas en eficiencia de parámetros y generalización de tareas, abriendo un nuevo camino para aplicaciones escalables de grandes modelos multimodales.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ji Han
Applied and Computational Engineering
Harbin University of Science and Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Ji Han (miércoles) estudió esta cuestión.
www.synapsesocial.com/papers/68c183f09b7b07f3a060f830 — DOI: https://doi.org/10.54254/2755-2721/2025.bj26532
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: