What type of study is this?

September 10, 2025Open Access

Un marco de aprendizaje multitarea basado en CLIP y módulos adaptadores

Puntos clave

Nuestro enfoque logra hasta un 12% de mejora en el rendimiento añadiendo menos del 0.2% de parámetros.
Al usar módulos adaptadores ligeros, el modelo mantiene las capacidades zero-shot originales de CLIP.
Este marco facilita la adaptación en tareas de clasificación, recuperación imagen-texto y regresión.
Proporciona ventajas significativas sobre estrategias convencionales de transferencia, mejorando la generalización de tareas.

Resumen

En los últimos años, con el rápido desarrollo del aprendizaje multimodal, modelos preentrenados como CLIP han demostrado potentes capacidades zero-shot en tareas de alineación imagen-texto, situándolos en el centro de la investigación multimodal. Sin embargo, persiste un desafío clave: cómo transferir efectivamente estas capacidades preservando las fortalezas de CLIP. Para abordarlo, proponemos un marco de ajuste fino multitarea eficiente en parámetros: Multi-Task CLIP-Adapter. Al insertar módulos adaptadores ligeros después del codificador CLIP congelado, nuestro método permite una adaptación unificada en múltiples tareas, incluyendo clasificación, recuperación imagen-texto y regresión. Los resultados experimentales muestran que nuestro enfoque logra una mejora de rendimiento entre 8% y 12% con menos del 0.2% de parámetros adicionales, manteniendo la capacidad zero-shot original del modelo. En comparación con el CLIP original y estrategias convencionales de transferencia, el Multi-Task CLIP-Adapter ofrece ventajas significativas en eficiencia de parámetros y generalización de tareas, abriendo un nuevo camino para aplicaciones escalables de grandes modelos multimodales.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ji Han

Journals

Applied and Computational Engineering

Actions

Institutions

Harbin University of Science and Technology

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Un marco de aprendizaje multitarea basado en CLIP y módulos adaptadores

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider