March 18, 2024Open Access

¿Los CLIPs Siempre Generalizan Mejor que los Modelos de ImageNet?

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los grandes modelos de lenguaje visual, como los CLIPs, han revolucionado el aprendizaje automático moderno. Los CLIPs han demostrado una gran capacidad de generalización ante cambios en la distribución, respaldada por un creciente cuerpo de literatura. Sin embargo, los conjuntos de datos de evaluación para los CLIPs son variaciones diseñadas principalmente para los benchmarks de ImageNet, que pueden no reflejar completamente hasta qué punto los CLIPs, por ejemplo, pre-entrenados en LAION, son robustos frente a correlaciones espurias. Para cerrar esta brecha, recopilamos un conjunto de datos del mundo real llamado CounterAnimal que contiene características espurias realistas encontradas en fotos de animales. CounterAnimal consta de a) el grupo común: que comprende animales en fondos comunes, y b) el grupo contraria: que incluye animales en fondos inusuales. La caída en el rendimiento del grupo común al grupo contraria cuantifica la dependencia de los modelos en características espurias (es decir, fondos) para predecir los animales. Encontramos que los CLIPs entrenados tanto en LAION como en los datos de OpenAI exhiben caídas notables en el rendimiento en el grupo contraria. Sorprendentemente, observamos que los modelos unimodales entrenados en ImageNet son más robustos que los CLIPs. Proporcionamos explicaciones tanto teóricas como empíricas sobre por qué los CLIPs aún aprenden características espurias. Nuestros hallazgos sugieren que los cambios en la distribución siguen siendo un problema abierto para los CLIPs, y se debe tener precaución con las configuraciones de prueba al evaluar modelos base pre-entrenados en una escala y distribución significativamente diferentes.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Qizhou Wang

Lin Yong

Yongqiang Chen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

¿Los CLIPs Siempre Generalizan Mejor que los Modelos de ImageNet?

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider