Los puntos clave no están disponibles para este artículo en este momento.
Los grandes modelos de lenguaje visual, como los CLIPs, han revolucionado el aprendizaje automático moderno. Los CLIPs han demostrado una gran capacidad de generalización ante cambios en la distribución, respaldada por un creciente cuerpo de literatura. Sin embargo, los conjuntos de datos de evaluación para los CLIPs son variaciones diseñadas principalmente para los benchmarks de ImageNet, que pueden no reflejar completamente hasta qué punto los CLIPs, por ejemplo, pre-entrenados en LAION, son robustos frente a correlaciones espurias. Para cerrar esta brecha, recopilamos un conjunto de datos del mundo real llamado CounterAnimal que contiene características espurias realistas encontradas en fotos de animales. CounterAnimal consta de a) el grupo común: que comprende animales en fondos comunes, y b) el grupo contraria: que incluye animales en fondos inusuales. La caída en el rendimiento del grupo común al grupo contraria cuantifica la dependencia de los modelos en características espurias (es decir, fondos) para predecir los animales. Encontramos que los CLIPs entrenados tanto en LAION como en los datos de OpenAI exhiben caídas notables en el rendimiento en el grupo contraria. Sorprendentemente, observamos que los modelos unimodales entrenados en ImageNet son más robustos que los CLIPs. Proporcionamos explicaciones tanto teóricas como empíricas sobre por qué los CLIPs aún aprenden características espurias. Nuestros hallazgos sugieren que los cambios en la distribución siguen siendo un problema abierto para los CLIPs, y se debe tener precaución con las configuraciones de prueba al evaluar modelos base pre-entrenados en una escala y distribución significativamente diferentes.
Building similarity graph...
Analyzing shared references across papers
Loading...
Qizhou Wang
Lin Yong
Yongqiang Chen
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e73a7cb6db6435876b39bf — DOI: https://doi.org/10.48550/arxiv.2403.11497
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: