March 7, 2024Open Access

CLIP o Viés: Quão Útil é o Balanceamento de Dados em Aprendizado Multimodal?

Key Points

Key points are not available for this paper at this time.

Abstract

Estudamos a eficácia do balanceamento de dados para mitigar vieses no pré-treinamento contrastivo linguagem-imagem (CLIP), identificando áreas de força e limitação. Primeiro, reafirmamos conclusões anteriores de que modelos CLIP podem inadvertidamente absorver estereótipos sociais. Para combater isso, apresentamos um algoritmo inovador, chamado Multi-Modal Moment Matching (M4), projetado para reduzir tanto os vieses de representação quanto os de associação (ou seja, em estatísticas de primeira e segunda ordem) em dados multimodais. Usamos o M4 para realizar uma análise aprofundada considerando vários fatores, como o modelo, representação e tamanho dos dados. Nosso estudo também explora a natureza dinâmica de como o CLIP aprende e desaprende vieses. Em particular, descobrimos que o fine-tuning é eficaz para combater vieses de representação, embora seu impacto diminua para vieses de associação. Além disso, o balanceamento de dados tem um impacto misto na qualidade: tende a melhorar a classificação, mas pode prejudicar a recuperação. Curiosamente, melhorias nos dados e na arquitetura parecem mitigar o impacto negativo do balanceamento no desempenho; por exemplo, aplicar M4 ao SigLIP-B/16 com filtros de qualidade de dados melhora a recuperação imagem-para-texto COCO @5 de 86% (sem balanceamento) para 87% e a classificação zero-shot ImageNet de 77% para 77,5%! Finalmente, concluímos com recomendações para aprimorar a eficácia do balanceamento de dados em sistemas multimodais.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ibrahim Alabdulmohsin

Xiao Wang

Andreas Steiner

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

CLIP o Viés: Quão Útil é o Balanceamento de Dados em Aprendizado Multimodal?

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider