Key points are not available for this paper at this time.
Estudamos a eficácia do balanceamento de dados para mitigar vieses no pré-treinamento contrastivo linguagem-imagem (CLIP), identificando áreas de força e limitação. Primeiro, reafirmamos conclusões anteriores de que modelos CLIP podem inadvertidamente absorver estereótipos sociais. Para combater isso, apresentamos um algoritmo inovador, chamado Multi-Modal Moment Matching (M4), projetado para reduzir tanto os vieses de representação quanto os de associação (ou seja, em estatísticas de primeira e segunda ordem) em dados multimodais. Usamos o M4 para realizar uma análise aprofundada considerando vários fatores, como o modelo, representação e tamanho dos dados. Nosso estudo também explora a natureza dinâmica de como o CLIP aprende e desaprende vieses. Em particular, descobrimos que o fine-tuning é eficaz para combater vieses de representação, embora seu impacto diminua para vieses de associação. Além disso, o balanceamento de dados tem um impacto misto na qualidade: tende a melhorar a classificação, mas pode prejudicar a recuperação. Curiosamente, melhorias nos dados e na arquitetura parecem mitigar o impacto negativo do balanceamento no desempenho; por exemplo, aplicar M4 ao SigLIP-B/16 com filtros de qualidade de dados melhora a recuperação imagem-para-texto COCO @5 de 86% (sem balanceamento) para 87% e a classificação zero-shot ImageNet de 77% para 77,5%! Finalmente, concluímos com recomendações para aprimorar a eficácia do balanceamento de dados em sistemas multimodais.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ibrahim Alabdulmohsin
Xiao Wang
Andreas Steiner
Building similarity graph...
Analyzing shared references across papers
Loading...
Alabdulmohsin et al. (Qui,) estudaram esta questão.
www.synapsesocial.com/papers/68e7567db6db6435876cddcc — DOI: https://doi.org/10.48550/arxiv.2403.04547
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: