Modelos Multimodais Grandes de Linguagem (MLLMs) são cada vez mais aplicados na Avaliação Estética Personalizada de Imagens (PIAA) como uma alternativa escalável às avaliações de especialistas. No entanto, suas predições podem refletir vieses sutis influenciados por fatores demográficos como gênero, idade e educação. Neste trabalho, propomos o AesBiasBench, um benchmark projetado para avaliar MLLMs em duas dimensões complementares: (1) viés estereotipado, quantificado pela medição de variações em avaliações estéticas entre grupos demográficos; e (2) alinhamento entre as saídas do modelo e as genuínas preferências estéticas humanas. Nosso benchmark cobre três subtarefas (Percepção Estética, Avaliação, Empatia) e introduz métricas estruturadas (IFD, NRD, AAS) para avaliar tanto o viés quanto o alinhamento. Avaliamos 19 MLLMs, incluindo modelos proprietários (ex.: GPT-4o, Claude-3.5-Sonnet) e modelos de código aberto (ex.: InternVL-2.5, Qwen2.5-VL). Os resultados indicam que modelos menores exibem vieses estereotipados mais fortes, enquanto modelos maiores alinham-se mais estreitamente com as preferências humanas. A incorporação de informações de identidade frequentemente exacerba o viés, especialmente em julgamentos emocionais. Esses achados ressaltam a importância de frameworks de avaliação conscientes da identidade em tarefas subjetivas de visão e linguagem.
Building similarity graph...
Analyzing shared references across papers
Loading...
Kun Li
Lai-Man Po
Hongzheng Yang
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (Mon,) estudaram esta questão.
www.synapsesocial.com/papers/68ecfebf950606aabec09534 — DOI: https://doi.org/10.48550/arxiv.2509.11620
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: