What type of study is this?

This is a Quantitative Study study.

October 13, 2025Open Access

AesBiasBench: Avaliando Viés e Alinhamento em Modelos Multimodais de Linguagem para Avaliação Estética Personalizada de Imagens

Key Points

Modelos multimodais maiores de linguagem se alinham mais estreitamente com genuínas preferências estéticas humanas, reduzindo os vieses.
A avaliação de 19 modelos destacou que modelos menores demonstram aumento de viés estereotipado em fatores demográficos.
Avaliações estéticas focadas em três subtarefas: Percepção Estética, Avaliação e Empatia para fornecer métricas abrangentes.
Informações de identidade incluídas nas avaliações frequentemente agravam o viés em julgamentos relacionados a emoções, exigindo frameworks robustos de avaliação.

Abstract

Modelos Multimodais Grandes de Linguagem (MLLMs) são cada vez mais aplicados na Avaliação Estética Personalizada de Imagens (PIAA) como uma alternativa escalável às avaliações de especialistas. No entanto, suas predições podem refletir vieses sutis influenciados por fatores demográficos como gênero, idade e educação. Neste trabalho, propomos o AesBiasBench, um benchmark projetado para avaliar MLLMs em duas dimensões complementares: (1) viés estereotipado, quantificado pela medição de variações em avaliações estéticas entre grupos demográficos; e (2) alinhamento entre as saídas do modelo e as genuínas preferências estéticas humanas. Nosso benchmark cobre três subtarefas (Percepção Estética, Avaliação, Empatia) e introduz métricas estruturadas (IFD, NRD, AAS) para avaliar tanto o viés quanto o alinhamento. Avaliamos 19 MLLMs, incluindo modelos proprietários (ex.: GPT-4o, Claude-3.5-Sonnet) e modelos de código aberto (ex.: InternVL-2.5, Qwen2.5-VL). Os resultados indicam que modelos menores exibem vieses estereotipados mais fortes, enquanto modelos maiores alinham-se mais estreitamente com as preferências humanas. A incorporação de informações de identidade frequentemente exacerba o viés, especialmente em julgamentos emocionais. Esses achados ressaltam a importância de frameworks de avaliação conscientes da identidade em tarefas subjetivas de visão e linguagem.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Kun Li

Lai-Man Po

Hongzheng Yang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

AesBiasBench: Avaliando Viés e Alinhamento em Modelos Multimodais de Linguagem para Avaliação Estética Personalizada de Imagens

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider