मल्टीमॉडल बड़े भाषा मॉडल (MLLMs) व्यक्तिगत छवि सौंदर्य मूल्यांकन (PIAA) में विशेषज्ञ मूल्यांकनों के सफल विकल्प के रूप में तेजी से लागू किए जा रहे हैं। हालांकि, उनकी भविष्यवाणियाँ जेंडर, आयु और शिक्षा जैसे जनसांख्यिकीय कारकों द्वारा प्रभावित सूक्ष्म पक्षपात को दर्शा सकती हैं। इस कार्य में, हम AesBiasBench प्रस्तुत करते हैं, एक बेंचमार्क जो MLLMs का मूल्यांकन दो पूरक आयामों में करता है: (1) स्टीरियोटाइप पक्षपात, जो जनसांख्यिकीय समूहों में सौंदर्य मूल्यांकन में भिन्नताओं को मापकर परिभाषित है; और (2) मॉडल के आउटपुट और वास्तविक मानव सौंदर्य प्रतिबंधों के बीच संरेखण। हमारा बेंचमार्क तीन सबटास्क्स (सौंदर्य संवेदना, मूल्यांकन, सहानुभूति) को कवर करता है और संरचित मेट्रिक्स (IFD, NRD, AAS) प्रस्तुत करता है ताकि पक्षपात और संरेखण दोनों का आकलन किया जा सके। हमने 19 MLLMs का मूल्यांकन किया, जिसमें निजी मॉडल (जैसे GPT-4o, Claude-3.5-Sonnet) और ओपन-सोर्स मॉडल (जैसे InternVL-2.5, Qwen2.5-VL) शामिल हैं। परिणाम बताते हैं कि छोटे मॉडल में स्टीरियोटाइप पक्षपात अधिक होता है, जबकि बड़े मॉडल मानव पसंद के अधिक निकट होते हैं। पहचान सूचना शामिल करने से अक्सर पक्षपात बढ़ जाता है, विशेषकर भावनात्मक निर्णयों में। ये निष्कर्ष व्यक्तिपरक विज़न-भाषा कार्यों में पहचान-जागरूक मूल्यांकन ढाँचों के महत्व को उजाग करते हैं।
Building similarity graph...
Analyzing shared references across papers
Loading...
Kun Li
Lai-Man Po
Hongzheng Yang
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (Mon,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68ecfebf950606aabec09534 — DOI: https://doi.org/10.48550/arxiv.2509.11620
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: