Die Nachhaltigen Entwicklungsziele der Vereinten Nationen (UN SDGs) setzen den Fokus auf inklusive und faire Beschäftigung. KI-gestützte Rekrutierungswerkzeuge—insbesondere Large Language Models (LLMs)—lösen jedoch Bedenken hinsichtlich potenzieller demografischer Verzerrungen aus. Dieses Papier präsentiert einen kontrollierten synthetischen Datensatz und eine Methodik zur Messung, wie sensitive Merkmale (z.B. Rasse, Geschlecht, Alter) die Kandidatenranglisten und paarweisen Vergleiche in LLM-basierten Einstellungsprozessen beeinflussen. Konkret haben wir einen ausgewogenen Datensatz von 1.000 synthetischen Kandidatenprofilen (jeweils mit Anschreiben) erstellt und mit 28 führenden LLMs bewertet, darunter proprietäre (z.B. OpenAI GPT, Gemini, Grok, Claude) und Open-Source-Modelle (z.B. Llama, GigaChat). Synthetische Daten eliminieren reale demografische/berufliche Störfaktoren, sodass beobachtete Unterschiede ausschließlich das intrinsische Verhalten der LLMs widerspiegeln. Die Ergebnisse zeigen, dass berufliche Attribute (z.B. Fähigkeiten, Erfahrung) die primären Treiber der Ranglisten sind, mit 76 %–80 % statistischer Signifikanz; allerdings weisen 8 %–9 % der demografischen Merkmale über mehrere LLMs hinweg persistente, signifikante Verzerrungen auf. Wir entwickeln eine "Bias Map", die die Leistung der LLMs quantifiziert und betont, dass die Minderung selbst kleiner Verzerrungen im automatisierten Einstellungsprozess entscheidend ist, um die Fortsetzung von Ungleichheiten am Arbeitsplatz zu vermeiden und die inklusive Vision der UN SDGs zu wahren.
Building similarity graph...
Analyzing shared references across papers
Loading...
Eldar Jalilzade
Maksim Kalameyets
Shrikant Malviya
Newcastle University
Durham University
Building similarity graph...
Analyzing shared references across papers
Loading...
Jalilzade et al. (Mon,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/69b2573196eeacc4fcec5d0f — DOI: https://doi.org/10.1109/bigdata66926.2025.11401029
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: