Wie verstehen Large Language Models moralische Dimensionen im Vergleich zu Menschen? Diese erste groß angelegte bayessche Bewertung marktführender Sprachmodelle liefert die Antwort. Im Gegensatz zu früheren Arbeiten, die deterministische Wahrheiten (Mehrheits- oder Inklusionsregeln) verwenden, modellieren wir Annotator-Streitigkeiten, um sowohl aleatorische Unsicherheit (inhärente menschliche Uneinigkeit) als auch epistemische Unsicherheit (Modellsensitivität gegenüber Domänen) zu erfassen. Wir bewerteten die besten Sprachmodelle (Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick) anhand von über 250.000 Annotationen von fast 700 Annotatoren in mehr als 100.000 Texten aus sozialen Netzwerken, Nachrichten und Foren. Unser GPU-optimierter bayesscher Rahmen verarbeitete über 1 Million Modellabfragen und zeigte, dass KI-Modelle in der Regel unter den besten 25 % der menschlichen Annotatoren rangieren und eine wesentlich bessere durchschnittliche ausgewogene Genauigkeit erzielen. Wichtig ist, dass KI deutlich weniger falsch negative Ergebnisse produziert als Menschen, was auf ihre sensibleren Fähigkeiten zur moralischen Erkennung hinweist.
Building similarity graph...
Analyzing shared references across papers
Loading...
Maciej Skórski
Alina Landowska
Building similarity graph...
Analyzing shared references across papers
Loading...
Skórski et al. (Tue,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e9b2e4ba7d64b6fc133188 — DOI: https://doi.org/10.48550/arxiv.2508.13804
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: