我々はEuroParlVoteを新たに導入します。これは政治的に敏感な文脈で大型言語モデル(LLM)を評価するためのベンチマークです。欧州議会の討論演説をロールコール投票結果に結びつけ、各欧州議会議員(MEP)の性別、年齢、国、および政治グループなどの豊富な人口統計メタデータを含みます。EuroParlVoteを用いて、最新のLLMを性別分類と投票予測の2つのタスクで評価したところ、一貫したバイアスの傾向が明らかになりました。LLMは女性議員を男性と誤分類することが頻繁にあり、女性スピーカーの投票をシミュレートする際の精度が低下しました。政治的には、LLMは中道派グループを好み、極左および極右のグループでの性能が劣っていました。GPT-4oのような独自モデルは、オープンウェイトの代替と比べて堅牢性と公平性の両面で優れています。将来の政治的文脈における自然言語処理の公平性と説明責任に関する研究を支援するため、EuroParlVoteのデータセット、コード、デモを公開します。
Yangら(Sun,)がこの問題を研究した。