What type of study is this?

This is a Quantitative Study study.

October 12, 2025Open Access

大型言語モデルにおける性別および政治的バイアスのベンチマーキング

Key Points

大型言語モデルは女性欧州議会議員を男性と誤分類することが多く、体系的なバイアスを示している。
評価により、LLMは中道派政治グループを好む傾向があり、極左および極右カテゴリーでの精度が低下することが明らかになった。
GPT-4oのような独自モデルは、政治的に敏感なタスクにおいて、オープンウェイトモデルより堅牢性、公平性、精度で優れている。
EuroParlVoteデータセットは、将来の自然言語処理における公平性と説明責任の研究に不可欠なデータを提供する。

Abstract

我々はEuroParlVoteを新たに導入します。これは政治的に敏感な文脈で大型言語モデル（LLM）を評価するためのベンチマークです。欧州議会の討論演説をロールコール投票結果に結びつけ、各欧州議会議員（MEP）の性別、年齢、国、および政治グループなどの豊富な人口統計メタデータを含みます。EuroParlVoteを用いて、最新のLLMを性別分類と投票予測の2つのタスクで評価したところ、一貫したバイアスの傾向が明らかになりました。LLMは女性議員を男性と誤分類することが頻繁にあり、女性スピーカーの投票をシミュレートする際の精度が低下しました。政治的には、LLMは中道派グループを好み、極左および極右のグループでの性能が劣っていました。GPT-4oのような独自モデルは、オープンウェイトの代替と比べて堅牢性と公平性の両面で優れています。将来の政治的文脈における自然言語処理の公平性と説明責任に関する研究を支援するため、EuroParlVoteのデータセット、コード、デモを公開します。

大型言語モデルにおける性別および政治的バイアスのベンチマーキング

Key Points

Abstract

Cite This Study