June 18, 2024Open Access

裁判を裁く：LLMを裁判官とした場合の整合性と脆弱性の評価

Key Points

Key points are not available for this paper at this time.

Abstract

人間による評価に伴うスケーラビリティの課題に有望な解決策を提供するLLMを裁判官とするパラダイムは、大規模言語モデル（LLM）を評価する手法として急速に注目を集めています。しかし、このパラダイムの強みと弱み、さらには潜在的なバイアスについてはまだ多くの未解決の問題があります。本論文では、裁判官として機能する様々なLLMの性能に関する包括的な研究を紹介します。TriviaQAをベンチマークとして用い、LLMの客観的な知識推論能力を評価し、高い評価者間一致率が認められた人間の注釈と共に評価しました。我々の研究は9つの裁判官モデルと9つの受験者モデル（基本モデルと指示調整モデルの両方）を含みます。異なるモデルサイズ、ファミリー、裁判官プロンプトにわたって裁判官モデルの整合性を評価しました。他の結果の中でも、単純な百分率一致ではなくコーエンのカッパを整合性の指標として用いる重要性を再確認し、高い百分率一致を示す裁判官でも大きく異なるスコアを付ける可能性があることを示しています。Llama-3 70BとGPT-4 Turboは人間との優れた整合性を示しましたが、受験者モデルのランキングにおいては、JudgeLM-7BやレキシカルジャッジのContainsに及ばず、これらは人間との整合性が最大34ポイント低い結果となりました。誤り分析や指示の長さや寛容性バイアスの影響など各種研究を通じて、将来LLMを裁判官として用いる際の貴重な示唆を提供することを目指します。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Aman Singh Thakur

Kartik Choudhary

Venkat Srinik Ramayapally

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

裁判を裁く：LLMを裁判官とした場合の整合性と脆弱性の評価

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider