Key points are not available for this paper at this time.
人間による評価に伴うスケーラビリティの課題に有望な解決策を提供するLLMを裁判官とするパラダイムは、大規模言語モデル(LLM)を評価する手法として急速に注目を集めています。しかし、このパラダイムの強みと弱み、さらには潜在的なバイアスについてはまだ多くの未解決の問題があります。本論文では、裁判官として機能する様々なLLMの性能に関する包括的な研究を紹介します。TriviaQAをベンチマークとして用い、LLMの客観的な知識推論能力を評価し、高い評価者間一致率が認められた人間の注釈と共に評価しました。我々の研究は9つの裁判官モデルと9つの受験者モデル(基本モデルと指示調整モデルの両方)を含みます。異なるモデルサイズ、ファミリー、裁判官プロンプトにわたって裁判官モデルの整合性を評価しました。他の結果の中でも、単純な百分率一致ではなくコーエンのカッパを整合性の指標として用いる重要性を再確認し、高い百分率一致を示す裁判官でも大きく異なるスコアを付ける可能性があることを示しています。Llama-3 70BとGPT-4 Turboは人間との優れた整合性を示しましたが、受験者モデルのランキングにおいては、JudgeLM-7BやレキシカルジャッジのContainsに及ばず、これらは人間との整合性が最大34ポイント低い結果となりました。誤り分析や指示の長さや寛容性バイアスの影響など各種研究を通じて、将来LLMを裁判官として用いる際の貴重な示唆を提供することを目指します。
Building similarity graph...
Analyzing shared references across papers
Loading...
Aman Singh Thakur
Kartik Choudhary
Venkat Srinik Ramayapally
Building similarity graph...
Analyzing shared references across papers
Loading...
Thakurら(火曜日)はこの問題を研究しました。
www.synapsesocial.com/papers/68e643d5b6db6435875d5361 — DOI: https://doi.org/10.48550/arxiv.2406.12624
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: