Key points are not available for this paper at this time.
大規模言語モデル(LLM)の急速な発展に伴い、異なる分野におけるLLMの能力を評価できるベンチマークが極めて重要となっています。LLMの一般的な利用例の一つに、アルゴリズムの執筆、データベースへの問い合わせ、数学的証明の提示など科学的テーマに関するタスクの遂行があります。大学生がそうした課題で評価される方法から着想を得て、本論文では大学のコンピュータサイエンス試験問題からなるベンチマークSciExを提案し、LLMの科学的課題解決能力を評価します。SciExは(1)英語とドイツ語の試験問題を含む多言語、(2)画像を含む質問を含む多モーダル、(3)大学試験特有の難易度の異なる様々な自由記述問題を含みます。最先端の複数のLLMの性能を新ベンチマーク上で評価しました。SciExの問題は自由記述形式であるためLLMの性能評価は単純ではありません。そこでSciExのLLM出力に対し人間専門家による採点を提供しました。現行のLLMにとってSciExの自由形式試験は依然として難しく、最良のLLMでも平均で59.4%の試験成績しか達成できませんでした。また、LLMの性能と学生の成績との詳細な比較も示しました。将来の新たなLLM評価を可能にするため、LLM自身が評価者としてLLMの回答を採点する方法を提案します。実験の結果、試験問題の解答能力は完全ではないものの、LLMは評価者としては十分に優れており、専門家採点とのピアソン相関は0.948に達しました。
Building similarity graph...
Analyzing shared references across papers
Loading...
Tu Anh Dinh
Carlos Mullov
Leonard Bärmann
Building similarity graph...
Analyzing shared references across papers
Loading...
Dinhら(Fri,)はこの問題について研究しました。
www.synapsesocial.com/papers/68e64b41b6db6435875dc68c — DOI: https://doi.org/10.48550/arxiv.2406.10421