June 14, 2024Open Access

SciEx: 大規模言語モデルの科学的試験における評価 — 人間専門家による採点と自動採点の比較

Key Points

Key points are not available for this paper at this time.

Abstract

大規模言語モデル（LLM）の急速な発展に伴い、異なる分野におけるLLMの能力を評価できるベンチマークが極めて重要となっています。LLMの一般的な利用例の一つに、アルゴリズムの執筆、データベースへの問い合わせ、数学的証明の提示など科学的テーマに関するタスクの遂行があります。大学生がそうした課題で評価される方法から着想を得て、本論文では大学のコンピュータサイエンス試験問題からなるベンチマークSciExを提案し、LLMの科学的課題解決能力を評価します。SciExは（1）英語とドイツ語の試験問題を含む多言語、（2）画像を含む質問を含む多モーダル、（3）大学試験特有の難易度の異なる様々な自由記述問題を含みます。最先端の複数のLLMの性能を新ベンチマーク上で評価しました。SciExの問題は自由記述形式であるためLLMの性能評価は単純ではありません。そこでSciExのLLM出力に対し人間専門家による採点を提供しました。現行のLLMにとってSciExの自由形式試験は依然として難しく、最良のLLMでも平均で59.4%の試験成績しか達成できませんでした。また、LLMの性能と学生の成績との詳細な比較も示しました。将来の新たなLLM評価を可能にするため、LLM自身が評価者としてLLMの回答を採点する方法を提案します。実験の結果、試験問題の解答能力は完全ではないものの、LLMは評価者としては十分に優れており、専門家採点とのピアソン相関は0.948に達しました。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tu Anh Dinh

Carlos Mullov

Leonard Bärmann

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

SciEx: 大規模言語モデルの科学的試験における評価 — 人間専門家による採点と自動採点の比較

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study