February 15, 2024Open Access

生成型人工知能の時代における大規模言語モデルベンチマークの不備

Key Points

Key points are not available for this paper at this time.

Abstract

新たな能力を備えた大規模言語モデル（LLM）の急速な普及は、異なるLLMを評価・比較することへの社会的関心を高め、多くの研究者によって独自のLLMベンチマークが提案されました。これらのベンチマークにおける初期の不備を認識し、我々は機能性と安全性の柱の下で、人、プロセス、技術の視点から独自の統一評価フレームワークを用いて、23の最先端LLMベンチマークを批判的に評価する研究に着手しました。研究により、偏り、真の推論能力の測定困難性、適応性、実装の不整合、プロンプトエンジニアリングの複雑さ、評価者の多様性、そして包括的評価における文化的・イデオロギー的規範の見落としなど、重要な制限が明らかになりました。我々の議論は、人工知能（AI）の進展に鑑みて、標準化された方法論、規制の確実性、および倫理ガイドラインの喫緊の必要性を強調し、静的なベンチマークから動的な行動プロファイリングへの進化を提唱し、LLMの複雑な挙動と潜在的リスクを正確に把握することの重要性を示しました。本研究は、LLM評価方法論におけるパラダイムシフトの必要性を浮き彫りにし、普遍的に受け入れられるベンチマークの開発とAIシステムの社会統合の向上に向けた協働の重要性を強調しました。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Timothy R. McIntosh

Teo Sušnjak

Tong Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

生成型人工知能の時代における大規模言語モデルベンチマークの不備

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider