Key points are not available for this paper at this time.
新たな能力を備えた大規模言語モデル(LLM)の急速な普及は、異なるLLMを評価・比較することへの社会的関心を高め、多くの研究者によって独自のLLMベンチマークが提案されました。これらのベンチマークにおける初期の不備を認識し、我々は機能性と安全性の柱の下で、人、プロセス、技術の視点から独自の統一評価フレームワークを用いて、23の最先端LLMベンチマークを批判的に評価する研究に着手しました。研究により、偏り、真の推論能力の測定困難性、適応性、実装の不整合、プロンプトエンジニアリングの複雑さ、評価者の多様性、そして包括的評価における文化的・イデオロギー的規範の見落としなど、重要な制限が明らかになりました。我々の議論は、人工知能(AI)の進展に鑑みて、標準化された方法論、規制の確実性、および倫理ガイドラインの喫緊の必要性を強調し、静的なベンチマークから動的な行動プロファイリングへの進化を提唱し、LLMの複雑な挙動と潜在的リスクを正確に把握することの重要性を示しました。本研究は、LLM評価方法論におけるパラダイムシフトの必要性を浮き彫りにし、普遍的に受け入れられるベンチマークの開発とAIシステムの社会統合の向上に向けた協働の重要性を強調しました。
Building similarity graph...
Analyzing shared references across papers
Loading...
Timothy R. McIntosh
Teo Sušnjak
Tong Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
McIntosh ら(木曜)はこの問題を研究しました。
www.synapsesocial.com/papers/68e78f53b6db643587700e91 — DOI: https://doi.org/10.48550/arxiv.2402.09880
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: