April 2, 2024Open Access

精度を超えて：大規模言語モデルの推論行動の評価――サーベイ

Key Points

Key points are not available for this paper at this time.

Abstract

大規模言語モデル（LLM）は最近、推論を必要とするタスクで印象的な性能を示しており、これらのモデルが人間と同様の推論能力を持つかどうかについて活発な議論を呼んでいます。しかし、これらの成功にもかかわらず、LLMの推論能力の深さは依然として不確かです。この不確かさは、主に浅い精度指標によって測定されるタスク性能に焦点が当てられ、モデルの推論行動の徹底的な調査が不足していることに起因しています。本論文は、このギャップを埋めるために、タスク精度を超えた研究を包括的にレビューし、モデルの推論過程に関するより深い洞察を提供します。さらに、LLMの推論行動を評価するための主流の方法論を調査し、より微妙な推論分析に向けた現在の傾向や取り組みを強調します。我々のレビューは、LLMが真の推論能力というよりは、訓練データに含まれる表面的なパターンや相関に依存する傾向があることを示唆しています。加えて、人間の推論とLLMベースの推論との重要な違いを明確にするさらなる研究の必要性も指摘しています。本サーベイを通じて、LLM内の複雑な推論過程に光を当てることを目的としています。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Philipp Mondorf

Barbara Plank

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

精度を超えて：大規模言語モデルの推論行動の評価――サーベイ

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider