Key points are not available for this paper at this time.
大規模言語モデル(LLM)は最近、推論を必要とするタスクで印象的な性能を示しており、これらのモデルが人間と同様の推論能力を持つかどうかについて活発な議論を呼んでいます。しかし、これらの成功にもかかわらず、LLMの推論能力の深さは依然として不確かです。この不確かさは、主に浅い精度指標によって測定されるタスク性能に焦点が当てられ、モデルの推論行動の徹底的な調査が不足していることに起因しています。本論文は、このギャップを埋めるために、タスク精度を超えた研究を包括的にレビューし、モデルの推論過程に関するより深い洞察を提供します。さらに、LLMの推論行動を評価するための主流の方法論を調査し、より微妙な推論分析に向けた現在の傾向や取り組みを強調します。我々のレビューは、LLMが真の推論能力というよりは、訓練データに含まれる表面的なパターンや相関に依存する傾向があることを示唆しています。加えて、人間の推論とLLMベースの推論との重要な違いを明確にするさらなる研究の必要性も指摘しています。本サーベイを通じて、LLM内の複雑な推論過程に光を当てることを目的としています。
Building similarity graph...
Analyzing shared references across papers
Loading...
Philipp Mondorf
Barbara Plank
Building similarity graph...
Analyzing shared references across papers
Loading...
Mondorfら(火曜日)はこの問題を研究しました。
www.synapsesocial.com/papers/68e70b2bb6db64358768478f — DOI: https://doi.org/10.48550/arxiv.2404.01869
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: