June 6, 2024Open Access

文脈において言語モデルは何を学習するか？構造化タスク仮説

Key Points

Key points are not available for this paper at this time.

Abstract

大規模言語モデル（LLM）は、デモンストレーションで提示された文脈内の例から新規タスクを学習する興味深い能力、すなわち文脈内学習（ICL）を示します。理解しやすく、多くの研究がICLの理論的基盤の解明に注力してきました。ひとつの有力な仮説は、ICLをタスク選択によって説明します。LLMはデモンストレーションに基づきタスクを特定し、それをプロンプトに一般化します。もうひとつの有力な仮説は、ICLがメタラーニングの一形態であり、すなわちモデルは事前学習時に学習アルゴリズムを学び、デモンストレーションに適用するとします。最後に三つ目の仮説は、LLMがデモンストレーションを用いて事前学習で習得した複数のタスクを組み合わせてICLを実行すると主張します。本論文では、一般的なテキスト分類タスクに基づく一連の実験を通じてこれら三つの仮説を実証的に検証します。最初の二つの仮説は反例により無効とし、最後の仮説を支持する証拠を示しました。結果は、LLMが事前学習で習得したタスクを組み合わせることで文脈内で新規タスクを学習しうることを示唆しています。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jiaoda Li

Yifan Hou

Mrinmaya Sachan

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

文脈において言語モデルは何を学習するか？構造化タスク仮説

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider