May 31, 2024Open Access

非構造化データのトレーニングから文脈内学習がどのように出現するか：共起、位置情報、およびノイズ構造の役割について

Key Points

Key points are not available for this paper at this time.

Abstract

トランスフォーマーのような大規模言語モデル（LLM）は、印象的な文脈内学習（ICL）能力を備えており、パラメータの更新なしにプロンプト内の入出力列に基づいて新しいクエリの予測を生成できます。多くの理論はICLを説明しようと試みていますが、それらはしばしば回帰などのICLタスクに類似した構造化されたトレーニングデータに焦点を当てています。しかし実際には、これらのモデルはICLタスクとはほとんど類似しない非構造化テキストデータを用いた教師なし学習で訓練されています。そこで、本研究では非構造化データの教師なしトレーニングからICLがどのように出現するかを調査します。重要な観察は、連続バッグ・オブ・ワーズ（CBOW）などの古典的な言語モデルを用いて共起情報をモデル化するだけでICLが生じうることを理論的に証明し、実証的にも検証した点です。さらに、位置情報およびノイズ構造が未見データへのICL一般化に必要であることを確立しました。最後に、ICLが失敗する例を提示し理論的説明を提供しています。これらは、LLMの特定タスク識別能力がトレーニングデータの構造に敏感である可能性を示唆しています。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Kevin Christian Wibisono

Yixin Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

非構造化データのトレーニングから文脈内学習がどのように出現するか：共起、位置情報、およびノイズ構造の役割について

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider