Key points are not available for this paper at this time.
トランスフォーマーのような大規模言語モデル(LLM)は、印象的な文脈内学習(ICL)能力を備えており、パラメータの更新なしにプロンプト内の入出力列に基づいて新しいクエリの予測を生成できます。多くの理論はICLを説明しようと試みていますが、それらはしばしば回帰などのICLタスクに類似した構造化されたトレーニングデータに焦点を当てています。しかし実際には、これらのモデルはICLタスクとはほとんど類似しない非構造化テキストデータを用いた教師なし学習で訓練されています。そこで、本研究では非構造化データの教師なしトレーニングからICLがどのように出現するかを調査します。重要な観察は、連続バッグ・オブ・ワーズ(CBOW)などの古典的な言語モデルを用いて共起情報をモデル化するだけでICLが生じうることを理論的に証明し、実証的にも検証した点です。さらに、位置情報およびノイズ構造が未見データへのICL一般化に必要であることを確立しました。最後に、ICLが失敗する例を提示し理論的説明を提供しています。これらは、LLMの特定タスク識別能力がトレーニングデータの構造に敏感である可能性を示唆しています。
Building similarity graph...
Analyzing shared references across papers
Loading...
Kevin Christian Wibisono
Yixin Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Wibisonoら(Fri,)がこの問題を研究しました。
www.synapsesocial.com/papers/68e67860b6db643587602bf4 — DOI: https://doi.org/10.48550/arxiv.2406.00131
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: