February 27, 2024Open Access

大規模言語モデルにおける継続的事前学習の調査：洞察と意義

Key Points

Key points are not available for this paper at this time.

Abstract

本論文は、大規模言語モデル（LLMs）における継続学習（CL）の進化する領域を研究し、効率的かつ持続可能な学習戦略の開発に焦点を当てています。主な関心は、継続的なドメイン適応事前学習に置かれており、これはLLMsが異なるドメインから新しい情報を統合しつつ、既存の知識を保持し、ドメイン固有の識別に依存せずにドメイン間の知識伝達を促進する能力を付与することを目的としています。従来の研究は、限られたタスクやドメインに主に注目し、忘却問題の解決を目指すことが多かったのに対し、本研究は実際のシナリオにおいて変動するデータ環境に対するLLMsの適応力と能力を評価します。そのため、新たなベンチマークを導入し、これらの進化するデータ環境に対するLLMsの適応性を測定する包括的な評価基盤を提供します。モデルサイズが学習効果や忘却に及ぼす影響、ならびに進行中のドメインの類似性が知識伝達に与える影響について検討しました。主な知見は次の通りです：(i) ドメインの連続が意味的類似性を示す場合、継続的事前学習はスタンドアロンのファインチューニングよりもLLMsを現在のドメインによりよく特化させることができる、(ii) 多様なドメインでの学習は前方および後方の知識伝達の両方を促進し、(iii) 小規模モデルは特に継続的事前学習に敏感であり、忘却と学習の両方で最も顕著な変動を示す。これらの成果は、LLMsにおけるCL研究においてより現実的なベンチマーク確立への転換点となり、今後の研究方向を導く鍵となる可能性を示唆しています。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Çağatay Yıldız

Nishaanth Kanna Ravichandran

Prishruit Punia

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

大規模言語モデルにおける継続的事前学習の調査：洞察と意義

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider