状態空間モデル(SSM)、特にMambaは、長いシーケンスモデリングに対して線形計算量で効率的なTransformerの代替手段として浮上しています。最近の実証研究では、Mambaの文脈内学習(ICL)能力がTransformerと競合することが示されており、大規模基盤モデルにとって重要な能力です。しかし、MambaのICLに関する理論的理解は限定的であり、その基礎となるメカニズムへの深い洞察を制限しています。線形回帰ICLのような基本的なタスクですら、Transformerの標準理論的ベンチマークとして広く研究されているにもかかわらず、Mambaに関しては十分に解析されていません。このギャップを埋めるために、我々は線形回帰ICLタスクにおけるMambaの訓練ダイナミクスを研究しました。Mambaの構造に関連する非凸最適化を勾配降下法で解決する新手法を開発し、ICL解への指数関数的収束率を確立し、Transformerに匹敵する損失境界を導出しました。重要なのは、我々の結果がMambaが文脈内関数を学習するためにオンライン勾配降下法の変種を実行できることを明らかにしている点です。このメカニズムは、通常勾配降下法の模倣によってICLを実現すると理解されているTransformerとは異なります。これらの理論的結果は実験的シミュレーションによって検証されています。
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiarui Jiang
Wei Huang
Miao Zhang
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiangら(Sun,)がこの問題を研究している。
www.synapsesocial.com/papers/68f64fbb2509bc8625bfb188 — DOI: https://doi.org/10.48550/arxiv.2509.23779
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: