Les modèles d'état d'espace (SSMs) ont émergé comme des alternatives prometteuses aux mécanismes d'attention, l'architecture Mamba démontrant des performances impressionnantes et une complexité linéaire pour le traitement de longues séquences. Cependant, les différences fondamentales entre les architectures Mamba et Transformer restent incomplètement comprises. Dans ce travail, nous utilisons des tâches synthétiques soigneusement conçues pour révéler les limitations inhérentes de Mamba. Grâce à des expériences, nous identifions que la convolution non linéaire de Mamba introduit un biais d'asymétrie qui altère considérablement sa capacité à reconnaître des motifs et des relations symétriques. En utilisant des tâches de fonction composite et d'appariement de séquence inversée, nous démontrons que Mamba favorise fortement les solutions compositionnelles par rapport aux solutions symétriques et rencontre des difficultés avec les tâches nécessitant l'appariement de séquences inversées. Nous montrons que ces limitations ne proviennent pas du module SSM lui-même mais de la convolution non linéaire qui le précède, laquelle fusionne l'information des tokens de manière asymétrique. Ces insights fournissent une nouvelle compréhension des contraintes de Mamba et suggèrent des améliorations architecturales concrètes pour les futurs modèles de séquences.
Building similarity graph...
Analyzing shared references across papers
Loading...
Tianyi Chen
P.-J. Lin
Zhiwei Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Chen et al. (Mon,) ont étudié cette question.
www.synapsesocial.com/papers/68e0450fa99c246f578b3f19 — DOI: https://doi.org/10.48550/arxiv.2509.17514
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: