What type of study is this?

This is a Experimental Study study.

October 3, 2025Open Access

Talons d'Achille de Mamba : Difficultés essentielles de l'architecture Mamba démontrées par des données synthétiques

Key Points

Les performances de Mamba sont limitées par un biais d'asymétrie dans la convolution non linéaire, affectant la reconnaissance de la symétrie.
Les tâches expérimentales révèlent la préférence de Mamba pour les solutions compositionnelles plutôt que symétriques lors du traitement.
Les difficultés rencontrées par Mamba ne proviennent pas du modèle d'état d'espace, mais plutôt de la conception de sa convolution non linéaire.
Ces résultats indiquent la nécessité d'améliorations architecturales chez Mamba pour mieux gérer les relations symétriques.

Abstract

Les modèles d'état d'espace (SSMs) ont émergé comme des alternatives prometteuses aux mécanismes d'attention, l'architecture Mamba démontrant des performances impressionnantes et une complexité linéaire pour le traitement de longues séquences. Cependant, les différences fondamentales entre les architectures Mamba et Transformer restent incomplètement comprises. Dans ce travail, nous utilisons des tâches synthétiques soigneusement conçues pour révéler les limitations inhérentes de Mamba. Grâce à des expériences, nous identifions que la convolution non linéaire de Mamba introduit un biais d'asymétrie qui altère considérablement sa capacité à reconnaître des motifs et des relations symétriques. En utilisant des tâches de fonction composite et d'appariement de séquence inversée, nous démontrons que Mamba favorise fortement les solutions compositionnelles par rapport aux solutions symétriques et rencontre des difficultés avec les tâches nécessitant l'appariement de séquences inversées. Nous montrons que ces limitations ne proviennent pas du module SSM lui-même mais de la convolution non linéaire qui le précède, laquelle fusionne l'information des tokens de manière asymétrique. Ces insights fournissent une nouvelle compréhension des contraintes de Mamba et suggèrent des améliorations architecturales concrètes pour les futurs modèles de séquences.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tianyi Chen

P.-J. Lin

Zhiwei Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Talons d'Achille de Mamba : Difficultés essentielles de l'architecture Mamba démontrées par des données synthétiques

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider