Key points are not available for this paper at this time.
트랜스포머가 언어 모델링에서 딥러닝 성공의 주된 아키텍처인 반면, Mamba와 같은 상태 공간 모델(SSM)은 최근 소규모에서 중간 규모까지 트랜스포머와 동등하거나 더 뛰어난 성능을 보이는 것으로 밝혀졌습니다. 우리는 이들 모델 계열이 실제로 매우 밀접하게 관련되어 있음을 보여주고, 잘 연구된 구조적 반가역 행렬 클래스의 다양한 분해를 통해 연결된 SSM과 어텐션 변형들 간의 이론적 연관성의 풍부한 프레임워크를 개발합니다. 우리의 상태 공간 쌍대성(SSD) 프레임워크를 통해 Mamba의 선택적 SSM을 정제한 핵심 계층을 가진 새로운 아키텍처(Mamba-2)를 설계했으며, 이는 2-8배 더 빠르면서도 언어 모델링에서 트랜스포머와 경쟁력을 유지합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Tri Dao
Albert G. Gu
Building similarity graph...
Analyzing shared references across papers
Loading...
Dao 등(금요일,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e67617b6db6435875fff58 — DOI: https://doi.org/10.48550/arxiv.2405.21060