Key points are not available for this paper at this time.
序列建模的核心目标是设计一个单一的原则性模型,能够处理各种模态和任务的序列数据,特别是在长程依赖方面。尽管包含RNN、CNN和Transformer在内的传统模型有专门用于捕获长程依赖的变体,但它们在处理10000步或更多的超长序列时仍然面临挑战。一种有前景的最新方法是通过模拟基本的状态空间模型(SSM)\ (x' (t) = Ax (t) + Bu (t), y (t) = Cx (t) + Du (t) \)来建模序列,并展示了对于状态矩阵\ (A \)的适当选择,该系统在数学和经验上均可处理长程依赖。然而,该方法计算和内存需求高昂,使其作为通用序列建模解决方案不可行。我们提出基于SSM新参数化的结构化状态空间序列模型(S4),并展示它相比以往方法计算效率大幅提升,同时保持其理论优势。我们的技术涉及用低秩校正调整\ (A \),使其能够稳定对角化,并将SSM简化为对柯西核的经典计算。S4在多种既有基准测试中取得优异的经验结果,包括(i)在无数据增强或辅助损失的条件下,序列CIFAR-10达到91%准确率,与更大的二维ResNet相当,(ii)大幅缩小图像和语言建模任务中与Transformer的差距,同时生成速度提升60倍,(iii)在Long Range Arena基准的每项任务上达到最新水平,包括成功解决长度达16k的挑战性Path-X任务,所有先前工作均失败,同时效率与所有竞争者相当。
Building similarity graph...
Analyzing shared references across papers
Loading...
Albert Gu
Karan Goel
Christopher Ré
Stanford University
Building similarity graph...
Analyzing shared references across papers
Loading...
Gu等人(Sun,)研究了这一问题。
www.synapsesocial.com/papers/69d955bf00ab073a278362cb — DOI: https://doi.org/10.48550/arxiv.2111.00396
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: