Key points are not available for this paper at this time.
Um objetivo central do modelamento de sequências é projetar um único modelo fundamentado que possa lidar com dados de sequência em várias modalidades e tarefas, especialmente nas dependências de longo alcance. Embora modelos convencionais, incluindo RNNs, CNNs e Transformers, tenham variantes especializadas para capturar dependências longas, eles ainda enfrentam dificuldades para escalar em sequências muito longas de 10.000 ou mais passos. Uma abordagem recente promissora propôs modelar sequências simulando o modelo fundamental de espaço de estado (SSM) \ (x' (t) = Ax (t) + Bu (t), y (t) = Cx (t) + Du (t) \), e mostrou que para escolhas apropriadas da matriz de estado \ (A \), esse sistema poderia lidar matematicamente e empiricamente com dependências de longo alcance. Contudo, esse método tem exigências proibitivas de computação e memória, tornando-o inviável como solução geral para modelagem de sequência. Propomos o modelo de sequência Structured State Space (S4) baseado em uma nova parametrização para o SSM, e mostramos que pode ser computado muito mais eficientemente do que abordagens anteriores, preservando suas forças teóricas. Nossa técnica envolve condicionar \ (A \) com uma correção de baixa ordem, permitindo que seja diagonalizado de forma estável e reduzindo o SSM ao cálculo bem conhecido de um núcleo de Cauchy. O S4 alcança resultados empíricos fortes em uma diversa gama de benchmarks estabelecidos, incluindo (i) 91% de acurácia no CIFAR-10 sequencial sem aumento de dados ou perdas auxiliares, comparável a uma ResNet 2-D maior, (ii) reduzindo substancialmente a lacuna para Transformers em tarefas de modelagem de imagem e linguagem, enquanto realiza geração 60 vezes mais rápida, (iii) SoTA em todas as tarefas do benchmark Long Range Arena, incluindo a solução da desafiadora tarefa Path-X de comprimento 16k que todos os trabalhos anteriores falharam, mantendo eficiência comparável a todos os concorrentes.
Building similarity graph...
Analyzing shared references across papers
Loading...
Albert Gu
Karan Goel
Christopher Ré
Stanford University
Building similarity graph...
Analyzing shared references across papers
Loading...
Gu et al. (Sun,) estudaram essa questão.
www.synapsesocial.com/papers/69d955bf00ab073a278362cb — DOI: https://doi.org/10.48550/arxiv.2111.00396
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: