June 4, 2024Open Access

Máscara de Atenção Aprendível em Múltiplas Camadas para Tarefas Multimodais

Key Points

Key points are not available for this paper at this time.

Abstract

Embora o mecanismo de Autoatenção no modelo Transformer tenha se mostrado eficaz em muitos domínios, observamos que ele é menos eficaz em contextos mais diversos (por exemplo, multimodalidade) devido à granulosidade variável de cada token e às elevadas demandas computacionais de sequências longas. Para enfrentar esses desafios, introduzimos a Máscara de Atenção Aprendível (LAM), estrategicamente projetada para regular globalmente os mapas de atenção e priorizar tokens críticos dentro da sequência. Aproveitando o módulo de Autoatenção em uma rede Transformer semelhante ao BERT, nossa abordagem captura habilmente associações entre tokens. A extensão da LAM para uma versão em múltiplas camadas acomoda os diversos aspectos de informação incorporados em cada camada da rede Transformer. A validação experimental abrangente em vários conjuntos de dados, como MADv2, QVHighlights, ImageNet 1K e MSRVTT, demonstra a eficácia da LAM, exemplificando sua capacidade de melhorar o desempenho do modelo enquanto mitiga computações redundantes. Esta abordagem pioneira representa um avanço significativo na melhoria do entendimento de cenários complexos, como no entendimento de filmes.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Wayner Barrios

SouYoung Jin

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Máscara de Atenção Aprendível em Múltiplas Camadas para Tarefas Multimodais

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider