June 4, 2024Open Access

Mehrschichtige lernbare Aufmerksamkeitsmaske für multimodale Aufgaben

Key Points

Key points are not available for this paper at this time.

Abstract

Während der Self-Attention-Mechanismus im Transformer-Modell in vielen Bereichen als effektiv erwiesen hat, beobachten wir, dass er in vielfältigeren Umgebungen (z. B. Multimodalität) weniger effektiv ist, bedingt durch die unterschiedliche Granularität der einzelnen Token und die hohen Rechenanforderungen langer Sequenzen. Zur Bewältigung dieser Herausforderungen führen wir die Learnable Attention Mask (LAM) ein, die strategisch entwickelt wurde, um Aufmerksamkeitskarten global zu regulieren und kritische Token innerhalb der Sequenz zu priorisieren. Unter Nutzung des Self-Attention-Moduls in einem BERT-ähnlichen Transformernetzwerk erfassen wir mit unserem Ansatz geschickt Zusammenhänge zwischen Token. Die Erweiterung der LAM zu einer mehrschichtigen Version berücksichtigt die vielfältigen Informationsaspekte, die in jeder Schicht des Transformernetzwerks eingebettet sind. Umfassende experimentelle Validierungen auf verschiedenen Datensätzen wie MADv2, QVHighlights, ImageNet 1K und MSRVTT demonstrieren die Wirksamkeit der LAM und zeigen exemplarisch ihre Fähigkeit, die Modellleistung zu steigern und gleichzeitig redundante Berechnungen zu reduzieren. Dieser wegweisende Ansatz stellt einen bedeutenden Fortschritt in der Verbesserung des Verständnisses komplexer Szenarien dar, beispielsweise im Bereich des Filmverständnisses.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Wayner Barrios

SouYoung Jin

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Mehrschichtige lernbare Aufmerksamkeitsmaske für multimodale Aufgaben

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider