May 24, 2024Open Access

Analyse der Wechselwirkung von Attention-Pfaden in einer statistischen Mechanik-Theorie der Transformer

Key Points

Key points are not available for this paper at this time.

Abstract

Trotz der bemerkenswerten empirischen Leistung von Transformern bleibt ihr theoretisches Verständnis schwer fassbar. Hier betrachten wir ein tiefes Multi-Head-Selbstaufmerksamkeitsnetzwerk, das eng mit Transformern verwandt, aber analytisch behandelbar ist. Wir entwickeln eine statistische Mechanik-Theorie des Bayesschen Lernens in diesem Modell und leiten exakte Gleichungen für die Prädiktorstatistiken des Netzwerks unter dem thermodynamischen Limit endlicher Breite ab, d. h. N, P, P/N=O(1), wobei N die Breite des Netzwerks und P die Anzahl der Trainingsbeispiele ist. Unsere Theorie zeigt, dass die Prädiktorstatistiken als Summe unabhängiger Kerne dargestellt werden, von denen jeder verschiedene 'Attention-Pfade' koppelt, definiert als Informationswege durch unterschiedliche Attention-Heads über die Schichten hinweg. Die Kerne werden gemäß eines "aufgabenrelevanten Kernel-Kombinations"-Mechanismus gewichtet, der den Gesamt-Kernel auf die Aufgabenlabels ausrichtet. Folglich verbessert diese Wechselwirkung zwischen Attention-Pfaden die Generalisierungsleistung. Experimente bestätigen unsere Erkenntnisse sowohl bei synthetischen als auch bei realen Sequenzklassifikationsaufgaben. Abschließend stellt unsere Theorie einen expliziten Zusammenhang des Kernel-Kombinationsmechanismus mit Eigenschaften der gelernten Gewichte her, was einen qualitativen Transfer der Einsichten auf Modelle ermöglicht, die mittels Gradientenabstieg trainiert wurden. Zur Veranschaulichung demonstrieren wir eine effiziente Größenreduktion des Netzwerks durch das Beschneiden jener Attention-Heads, die nach unserer Theorie als weniger relevant eingestuft werden.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Lorenzo Tiberi

Francesca Mignacco

Kazuki Irie

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Analyse der Wechselwirkung von Attention-Pfaden in einer statistischen Mechanik-Theorie der Transformer

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider