Key points are not available for this paper at this time.
Trotz der bemerkenswerten empirischen Leistung von Transformern bleibt ihr theoretisches Verständnis schwer fassbar. Hier betrachten wir ein tiefes Multi-Head-Selbstaufmerksamkeitsnetzwerk, das eng mit Transformern verwandt, aber analytisch behandelbar ist. Wir entwickeln eine statistische Mechanik-Theorie des Bayesschen Lernens in diesem Modell und leiten exakte Gleichungen für die Prädiktorstatistiken des Netzwerks unter dem thermodynamischen Limit endlicher Breite ab, d. h. N, P, P/N=O(1), wobei N die Breite des Netzwerks und P die Anzahl der Trainingsbeispiele ist. Unsere Theorie zeigt, dass die Prädiktorstatistiken als Summe unabhängiger Kerne dargestellt werden, von denen jeder verschiedene 'Attention-Pfade' koppelt, definiert als Informationswege durch unterschiedliche Attention-Heads über die Schichten hinweg. Die Kerne werden gemäß eines "aufgabenrelevanten Kernel-Kombinations"-Mechanismus gewichtet, der den Gesamt-Kernel auf die Aufgabenlabels ausrichtet. Folglich verbessert diese Wechselwirkung zwischen Attention-Pfaden die Generalisierungsleistung. Experimente bestätigen unsere Erkenntnisse sowohl bei synthetischen als auch bei realen Sequenzklassifikationsaufgaben. Abschließend stellt unsere Theorie einen expliziten Zusammenhang des Kernel-Kombinationsmechanismus mit Eigenschaften der gelernten Gewichte her, was einen qualitativen Transfer der Einsichten auf Modelle ermöglicht, die mittels Gradientenabstieg trainiert wurden. Zur Veranschaulichung demonstrieren wir eine effiziente Größenreduktion des Netzwerks durch das Beschneiden jener Attention-Heads, die nach unserer Theorie als weniger relevant eingestuft werden.
Building similarity graph...
Analyzing shared references across papers
Loading...
Lorenzo Tiberi
Francesca Mignacco
Kazuki Irie
Building similarity graph...
Analyzing shared references across papers
Loading...
Tiberi et al. (Fri,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e68864b6db643587610b6d — DOI: https://doi.org/10.48550/arxiv.2405.15926
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: