June 21, 2024Open Access

Optimierter gruppierter Abfrageaufmerksamkeitsmechanismus für Transformer

Key Points

Key points are not available for this paper at this time.

Abstract

Groupierte Abfrageaufmerksamkeit (GQA) wurde in großen Sprachmodellen (LLMs) weit verbreitet eingesetzt, um die Komplexität der Multi-Head-Attention (MHA) zu verringern. Um eine MHA in eine GQA umzuwandeln, werden benachbarte Abfragen in der MHA gleichmäßig in Gruppen aufgeteilt, wobei jede Gruppe die Wert- und Schlüssel-Schichten teilt. In dieser Arbeit schlagen wir AsymGQA vor, einen aktivierungsinformierten Ansatz zur asymmetrischen Gruppierung einer MHA zu einer GQA für eine bessere Modellleistung. Unser AsymGQA übertrifft die GQA bei gleichem Modellgrößenbudget. Zum Beispiel zeigt AsymGQA LLaMA-2-7B eine Genauigkeitssteigerung von 7,5 % bei MMLU im Vergleich zur Nachbargruppierung. Unser Ansatz adressiert das Trade-off-Problem der GQA zwischen Modellleistung und Hardwareeffizienz.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yuang Chen

Cheng Zhang

Xitong Gao

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Optimierter gruppierter Abfrageaufmerksamkeitsmechanismus für Transformer

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider