Key points are not available for this paper at this time.
Groupierte Abfrageaufmerksamkeit (GQA) wurde in großen Sprachmodellen (LLMs) weit verbreitet eingesetzt, um die Komplexität der Multi-Head-Attention (MHA) zu verringern. Um eine MHA in eine GQA umzuwandeln, werden benachbarte Abfragen in der MHA gleichmäßig in Gruppen aufgeteilt, wobei jede Gruppe die Wert- und Schlüssel-Schichten teilt. In dieser Arbeit schlagen wir AsymGQA vor, einen aktivierungsinformierten Ansatz zur asymmetrischen Gruppierung einer MHA zu einer GQA für eine bessere Modellleistung. Unser AsymGQA übertrifft die GQA bei gleichem Modellgrößenbudget. Zum Beispiel zeigt AsymGQA LLaMA-2-7B eine Genauigkeitssteigerung von 7,5 % bei MMLU im Vergleich zur Nachbargruppierung. Unser Ansatz adressiert das Trade-off-Problem der GQA zwischen Modellleistung und Hardwareeffizienz.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yuang Chen
Cheng Zhang
Xitong Gao
Building similarity graph...
Analyzing shared references across papers
Loading...
Chen et al. (Fri,) haben diese Frage untersucht.
www.synapsesocial.com/papers/68e63e20b6db6435875cfb23 — DOI: https://doi.org/10.48550/arxiv.2406.14963
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: