Key points are not available for this paper at this time.
A atenção por consulta agrupada (GQA) tem sido amplamente adotada em LLMs para mitigar a complexidade da atenção multi-cabeça (MHA). Para transformar uma MHA em uma GQA, consultas vizinhas na MHA são divididas de forma uniforme em grupos, onde cada grupo compartilha as camadas de valor e chave. Neste trabalho, propomos AsymGQA, uma abordagem informada por ativação para agrupar assimetricamente uma MHA para uma GQA visando melhor desempenho do modelo. Nosso AsymGQA supera a GQA dentro do mesmo orçamento de tamanho do modelo. Por exemplo, o AsymGQA LLaMA-2-7B apresenta um aumento de 7,5% na acurácia no MMLU em comparação ao agrupamento por vizinhança. Nossa abordagem aborda o problema de compromisso da GQA entre desempenho do modelo e eficiência de hardware.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yuang Chen
Cheng Zhang
Xitong Gao
Building similarity graph...
Analyzing shared references across papers
Loading...
Chen et al. (Sex,) estudaram esta questão.
www.synapsesocial.com/papers/68e63e20b6db6435875cfb23 — DOI: https://doi.org/10.48550/arxiv.2406.14963
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: