June 21, 2024Open Access

Mecanismo de Atenção com Consultas Agrupadas Otimizado para Transformers

Key Points

Key points are not available for this paper at this time.

Abstract

A atenção por consulta agrupada (GQA) tem sido amplamente adotada em LLMs para mitigar a complexidade da atenção multi-cabeça (MHA). Para transformar uma MHA em uma GQA, consultas vizinhas na MHA são divididas de forma uniforme em grupos, onde cada grupo compartilha as camadas de valor e chave. Neste trabalho, propomos AsymGQA, uma abordagem informada por ativação para agrupar assimetricamente uma MHA para uma GQA visando melhor desempenho do modelo. Nosso AsymGQA supera a GQA dentro do mesmo orçamento de tamanho do modelo. Por exemplo, o AsymGQA LLaMA-2-7B apresenta um aumento de 7,5% na acurácia no MMLU em comparação ao agrupamento por vizinhança. Nossa abordagem aborda o problema de compromisso da GQA entre desempenho do modelo e eficiência de hardware.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yuang Chen

Cheng Zhang

Xitong Gao

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Mecanismo de Atenção com Consultas Agrupadas Otimizado para Transformers

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider