A atenção multi-cabeça alimenta as redes Transformer, a principal arquitetura de aprendizado profundo por trás do sucesso dos grandes modelos de linguagem (LLMs). Contudo, as vantagens teóricas da atenção multi-cabeça em comparação à atenção de cabeça única, além do mero processamento paralelo, permanecem pouco exploradas. Neste artigo, reinterpretamos a atenção multi-cabeça como um sistema de grafos computacionais potencialmente sinérgicos, onde cada cabeça funciona como um grafo acíclico direcionado (DAG) feedforward com um estado sumidouro comum. Fornecemos intuição e análise teórica preliminar sobre tempo de mistura e fidelidade minimax nesse framework. Nossos resultados mostram que a atenção multi-cabeça pode aprimorar sinergicamente a propagação de informações, produzindo tempos de mistura mais rápidos e amplificação da fidelidade minimax sob condições específicas de diversidade entre as cabeças. Por fim, treinamos Transformers de cabeça única e multi-cabeça, ambos com o mesmo número total de parâmetros, em tarefas de manipulação de sequência e verificamos empiricamente os efeitos previstos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Haitz Sáez de Ocáriz Borde
Building similarity graph...
Analyzing shared references across papers
Loading...
Haitz Sáez de Ocáriz Borde (Sat,) estudou esta questão.
www.synapsesocial.com/papers/68f5fcdc8d54a28a75cf2399 — DOI: https://doi.org/10.48550/arxiv.2507.02944
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: