Modelos Transformer dependem da autoatenção para capturar dependências entre tokens, mas enfrentam desafios na integração eficaz da informação posicional, ao mesmo tempo em que permitem flexibilidade na atenção multi-cabeça (MHA). Métodos anteriores frequentemente modelam diferenças semânticas e posicionais separadamente ou aplicam ajustes posicionais uniformes entre as cabeças, o que pode limitar a capacidade representacional. Este artigo apresenta o ComplexFormer, que incorpora a Atenção Multi-Cabeça Complexa (CMHA). CMHA capacita cada cabeça a modelar independentemente as diferenças semânticas e posicionais unificadas no plano complexo, representando interações como rotações e escalonamentos. ComplexFormer inclui duas melhorias principais: (1) uma transformação Euler por cabeça, convertendo projeções reais de consulta/chave em vetores complexos em forma polar para operação em subespaço complexo específica para cada cabeça; e (2) um mecanismo adaptativo de rotação diferencial por cabeça, expi(Adapt(ASmn,i) + Delta(Pmn),i), permitindo que cada cabeça aprenda estratégias distintas para integrar diferenças de ângulo semânticas (ASmn,i) com codificações posicionais relativas (Delta(Pmn),i). Experimentos extensivos em modelagem de linguagem, geração de texto, geração de código e raciocínio matemático demonstram que o ComplexFormer alcança desempenho superior, com perplexidade de geração significativamente menor e melhor coerência em contextos longos em comparação com baselines robustos como RoPE-Transformers. ComplexFormer apresenta alta eficiência de parâmetros, oferecendo um mecanismo de atenção mais expressivo e adaptável.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiahang Shao
Hongyi Huang
Jiayi Wu
Building similarity graph...
Analyzing shared references across papers
Loading...
Shao et al. (Qui,) estudaram essa questão.
www.synapsesocial.com/papers/68f147cc724575985c3fd392 — DOI: https://doi.org/10.48550/arxiv.2505.10222
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: