Transformers são agora a arquitetura dominante na inteligência artificial moderna. Introduzidos em 2017 por Vaswani et al. no contexto do processamento de linguagem natural, eles revolucionaram sinceramente a visão computacional, geração de música, bioinformática e muitos outros campos. Este artigo apresenta uma análise progressiva e conceitual de sua arquitetura desde o mecanismo de atenção até as codificações posicionais modernas (RoPE, ALiBi) juntamente com métodos avançados de treinamento (RLHF, instruction tuning) e otimizações recentes (FlashAttention, sparse attention). Limitações fundamentais e alternativas emergentes (modelos de espaço de estado, Mamba) também são examinadas para fornecer uma visão completa e atualizada do panorama de modelagem de sequências.
Building similarity graph...
Analyzing shared references across papers
Loading...
Kotcholé Narcisse ATTIOU
Building similarity graph...
Analyzing shared references across papers
Loading...
Kotcholé Narcisse ATTIOU (Tue,) estudou esta questão.
www.synapsesocial.com/papers/69b25afb96eeacc4fcec9311 — DOI: https://doi.org/10.5281/zenodo.18941158