Key points are not available for this paper at this time.
Transformers têm mostrado desempenho notável, entretanto, o design de sua arquitetura é um processo que consome tempo e demanda expertise e tentativa e erro. Portanto, vale a pena investigar métodos eficientes para buscar automaticamente Transformers de alto desempenho através da Busca de Arquitetura Transformer (TAS). Para melhorar a eficiência da busca, métodos baseados em proxy sem treinamento têm sido amplamente adotados em Busca de Arquitetura Neural (NAS). Contudo, esses proxies mostraram-se inadequados para generalizar bem para espaços de busca de Transformers, como confirmado por vários estudos e nossos próprios experimentos. Este artigo apresenta um esquema eficaz para TAS chamado Busca de Arquitetura Transformer com Evolução Guiada por Proxy de Custo Zero (T-Razor) que alcança eficiência excepcional. Primeiramente, por meio de análise teórica, descobrimos que a diversidade sináptica da autoatenção multi-cabeça (MSA) e a saliência do perceptron multicamada (MLP) estão correlacionadas com o desempenho dos Transformers correspondentes. As propriedades da diversidade sináptica e da saliência sináptica nos motivam a introduzir as classificações de diversidade e saliência sinápticas denominadas DSS++ para avaliar e classificar Transformers. DSS++ incorpora informações de correlação entre Transformers amostrados para fornecer pontuações unificadas tanto para a diversidade quanto para a saliência sináptica. Em seguida, propomos uma busca de evolução por blocos guiada por DSS++ para encontrar os Transformers ótimos. DSS++ determina as posições para mutação e crossover, aprimorando a capacidade de exploração. Resultados experimentais demonstram que nosso T-Razor tem desempenho competitivo em comparação com arquiteturas Transformer manuais ou automaticamente projetadas em quatro espaços de busca populares. Significativamente, T-Razor melhora a eficiência da busca em diferentes espaços de Transformers, por exemplo, reduzindo os dias-GPU necessários de mais de 24 para menos de 0,4 e superando abordagens existentes de custo zero. Também aplicamos o T-Razor ao espaço de busca BERT e verificamos que os Transformers buscados alcançam resultados competitivos no GLUE em vários conjuntos de dados de Processamento de Linguagem Neural (NLP). Este trabalho oferece insights sobre TAS sem treinamento, revelando a utilidade de avaliar Transformers com base nas propriedades de seus diferentes blocos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Qinqin Zhou
Kekai Sheng
Xiawu Zheng
IEEE Transactions on Pattern Analysis and Machine Intelligence
Peking University
Xiamen University
Shandong Institute of Automation
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhou et al. (Tue,) estudaram essa questão.
www.synapsesocial.com/papers/68e734fcb6db6435876ae734 — DOI: https://doi.org/10.1109/tpami.2024.3378781
Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context: