Key points are not available for this paper at this time.
Resumo Com a prevalência de modelos de linguagem pré-treinados (PLMs) e o paradigma pré-treinamento–ajuste fino, tem sido continuamente demonstrado que modelos maiores tendem a apresentar melhor desempenho. No entanto, à medida que os PLMs aumentam de escala, ajustar finamente e armazenar todos os parâmetros é proibitivamente custoso e eventualmente torna-se praticamente inviável. Isso exige um novo ramo de pesquisa focado na adaptação eficiente em parâmetros dos PLMs, que otimiza uma pequena porção dos parâmetros do modelo enquanto mantém o restante fixo, reduzindo drasticamente os custos de computação e armazenamento. Em geral, demonstra que modelos de grande escala podem ser efetivamente estimulados pela otimização de poucos parâmetros. Apesar dos diversos designs, aqui discutimos e analisamos as abordagens sob um termo mais consistente e acessível 'ajuste delta', onde 'delta', uma notação matemática frequentemente usada para denotar mudanças, é emprestada para se referir à porção dos parâmetros que são 'alterados' durante o treinamento. Descrevemos formalmente o problema e propomos um critério unificado de categorização para os métodos existentes de ajuste delta a fim de explorar suas correlações e diferenças. Também discutimos os princípios teóricos que fundamentam a eficácia do ajuste delta e os interpretamos sob as perspectivas de otimização e controle ótimo. Além disso, fornecemos um estudo empírico holístico em mais de 100 tarefas de processamento de linguagem natural e investigamos vários aspectos do ajuste delta. Com estudo e análise abrangentes, nossa pesquisa demonstra as propriedades teóricas e práticas do ajuste delta na adaptação dos PLMs.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ning Ding
Yujia Qin
Guang Yang
Nature Machine Intelligence
Tsinghua University
Tsinghua–Berkeley Shenzhen Institute
Beijing Academy of Artificial Intelligence
Building similarity graph...
Analyzing shared references across papers
Loading...
Ding et al. (qui,) estudaram esta questão.
www.synapsesocial.com/papers/69d8a176183921ebcaae2fe7 — DOI: https://doi.org/10.1038/s42256-023-00626-4
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: