March 2, 2023Open Access

Ajuste fino eficiente em parâmetros de grandes modelos de linguagem pré-treinados

Key Points

Key points are not available for this paper at this time.

Abstract

Resumo Com a prevalência de modelos de linguagem pré-treinados (PLMs) e o paradigma pré-treinamento–ajuste fino, tem sido continuamente demonstrado que modelos maiores tendem a apresentar melhor desempenho. No entanto, à medida que os PLMs aumentam de escala, ajustar finamente e armazenar todos os parâmetros é proibitivamente custoso e eventualmente torna-se praticamente inviável. Isso exige um novo ramo de pesquisa focado na adaptação eficiente em parâmetros dos PLMs, que otimiza uma pequena porção dos parâmetros do modelo enquanto mantém o restante fixo, reduzindo drasticamente os custos de computação e armazenamento. Em geral, demonstra que modelos de grande escala podem ser efetivamente estimulados pela otimização de poucos parâmetros. Apesar dos diversos designs, aqui discutimos e analisamos as abordagens sob um termo mais consistente e acessível 'ajuste delta', onde 'delta', uma notação matemática frequentemente usada para denotar mudanças, é emprestada para se referir à porção dos parâmetros que são 'alterados' durante o treinamento. Descrevemos formalmente o problema e propomos um critério unificado de categorização para os métodos existentes de ajuste delta a fim de explorar suas correlações e diferenças. Também discutimos os princípios teóricos que fundamentam a eficácia do ajuste delta e os interpretamos sob as perspectivas de otimização e controle ótimo. Além disso, fornecemos um estudo empírico holístico em mais de 100 tarefas de processamento de linguagem natural e investigamos vários aspectos do ajuste delta. Com estudo e análise abrangentes, nossa pesquisa demonstra as propriedades teóricas e práticas do ajuste delta na adaptação dos PLMs.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ning Ding

Yujia Qin

Guang Yang

Journals

Nature Machine Intelligence

Actions

Institutions

Tsinghua University

Tsinghua–Berkeley Shenzhen Institute

Beijing Academy of Artificial Intelligence

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Ding et al. (qui,) estudaram esta questão.

www.synapsesocial.com/papers/69d8a176183921ebcaae2fe7 — DOI: https://doi.org/10.1038/s42256-023-00626-4

Also consider

Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context:

Deep learning· 2015 · 80,583 citations
Advances in neural information processing systems 7· 1997 · 22,300 citations
Subspace Methods for Nonlinear Optimization· 2021 · 7 citations

Ajuste fino eficiente em parâmetros de grandes modelos de linguagem pré-treinados

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider