June 20, 2024Open Access

Pré-treinamento Contínuo Eficiente Mitigando a Lacuna de Estabilidade

Key Points

Key points are not available for this paper at this time.

Abstract

O pré-treinamento contínuo tornou-se cada vez mais a abordagem predominante para adaptar Grandes Modelos de Linguagem (LLMs) a novos domínios. Este processo envolve a atualização do LLM pré-treinado com um corpus de um novo domínio, resultando em uma mudança na distribuição de treinamento. Para estudar o comportamento dos LLMs durante essa mudança, medimos o desempenho do modelo ao longo do processo de pré-treinamento contínuo. Observamos uma queda temporária de desempenho no início, seguida por uma fase de recuperação, um fenômeno conhecido como "lacuna de estabilidade", previamente observado em modelos de visão que classificam novas classes. Para resolver essa questão e melhorar o desempenho dos LLMs dentro de um orçamento de computação fixo, propomos três estratégias eficazes: (1) Pré-treinamento contínuo do LLM em um subconjunto de tamanho adequado por múltiplas épocas, resultando em uma recuperação de desempenho mais rápida do que pré-treinar o LLM em um corpus grande em uma única época; (2) Pré-treinamento do LLM somente em subcorpus de alta qualidade, o que impulsiona rapidamente o desempenho no domínio; e (3) Uso de uma mistura de dados similar aos dados de pré-treinamento para reduzir a lacuna de distribuição. Realizamos diversos experimentos com modelos da família Llama para validar a eficácia de nossas estratégias tanto no pré-treinamento contínuo médico quanto na sintonia por instrução. Por exemplo, nossas estratégias melhoram o desempenho médio em tarefas médicas do modelo OpenLlama-3B de 36,2% para 40,7% usando apenas 40% do orçamento original de treinamento e aumentam o desempenho médio em tarefas gerais sem causar esquecimento. Ademais, aplicamos nossas estratégias ao modelo Llama-3-8B. O modelo resultante, Llama-3-Physician, atinge o melhor desempenho médico entre os modelos open-source atuais e tem desempenho comparável ou até superior ao GPT-4 em diversos benchmarks médicos. Lançamos nossos modelos em https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yiduo Guo

Jie Fu

Huishuai Zhang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Pré-treinamento Contínuo Eficiente Mitigando a Lacuna de Estabilidade

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider