Key points are not available for this paper at this time.
O pré-treinamento contínuo tornou-se cada vez mais a abordagem predominante para adaptar Grandes Modelos de Linguagem (LLMs) a novos domínios. Este processo envolve a atualização do LLM pré-treinado com um corpus de um novo domínio, resultando em uma mudança na distribuição de treinamento. Para estudar o comportamento dos LLMs durante essa mudança, medimos o desempenho do modelo ao longo do processo de pré-treinamento contínuo. Observamos uma queda temporária de desempenho no início, seguida por uma fase de recuperação, um fenômeno conhecido como "lacuna de estabilidade", previamente observado em modelos de visão que classificam novas classes. Para resolver essa questão e melhorar o desempenho dos LLMs dentro de um orçamento de computação fixo, propomos três estratégias eficazes: (1) Pré-treinamento contínuo do LLM em um subconjunto de tamanho adequado por múltiplas épocas, resultando em uma recuperação de desempenho mais rápida do que pré-treinar o LLM em um corpus grande em uma única época; (2) Pré-treinamento do LLM somente em subcorpus de alta qualidade, o que impulsiona rapidamente o desempenho no domínio; e (3) Uso de uma mistura de dados similar aos dados de pré-treinamento para reduzir a lacuna de distribuição. Realizamos diversos experimentos com modelos da família Llama para validar a eficácia de nossas estratégias tanto no pré-treinamento contínuo médico quanto na sintonia por instrução. Por exemplo, nossas estratégias melhoram o desempenho médio em tarefas médicas do modelo OpenLlama-3B de 36,2% para 40,7% usando apenas 40% do orçamento original de treinamento e aumentam o desempenho médio em tarefas gerais sem causar esquecimento. Ademais, aplicamos nossas estratégias ao modelo Llama-3-8B. O modelo resultante, Llama-3-Physician, atinge o melhor desempenho médico entre os modelos open-source atuais e tem desempenho comparável ou até superior ao GPT-4 em diversos benchmarks médicos. Lançamos nossos modelos em https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yiduo Guo
Jie Fu
Huishuai Zhang
Building similarity graph...
Analyzing shared references across papers
Loading...
Guo et al. (Qui,) estudaram essa questão.
www.synapsesocial.com/papers/68e64050b6db6435875d235d — DOI: https://doi.org/10.48550/arxiv.2406.14833
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: