Key points are not available for this paper at this time.
O rápido avanço dos Grandes Modelos de Linguagem (LLMs) aprimorou a compreensão e geração de texto, mas apresenta desafios em recursos computacionais. Este estudo propõe uma estratégia de treinamento centrada em dados, inspirada em aprendizado por currículo, que começa com tarefas mais simples e progride para as mais complexas, utilizando critérios como comprimento do prompt, pontuações de atenção e valores de perda para estruturar os dados de treinamento. Experimentos com os modelos Mistral-7B (Jiang et al., 2023) e Gemma-7B (Team et al., 2024) demonstram que o aprendizado por currículo melhora ligeiramente o desempenho em comparação ao embaralhamento aleatório tradicional dos dados. Notavelmente, observamos que ordenar os dados com base em nossos critérios propostos de atenção geralmente levou a um desempenho melhor. Esta abordagem oferece um método sustentável para melhorar o desempenho dos LLMs sem aumentar o tamanho do modelo ou o volume do conjunto de dados, enfrentando desafios de escalabilidade no treinamento de LLMs.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jisu Kim
Ju-Hwan Lee
Building similarity graph...
Analyzing shared references across papers
Loading...
Kim et al. (Mon,) estudaram esta questão.
www.synapsesocial.com/papers/68e6a745b6db64358762a3e6 — DOI: https://doi.org/10.48550/arxiv.2405.07490
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: