May 13, 2024Open Access

Ordenação Estratégica de Dados: Melhorando o Desempenho de Grandes Modelos de Linguagem por meio de Aprendizado por Currículo

Key Points

Key points are not available for this paper at this time.

Abstract

O rápido avanço dos Grandes Modelos de Linguagem (LLMs) aprimorou a compreensão e geração de texto, mas apresenta desafios em recursos computacionais. Este estudo propõe uma estratégia de treinamento centrada em dados, inspirada em aprendizado por currículo, que começa com tarefas mais simples e progride para as mais complexas, utilizando critérios como comprimento do prompt, pontuações de atenção e valores de perda para estruturar os dados de treinamento. Experimentos com os modelos Mistral-7B (Jiang et al., 2023) e Gemma-7B (Team et al., 2024) demonstram que o aprendizado por currículo melhora ligeiramente o desempenho em comparação ao embaralhamento aleatório tradicional dos dados. Notavelmente, observamos que ordenar os dados com base em nossos critérios propostos de atenção geralmente levou a um desempenho melhor. Esta abordagem oferece um método sustentável para melhorar o desempenho dos LLMs sem aumentar o tamanho do modelo ou o volume do conjunto de dados, enfrentando desafios de escalabilidade no treinamento de LLMs.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jisu Kim

Ju-Hwan Lee

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Ordenação Estratégica de Dados: Melhorando o Desempenho de Grandes Modelos de Linguagem por meio de Aprendizado por Currículo

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider