Uma quantidade avassaladora de conteúdo gerado pode ser encontrada online e em conjuntos de dados de treinamento de modelos de linguagem de grande porte (LLM). Isso levanta a questão do efeito desses dados, gerados em ambientes descontrolados, na pré-treinamento desses modelos. Neste artigo, usamos um conjunto de dados de código aberto chamado Fineweb e o modelo de detecção de conteúdo gerado fornecido pela UncovAI para analisar o comportamento de pré-treinamento de modelos LLM em um conjunto de dados contendo dados sintéticos, um no qual removemos os dados sintéticos e outro onde removemos parte dos dados humanos. Mostramos que o uso de dados sintéticos parece deteriorar as capacidades do modelo e que o modelo treinado com menos dados humanos se sai melhor.
Building similarity graph...
Analyzing shared references across papers
Loading...
Florian Barbaro
Anna Dyka
Fabio Palumbo
Building similarity graph...
Analyzing shared references across papers
Loading...
Barbaro et al. (Wed,) estudaram esta questão.