March 3, 2026Open Access

Avaliando a Influência de Dados Sintéticos no Desempenho de LLM

Key Points

O uso de dados sintéticos parece deteriorar as capacidades do modelo, o que levanta preocupações sobre a qualidade dos dados.
Modelos treinados com menos dados humanos superaram aqueles treinados em conjuntos de dados enriquecidos com conteúdo sintético.
A análise utilizou o conjunto de dados Fineweb e um modelo de detecção da UncovAI para avaliar comportamentos de pré-treinamento.
Destaca a importância do conteúdo gerado por humanos em melhorar o desempenho de grandes modelos de linguagem.

Abstract

Uma quantidade avassaladora de conteúdo gerado pode ser encontrada online e em conjuntos de dados de treinamento de modelos de linguagem de grande porte (LLM). Isso levanta a questão do efeito desses dados, gerados em ambientes descontrolados, na pré-treinamento desses modelos. Neste artigo, usamos um conjunto de dados de código aberto chamado Fineweb e o modelo de detecção de conteúdo gerado fornecido pela UncovAI para analisar o comportamento de pré-treinamento de modelos LLM em um conjunto de dados contendo dados sintéticos, um no qual removemos os dados sintéticos e outro onde removemos parte dos dados humanos. Mostramos que o uso de dados sintéticos parece deteriorar as capacidades do modelo e que o modelo treinado com menos dados humanos se sai melhor.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Florian Barbaro

Anna Dyka

Fabio Palumbo

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Avaliando a Influência de Dados Sintéticos no Desempenho de LLM

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study