December 1, 2025Open Access

Le Hall des Illusions : Comment l'Entraînement Intensif sur des Données Synthétiques Dégrade les Performances Réelles

Key Points

Les données synthétiques affectent négativement les performances sur des données réelles, causant un effondrement potentiel.
À mesure que la quantité de données synthétiques augmente, la performance réelle décline et les métriques se détériorent.
L'analyse inclut des boucles de rétroaction et plusieurs modèles ludiques, révélant des problèmes de stabilité sous forte utilisation de synthétique.
Elle souligne la nécessité de tests et de normes pour atténuer les risques associés aux données synthétiques dans l'entraînement des modèles.

Abstract

Cet article soutient que l'utilisation intensive de données synthétiques (générées par modèle) pour l'entraînement et le réglage fin des grands modèles de langage crée un risque structurel d'effondrement du « hall des illusions » : les modèles deviennent de plus en plus adaptés à leurs propres sorties tout en s'éloignant des données du monde réel, notamment dans la longue traîne. Je formalise une simple boucle de rétroaction synthétique où un modèle entraîné sur des données réelles est ensuite réentraîné de manière répétée sur des mélanges de données réelles et fausses. À l'aide de deux expériences ludiques transparentes — un modèle de mélange gaussien 2D et un petit modèle de langage n-gramme au niveau des caractères — je montre que, à mesure que la fraction synthétique α et le nombre de générations augmentent, la performance sur des données réelles non vues se dégrade puis s'effondre. Dans les deux cas, les métriques sur les ensembles de test réels restent stables sans données synthétiques, se dégradent sous utilisation modérée de synthétique et échouent brutalement lorsque les données synthétiques dominent. L'article introduit la métaphore du « hall des illusions » et une analogie de cavité miroir pour expliquer pourquoi ce comportement est structurellement attendu, non une anomalie. Au-delà des configurations ludiques, l'article discute des implications pour les pipelines réels de grands modèles de langage, passe en revue les atténuations partielles (auto-critique, modèles de préférence, supervision de processus, diversification) et argumente qu'elles ne suppriment pas le risque sous-jacent à forte fraction synthétique. Je propose des tests concrets et des exigences de divulgation — y compris le rapport des fractions synthétiques approximatives, la réalisation de tests d'effondrement multi-générations et la mise à l'épreuve des performances sur la longue traîne — comme norme minimale avant que les données synthétiques puissent devenir un pilier central de la montée en échelle. Figures et code d'exemple pour les expériences ludiques sont inclus pour faciliter la reproduction des résultats.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Lei Yu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Le Hall des Illusions : Comment l'Entraînement Intensif sur des Données Synthétiques Dégrade les Performances Réelles

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider