Cet article soutient que l'utilisation intensive de données synthétiques (générées par modèle) pour l'entraînement et le réglage fin des grands modèles de langage crée un risque structurel d'effondrement du « hall des illusions » : les modèles deviennent de plus en plus adaptés à leurs propres sorties tout en s'éloignant des données du monde réel, notamment dans la longue traîne. Je formalise une simple boucle de rétroaction synthétique où un modèle entraîné sur des données réelles est ensuite réentraîné de manière répétée sur des mélanges de données réelles et fausses. À l'aide de deux expériences ludiques transparentes — un modèle de mélange gaussien 2D et un petit modèle de langage n-gramme au niveau des caractères — je montre que, à mesure que la fraction synthétique α et le nombre de générations augmentent, la performance sur des données réelles non vues se dégrade puis s'effondre. Dans les deux cas, les métriques sur les ensembles de test réels restent stables sans données synthétiques, se dégradent sous utilisation modérée de synthétique et échouent brutalement lorsque les données synthétiques dominent. L'article introduit la métaphore du « hall des illusions » et une analogie de cavité miroir pour expliquer pourquoi ce comportement est structurellement attendu, non une anomalie. Au-delà des configurations ludiques, l'article discute des implications pour les pipelines réels de grands modèles de langage, passe en revue les atténuations partielles (auto-critique, modèles de préférence, supervision de processus, diversification) et argumente qu'elles ne suppriment pas le risque sous-jacent à forte fraction synthétique. Je propose des tests concrets et des exigences de divulgation — y compris le rapport des fractions synthétiques approximatives, la réalisation de tests d'effondrement multi-générations et la mise à l'épreuve des performances sur la longue traîne — comme norme minimale avant que les données synthétiques puissent devenir un pilier central de la montée en échelle. Figures et code d'exemple pour les expériences ludiques sont inclus pour faciliter la reproduction des résultats.
Building similarity graph...
Analyzing shared references across papers
Loading...
Lei Yu
Building similarity graph...
Analyzing shared references across papers
Loading...
Lei Yu (Mon,) a étudié cette question.
www.synapsesocial.com/papers/69402c4d2d562116f29029db — DOI: https://doi.org/10.5281/zenodo.17782033
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: