June 11, 2024Open Access

Über das Modellkollaps hinaus: Skalierung mit synthetisierten Daten erfordert Verstärkung

Key Points

Key points are not available for this paper at this time.

Abstract

Synthetisierte Daten aus generativen Modellen werden zunehmend als Alternative zu von Menschen annotierten Daten für das Fine-Tuning großer Sprachmodelle betrachtet. Dies wirft Bedenken bezüglich des Modellkollapses auf: ein Leistungsabfall bei Modellen, die auf generierten Daten feinabgestimmt wurden. Da es für Menschen und Maschinen einfacher ist, zwischen guten und schlechten Beispielen zu unterscheiden als hochwertige Stichproben zu erzeugen, untersuchen wir den Einsatz von Feedback zu synthetisierten Daten zur Vermeidung von Modellkollaps. Wir leiten theoretische Bedingungen ab, unter denen ein Gaußsches Mischklassifikationsmodell asymptotisch optimale Leistung erreichen kann, wenn es auf feedback-augmentierten synthetisierten Daten trainiert wird, und liefern unterstützende Simulationen für endliche Regime. Unsere theoretischen Vorhersagen veranschaulichen wir anhand von zwei praktischen Problemen: der Berechnung von Matrixeigenwerten mit Transformern und der Zusammenfassung von Nachrichten mit großen Sprachmodellen, die beide bei Training auf modellgenerierten Daten Modellkollaps erfahren. Wir zeigen, dass Training mit feedback-augmentierten synthetisierten Daten, entweder durch das Entfernen falscher Vorhersagen oder durch Auswahl der besten von mehreren Vermutungen, Modellkollaps verhindern kann, womit beliebte Ansätze wie RLHF validiert werden.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yunzhen Feng

Elvis Dohmatob

Pu Yang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Über das Modellkollaps hinaus: Skalierung mit synthetisierten Daten erfordert Verstärkung

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider