May 31, 2024Open Access

Wie In-Context-Lernen aus dem Training mit unstrukturierten Daten entsteht: Zur Rolle von Ko-Vorkommen, Positionsinformationen und Rauschstrukturen

Key Points

Key points are not available for this paper at this time.

Abstract

Große Sprachmodelle (LLMs) wie Transformer verfügen über beeindruckende Fähigkeiten des In-Context-Lernens (ICL); sie können Vorhersagen für neue Abfragen basierend auf Eingabe-Ausgabe-Sequenzen in Aufforderungen ohne Parameteraktualisierungen generieren. Während viele Theorien versucht haben, ICL zu erklären, konzentrieren sie sich oft auf strukturierte Trainingsdaten, die ICL-Aufgaben ähnlich sind, wie z. B. Regression. In der Praxis werden diese Modelle jedoch in unbeaufsichtigter Weise mit unstrukturierten Textdaten trainiert, die wenig Ähnlichkeit mit ICL-Aufgaben aufweisen. Zu diesem Zweck untersuchen wir, wie ICL aus unbeaufsichtigtem Training mit unstrukturierten Daten entsteht. Die entscheidende Beobachtung ist, dass ICL einfach durch Modellierung von Ko-Vorkommensinformationen mit klassischen Sprachmodellen wie Continuous Bag of Words (CBOW) entstehen kann, was wir theoretisch beweisen und empirisch validieren. Darüber hinaus stellen wir die Notwendigkeit von Positionsinformationen und Rauschstrukturen fest, um ICL auf ungesehene Daten zu verallgemeinern. Schließlich präsentieren wir Fälle, in denen ICL versagt, und liefern theoretische Erklärungen; diese deuten darauf hin, dass die ICL-Fähigkeit von LLMs, bestimmte Aufgaben zu erkennen, empfindlich auf die Struktur der Trainingsdaten reagieren kann.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Kevin Christian Wibisono

Yixin Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Wie In-Context-Lernen aus dem Training mit unstrukturierten Daten entsteht: Zur Rolle von Ko-Vorkommen, Positionsinformationen und Rauschstrukturen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider