Key points are not available for this paper at this time.
Große Sprachmodelle (LLMs) wie Transformer verfügen über beeindruckende Fähigkeiten des In-Context-Lernens (ICL); sie können Vorhersagen für neue Abfragen basierend auf Eingabe-Ausgabe-Sequenzen in Aufforderungen ohne Parameteraktualisierungen generieren. Während viele Theorien versucht haben, ICL zu erklären, konzentrieren sie sich oft auf strukturierte Trainingsdaten, die ICL-Aufgaben ähnlich sind, wie z. B. Regression. In der Praxis werden diese Modelle jedoch in unbeaufsichtigter Weise mit unstrukturierten Textdaten trainiert, die wenig Ähnlichkeit mit ICL-Aufgaben aufweisen. Zu diesem Zweck untersuchen wir, wie ICL aus unbeaufsichtigtem Training mit unstrukturierten Daten entsteht. Die entscheidende Beobachtung ist, dass ICL einfach durch Modellierung von Ko-Vorkommensinformationen mit klassischen Sprachmodellen wie Continuous Bag of Words (CBOW) entstehen kann, was wir theoretisch beweisen und empirisch validieren. Darüber hinaus stellen wir die Notwendigkeit von Positionsinformationen und Rauschstrukturen fest, um ICL auf ungesehene Daten zu verallgemeinern. Schließlich präsentieren wir Fälle, in denen ICL versagt, und liefern theoretische Erklärungen; diese deuten darauf hin, dass die ICL-Fähigkeit von LLMs, bestimmte Aufgaben zu erkennen, empfindlich auf die Struktur der Trainingsdaten reagieren kann.
Building similarity graph...
Analyzing shared references across papers
Loading...
Kevin Christian Wibisono
Yixin Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Wibisono et al. (Fr,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e67860b6db643587602bf4 — DOI: https://doi.org/10.48550/arxiv.2406.00131
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: