July 1, 2024Open Access

Memory³: Sprachmodellierung mit explizitem Speicher

Key Points

Bessere Leistung als größere Modelle zeigt die Effektivität von explizitem Speicher in Sprachmodellen.
Ein 2,4B-Sprachmodell erzielt überlegene Ergebnisse und übertrifft traditionelle Retrieval-augmentierte Generationsansätze.
Die Bewertung mittels einer Speicher-Schaltungstheorie hebt die Rolle expliziten Speichers bei der Optimierung von Parametergrößen und Kosten für heutige und zukünftige Sprachmodelle hervor. Die Ergebnisse deuten darauf hin, dass die externe Speicherung von Kernwissen die Modelleffizienz und -geschwindigkeit erheblich steigern kann.

Abstract

Das Training und die Inferenz großer Sprachmodelle (LLMs) sind zusammen ein kostspieliger Prozess, der Wissen von Rohdaten in bedeutungsvolle Berechnungen überträgt. Inspiriert von der Speicherhierarchie im menschlichen Gehirn, reduzieren wir diese Kosten, indem wir LLMs mit explizitem Speicher ausstatten, ein Speicherformat, das kostengünstiger ist als Modellparameter und textgestützte Retrieval-augmented Generation (RAG). Konzeptionell kann das LLM, mit dem Großteil seines Wissens ausgelagert in expliziten Speichern, eine kleinere Parametergröße, geringere Trainingskosten und geringere Inferenzkosten genießen, die alle proportional zur Menge des verbleibenden "abstrakten Wissens" sind. Als vorläufiger Machbarkeitsnachweis trainieren wir ein 2,4B LLM von Grund auf, das bessere Leistungen als wesentlich größere LLMs sowie RAG-Modelle erzielt und gleichzeitig eine höhere Dekodiergeschwindigkeit als RAG beibehält. Das Modell heißt Memory³, da expliziter Speicher die dritte Speicherform in LLMs nach implizitem Speicher (Modellparameter) und Arbeitsgedächtnis (Kontext-Schlüssel-Werte) ist. Wir führen eine Speicher-Schaltungstheorie ein, um die Externalisierung von Wissen zu unterstützen, und präsentieren neue Techniken, darunter einen Speicher-Sparsifizierungsmechanismus, der die Speicherung handhabbar macht, sowie ein zweistufiges Vortrainingsschema, das die Speicherbildung erleichtert.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Hongkang Yang

Zehao Lin

Wenjin Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Memory³: Sprachmodellierung mit explizitem Speicher

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider