Das Training und die Inferenz großer Sprachmodelle (LLMs) sind zusammen ein kostspieliger Prozess, der Wissen von Rohdaten in bedeutungsvolle Berechnungen überträgt. Inspiriert von der Speicherhierarchie im menschlichen Gehirn, reduzieren wir diese Kosten, indem wir LLMs mit explizitem Speicher ausstatten, ein Speicherformat, das kostengünstiger ist als Modellparameter und textgestützte Retrieval-augmented Generation (RAG). Konzeptionell kann das LLM, mit dem Großteil seines Wissens ausgelagert in expliziten Speichern, eine kleinere Parametergröße, geringere Trainingskosten und geringere Inferenzkosten genießen, die alle proportional zur Menge des verbleibenden "abstrakten Wissens" sind. Als vorläufiger Machbarkeitsnachweis trainieren wir ein 2,4B LLM von Grund auf, das bessere Leistungen als wesentlich größere LLMs sowie RAG-Modelle erzielt und gleichzeitig eine höhere Dekodiergeschwindigkeit als RAG beibehält. Das Modell heißt Memory³, da expliziter Speicher die dritte Speicherform in LLMs nach implizitem Speicher (Modellparameter) und Arbeitsgedächtnis (Kontext-Schlüssel-Werte) ist. Wir führen eine Speicher-Schaltungstheorie ein, um die Externalisierung von Wissen zu unterstützen, und präsentieren neue Techniken, darunter einen Speicher-Sparsifizierungsmechanismus, der die Speicherung handhabbar macht, sowie ein zweistufiges Vortrainingsschema, das die Speicherbildung erleichtert.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hongkang Yang
Zehao Lin
Wenjin Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Yang et al. (Mon,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e61f51b6db6435875b1bc3 — DOI: https://doi.org/10.48550/arxiv.2407.01178
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: