June 3, 2024Open Access

D-CPT-Gesetz: Domainspezifisches Gesetz zur kontinuierlichen Vortrainierung für große Sprachmodelle

Key Points

Key points are not available for this paper at this time.

Abstract

Die kontinuierliche Vortrainierung (CPT) bei großen Sprachmodellen (LLMs) wird häufig verwendet, um das grundlegende Verständnis des Modells für spezifische nachgelagerte Domänen (z. B. Mathematik und Code) zu erweitern. Für die CPT bei domainspezifischen LLMs ist eine wichtige Fragestellung, wie das optimale Mischverhältnis zwischen dem allgemeinen Korpus (z. B. Dolma, Slim-pajama) und dem nachgelagerten Domänenkorpus gewählt werden kann. Bestehende Methoden erfordern meist aufwendige menschliche Arbeit durch Raster-Suche über eine Reihe von Mischverhältnissen, was hohe GPU-Trainingskosten verursacht. Außerdem kann nicht garantiert werden, dass das ausgewählte Verhältnis für die spezifische Domäne optimal ist. Um die Einschränkungen bestehender Methoden zu überwinden, schlagen wir inspiriert vom Skalierungsgesetz zur Leistungsprognose vor, das Skalierungsgesetz der domainspezifischen kontinuierlichen Vortrainierung (D-CPT-Gesetz) zu untersuchen, um das optimale Mischverhältnis mit vertretbaren Trainingskosten für LLMs unterschiedlicher Größen zu bestimmen. Konkret können wir durch Anpassung des D-CPT-Gesetzes die allgemeine und domanenspezifische Leistung beliebiger Mischverhältnisse, Modellgrößen und Datensatzgrößen mithilfe geringfügiger Trainingskosten bei begrenzten Experimenten vorhersagen. Darüber hinaus erweitern wir unser standardmäßiges D-CPT-Gesetz auf domänenübergreifende Einstellungen und schlagen das domänenübergreifende D-CPT-Gesetz vor, mit dem das D-CPT-Gesetz von Ziel-Domänen vorhergesagt werden kann, wobei sehr geringe Trainingskosten (etwa 1 % der normalen Trainingskosten) für die Ziel-Domänen benötigt werden. Umfassende experimentelle Ergebnisse auf sechs nachgelagerten Domänen belegen die Effektivität und Generalisierbarkeit unseres vorgeschlagenen D-CPT-Gesetzes und des domänenübergreifenden D-CPT-Gesetzes.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Haoran Que

Jiaheng Liu

Ge Zhang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

D-CPT-Gesetz: Domainspezifisches Gesetz zur kontinuierlichen Vortrainierung für große Sprachmodelle

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider