Key points are not available for this paper at this time.
Die kontinuierliche Vortrainierung (CPT) bei großen Sprachmodellen (LLMs) wird häufig verwendet, um das grundlegende Verständnis des Modells für spezifische nachgelagerte Domänen (z. B. Mathematik und Code) zu erweitern. Für die CPT bei domainspezifischen LLMs ist eine wichtige Fragestellung, wie das optimale Mischverhältnis zwischen dem allgemeinen Korpus (z. B. Dolma, Slim-pajama) und dem nachgelagerten Domänenkorpus gewählt werden kann. Bestehende Methoden erfordern meist aufwendige menschliche Arbeit durch Raster-Suche über eine Reihe von Mischverhältnissen, was hohe GPU-Trainingskosten verursacht. Außerdem kann nicht garantiert werden, dass das ausgewählte Verhältnis für die spezifische Domäne optimal ist. Um die Einschränkungen bestehender Methoden zu überwinden, schlagen wir inspiriert vom Skalierungsgesetz zur Leistungsprognose vor, das Skalierungsgesetz der domainspezifischen kontinuierlichen Vortrainierung (D-CPT-Gesetz) zu untersuchen, um das optimale Mischverhältnis mit vertretbaren Trainingskosten für LLMs unterschiedlicher Größen zu bestimmen. Konkret können wir durch Anpassung des D-CPT-Gesetzes die allgemeine und domanenspezifische Leistung beliebiger Mischverhältnisse, Modellgrößen und Datensatzgrößen mithilfe geringfügiger Trainingskosten bei begrenzten Experimenten vorhersagen. Darüber hinaus erweitern wir unser standardmäßiges D-CPT-Gesetz auf domänenübergreifende Einstellungen und schlagen das domänenübergreifende D-CPT-Gesetz vor, mit dem das D-CPT-Gesetz von Ziel-Domänen vorhergesagt werden kann, wobei sehr geringe Trainingskosten (etwa 1 % der normalen Trainingskosten) für die Ziel-Domänen benötigt werden. Umfassende experimentelle Ergebnisse auf sechs nachgelagerten Domänen belegen die Effektivität und Generalisierbarkeit unseres vorgeschlagenen D-CPT-Gesetzes und des domänenübergreifenden D-CPT-Gesetzes.
Building similarity graph...
Analyzing shared references across papers
Loading...
Haoran Que
Jiaheng Liu
Ge Zhang
Building similarity graph...
Analyzing shared references across papers
Loading...
Que et al. (Mon,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e66715b6db6435875f2d8f — DOI: https://doi.org/10.48550/arxiv.2406.01375
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: