Key points are not available for this paper at this time.
Skalierungsgesetze für große Sprachmodelle (LLMs) haben nützliche Anleitungen gegeben, wie man immer größere Modelle trainiert, um vorhersehbare Leistungssteigerungen zu erzielen. Die Zeitreihenprognose teilt eine ähnliche sequentielle Struktur mit Sprache und eignet sich für großskalige Transformer-Architekturen. Hier zeigen wir, dass grundlegende decoder-only Zeitreihen-Transformer-Modelle ein analoges Skalierungsverhalten zu LLMs aufweisen, während architektonische Details (Seitenverhältnis und Anzahl der Heads) über breite Bereiche hinweg nur minimale Auswirkungen haben. Wir stellen ein großes Korpus heterogener Zeitreihendaten zusammen, auf dem wir trainieren, und etablieren erstmals Potenzgesetz-Skalierungsbeziehungen bezüglich der Parameteranzahl, der Datensatzgröße und der Trainingsrechenkapazität, die sich über fünf Zehnerpotenzen erstrecken.
Building similarity graph...
Analyzing shared references across papers
Loading...
T. Edwards
James E. Alvey
Justin Alsing
Building similarity graph...
Analyzing shared references across papers
Loading...
Edwards et al. (Wed,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e68fc0b6db64358761769f — DOI: https://doi.org/10.48550/arxiv.2405.13867
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: