May 22, 2024Open Access

Skalierungsgesetze für große Zeitreihenmodelle

Key Points

Key points are not available for this paper at this time.

Abstract

Skalierungsgesetze für große Sprachmodelle (LLMs) haben nützliche Anleitungen gegeben, wie man immer größere Modelle trainiert, um vorhersehbare Leistungssteigerungen zu erzielen. Die Zeitreihenprognose teilt eine ähnliche sequentielle Struktur mit Sprache und eignet sich für großskalige Transformer-Architekturen. Hier zeigen wir, dass grundlegende decoder-only Zeitreihen-Transformer-Modelle ein analoges Skalierungsverhalten zu LLMs aufweisen, während architektonische Details (Seitenverhältnis und Anzahl der Heads) über breite Bereiche hinweg nur minimale Auswirkungen haben. Wir stellen ein großes Korpus heterogener Zeitreihendaten zusammen, auf dem wir trainieren, und etablieren erstmals Potenzgesetz-Skalierungsbeziehungen bezüglich der Parameteranzahl, der Datensatzgröße und der Trainingsrechenkapazität, die sich über fünf Zehnerpotenzen erstrecken.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

T. Edwards

James E. Alvey

Justin Alsing

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Skalierungsgesetze für große Zeitreihenmodelle

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider