What question did this study set out to answer?

The aim is to expand the theory of stochastic modified equations for gradient methods in machine learning.

April 15, 2026Open Access

Modified equations for stochastic optimization

Key Points

The aim is to expand the theory of stochastic modified equations for gradient methods in machine learning.
Develops modified equations for stochastic gradient descent (SGD) without replacement and with replacement.
Examines time-inhomogeneous stochastic differential equations (SDEs) driven by Brownian motion.
Proves weak approximation properties for specific SDEs and compares error terms in linear regression.
Introduces a novel diffusion approximation for SGD without replacement and its implications.
Establishes first and second-order weak approximation properties for specific SDEs.
Defines epoch-wise composed Brownian motion and shows its relevance to SGD.
Demonstrates almost sure convergence in strictly convex cases and provides asymptotic convergence rates.
Proves weak convergence for families of scaled random walks with common increments.

Abstract

In dieser Dissertation erweitern wir die neuartige Theorie der stochastischen modifizierten Gleichungen für stochastische Gradientenverfahren. Diese Theorie verbindet Ideen aus der Numerik von Differentialgleichungen mit Methoden der stochastischen Analysis und der Optimierung, um Fragestellungen aus dem maschinellen Lernen zu untersuchen. Die Arbeit besteht aus zwei Hauptteilen. Im ersten Teil (Kapitel 3 - 5) untersuchen wir modifizierte Gleichungen f¨ur stochastische Einschrittverfahren, darunter stochastischer Gradientenabstieg (SGD) ohne Zurücklegen bei unendlich vielen Daten, und SGD mit Zurücklegen. In Kapitel 3 untersuchen wir zeitinhomogene stochastische Differentialgleichungen (SDEs), die von einer Brownschen Bewegung getrieben werden und deren Drift- und Diffusionskoeffizienten eine Entwicklung in der Schrittweite besitzen, wobei der führende Term im Drift durch das Einschrittverfahren bestimmt ist (und höhere Terme frei wählbar sind). Unter bestimmten Regularitätseigenschaften beweisen wir für diese SDEs eine schwache Approximationseigenschaft erster Ordnung und wir bestimmen ihre linearen Fehlerterme explizit. Darüber hinaus beweisen wir eine schwache Approximationseigenschaft zweiter Ordnung für eine spezifische Familie von SDEs. In Kapitel 4 instanziieren wir unsere Resultate für SGD. Wir arbeiten das Beispiel der linearen Regression vollständig aus und nutzen es in Kapitel 5, um die linearen Fehlerterme des Gradientenflusses mit zwei häufig verwendeten stochastischen modifizierten Gleichungen erster Ordnung für SGD zu vergleichen. Im zweiten Teil (Kapitel 6 und 7) führen wir eine neuartige Diffusionsapproximation f¨ur SGD ohne Zurücklegen (SGDo) bei endlich vielen Daten ein und untersuchen diese. In Kapitel 6 motivieren und definieren wir den Begriff einer epochenweise zusammengesetzten Brownschen Bewegung. Wir argumentieren, dass Young-Differentialgleichungen (YDEs), die von solchen Prozessen getrieben werden, als kontinuierliche Modelle für SGDo dienen - und zwar für jede Mischungsstrategie, deren induzierte Permutationen im Grenzwert großer Stichproben gegen ein deterministisches Permuton konvergieren. Ferner beweisen wir fast sichere Konvergenz dieser YDEs im streng konvexen Fall. Zudem bestimmen wir eine asymptotische obere Schranke für die Konvergenzrate, die mindestens so scharf ist wie bisher bekannte Resultate für SGDo. In Kapitel 7 untersuchen wir Grenzwerte von Familien skalierter zufälliger Irrfahrten, die bis auf eine (möglicherweise zufällige) Permutation dieselben Inkremente haben. Wir zeigen schwache Konvergenz unter der Annahme, dass die Folge dieser Permutationen gegen ein deterministisches (höherdimensionales) Permuton konvergiert. Diese Permuton bestimmt die Kovarianzfunktion des Gaussprozesses im Limes. Umgekehrt zeigen wir, dass jeder Gaussprozess mit einer Kovarianzfunktion, die durch ein solches Permuton bestimmt wird, als schwacher Grenzwert skalierter zufälliger Irrfahrten mit gemeinsamen Inkrementen auftritt. Schließlich wenden wir unsere Konvergenztheorie an, um zu zeigen, dass epochenweise zusammengesetzte Brownsche Bewegungen als Grenzwerte skalierter zufälliger Irrfahrten mit endlich vielen verschiedenen Inkrementen entstehen.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Stefan Perko

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Modified equations for stochastic optimization

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study