In dieser Dissertation erweitern wir die neuartige Theorie der stochastischen modifizierten Gleichungen für stochastische Gradientenverfahren. Diese Theorie verbindet Ideen aus der Numerik von Differentialgleichungen mit Methoden der stochastischen Analysis und der Optimierung, um Fragestellungen aus dem maschinellen Lernen zu untersuchen. Die Arbeit besteht aus zwei Hauptteilen. Im ersten Teil (Kapitel 3 - 5) untersuchen wir modifizierte Gleichungen f¨ur stochastische Einschrittverfahren, darunter stochastischer Gradientenabstieg (SGD) ohne Zurücklegen bei unendlich vielen Daten, und SGD mit Zurücklegen. In Kapitel 3 untersuchen wir zeitinhomogene stochastische Differentialgleichungen (SDEs), die von einer Brownschen Bewegung getrieben werden und deren Drift- und Diffusionskoeffizienten eine Entwicklung in der Schrittweite besitzen, wobei der führende Term im Drift durch das Einschrittverfahren bestimmt ist (und höhere Terme frei wählbar sind). Unter bestimmten Regularitätseigenschaften beweisen wir für diese SDEs eine schwache Approximationseigenschaft erster Ordnung und wir bestimmen ihre linearen Fehlerterme explizit. Darüber hinaus beweisen wir eine schwache Approximationseigenschaft zweiter Ordnung für eine spezifische Familie von SDEs. In Kapitel 4 instanziieren wir unsere Resultate für SGD. Wir arbeiten das Beispiel der linearen Regression vollständig aus und nutzen es in Kapitel 5, um die linearen Fehlerterme des Gradientenflusses mit zwei häufig verwendeten stochastischen modifizierten Gleichungen erster Ordnung für SGD zu vergleichen. Im zweiten Teil (Kapitel 6 und 7) führen wir eine neuartige Diffusionsapproximation f¨ur SGD ohne Zurücklegen (SGDo) bei endlich vielen Daten ein und untersuchen diese. In Kapitel 6 motivieren und definieren wir den Begriff einer epochenweise zusammengesetzten Brownschen Bewegung. Wir argumentieren, dass Young-Differentialgleichungen (YDEs), die von solchen Prozessen getrieben werden, als kontinuierliche Modelle für SGDo dienen - und zwar für jede Mischungsstrategie, deren induzierte Permutationen im Grenzwert großer Stichproben gegen ein deterministisches Permuton konvergieren. Ferner beweisen wir fast sichere Konvergenz dieser YDEs im streng konvexen Fall. Zudem bestimmen wir eine asymptotische obere Schranke für die Konvergenzrate, die mindestens so scharf ist wie bisher bekannte Resultate für SGDo. In Kapitel 7 untersuchen wir Grenzwerte von Familien skalierter zufälliger Irrfahrten, die bis auf eine (möglicherweise zufällige) Permutation dieselben Inkremente haben. Wir zeigen schwache Konvergenz unter der Annahme, dass die Folge dieser Permutationen gegen ein deterministisches (höherdimensionales) Permuton konvergiert. Diese Permuton bestimmt die Kovarianzfunktion des Gaussprozesses im Limes. Umgekehrt zeigen wir, dass jeder Gaussprozess mit einer Kovarianzfunktion, die durch ein solches Permuton bestimmt wird, als schwacher Grenzwert skalierter zufälliger Irrfahrten mit gemeinsamen Inkrementen auftritt. Schließlich wenden wir unsere Konvergenztheorie an, um zu zeigen, dass epochenweise zusammengesetzte Brownsche Bewegungen als Grenzwerte skalierter zufälliger Irrfahrten mit endlich vielen verschiedenen Inkrementen entstehen.
Building similarity graph...
Analyzing shared references across papers
Loading...
Stefan Perko
Building similarity graph...
Analyzing shared references across papers
Loading...
Stefan Perko (Thu,) studied this question.
www.synapsesocial.com/papers/69df2b85e4eeef8a2a6b084f — DOI: https://doi.org/10.22032/dbt.69978