December 22, 2014Open Access

Adam : Une méthode pour l'optimisation stochastique

Key Points

Key points are not available for this paper at this time.

Abstract

Nous présentons Adam, un algorithme d'optimisation stochastique basé sur le gradient du premier ordre, reposant sur des estimations adaptatives des moments d'ordre inférieur. La méthode est simple à implémenter, efficace en calcul, requiert peu de mémoire, est invariante à la mise à l'échelle diagonale des gradients, et convient bien aux problèmes volumineux en termes de données et/ou de paramètres. Elle est également adaptée aux objectifs non stationnaires et aux problèmes avec des gradients très bruités et/ou clairsemés. Les hyperparamètres ont des interprétations intuitives et nécessitent généralement peu d'ajustement. Certaines connexions avec des algorithmes apparentés, qui ont inspiré Adam, sont discutées. Nous analysons aussi les propriétés théoriques de convergence de l'algorithme et fournissons une borne de regret sur le taux de convergence comparable aux meilleurs résultats connus dans le cadre de l'optimisation convexe en ligne. Les résultats empiriques montrent qu'Adam fonctionne bien en pratique et se compare favorablement à d'autres méthodes d'optimisation stochastique. Enfin, nous discutons d'AdaMax, une variante d'Adam basée sur la norme infinie.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Diederik P. Kingma

Jimmy Ba

Actions

Institutions

University of Toronto

University of Amsterdam

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Adam : Une méthode pour l'optimisation stochastique

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider