Key points are not available for this paper at this time.
Nous présentons Adam, un algorithme d'optimisation stochastique basé sur le gradient du premier ordre, reposant sur des estimations adaptatives des moments d'ordre inférieur. La méthode est simple à implémenter, efficace en calcul, requiert peu de mémoire, est invariante à la mise à l'échelle diagonale des gradients, et convient bien aux problèmes volumineux en termes de données et/ou de paramètres. Elle est également adaptée aux objectifs non stationnaires et aux problèmes avec des gradients très bruités et/ou clairsemés. Les hyperparamètres ont des interprétations intuitives et nécessitent généralement peu d'ajustement. Certaines connexions avec des algorithmes apparentés, qui ont inspiré Adam, sont discutées. Nous analysons aussi les propriétés théoriques de convergence de l'algorithme et fournissons une borne de regret sur le taux de convergence comparable aux meilleurs résultats connus dans le cadre de l'optimisation convexe en ligne. Les résultats empiriques montrent qu'Adam fonctionne bien en pratique et se compare favorablement à d'autres méthodes d'optimisation stochastique. Enfin, nous discutons d'AdaMax, une variante d'Adam basée sur la norme infinie.
Building similarity graph...
Analyzing shared references across papers
Loading...
Diederik P. Kingma
Jimmy Ba
University of Toronto
University of Amsterdam
Building similarity graph...
Analyzing shared references across papers
Loading...
Kingma et al. (Mon,) ont étudié cette question.
www.synapsesocial.com/papers/69ef39a5f3b736f303b25599 — DOI: https://doi.org/10.48550/arxiv.1412.6980
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: