February 11, 2015Open Access

Batch-Normalisierung: Beschleunigung des Trainings tiefer Netzwerke durch Reduzierung der internen Kovariatenverschiebung

Key Points

Key points are not available for this paper at this time.

Abstract

Das Training tiefer neuronaler Netzwerke wird dadurch erschwert, dass sich die Verteilung der Eingaben jeder Schicht während des Trainings ändert, da sich die Parameter der vorherigen Schichten verändern. Dies verlangsamt das Training, da niedrigere Lernraten und sorgfältige Parameterinitialisierung erforderlich sind, und es macht das Trainieren von Modellen mit sättigenden Nichtlinearitäten notorisch schwierig. Wir bezeichnen dieses Phänomen als interne Kovariatenverschiebung und adressieren das Problem durch Normalisierung der Schicht-Eingaben. Unsere Methode gewinnt an Stärke, indem sie die Normalisierung als Teil der Modellarchitektur integriert und die Normalisierung für jedes Trainings-Mini-Batch durchführt. Batch-Normalisierung erlaubt es uns, deutlich höhere Lernraten zu verwenden und weniger sorgfältig bei der Initialisierung vorzugehen. Sie wirkt auch als Regularisierer und eliminiert in manchen Fällen die Notwendigkeit von Dropout. Angwendet auf ein hochmodernes Bildklassifikationsmodell erreicht Batch-Normalisierung dieselbe Genauigkeit bei 14-mal weniger Trainingsschritten und übertrifft das ursprüngliche Modell deutlich. Durch die Verwendung eines Ensembles von batch-normalisierten Netzwerken verbessern wir die beste veröffentlichte Leistung bei der ImageNet-Klassifikation: Erreichen eines Top-5-Validierungsfehlers von 4,9 % (und eines Testfehlers von 4,8 %), was die Genauigkeit menschlicher Bewerter übertrifft.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Sergey Ioffe

Christian Szegedy

Actions

Institutions

Google (United States)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Ioffe et al. (Mi,) untersuchten diese Frage.

www.synapsesocial.com/papers/6952f892a91d4d47a20b9c0c — DOI: https://doi.org/10.48550/arxiv.1502.03167

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Adaptive Subgradient Methods for Online Learning and Stochastic Optimization· 2010 · 8,624 citations
A Convergence Analysis of Log-Linear Training· 2011 · 54 citations
Efficient BackProp· 1998 · 1,413 citations
Natural Neural Networks· 2015 · 60 citations
Independent component analysis: algorithms and applications· 2000 · 8,753 citations

Batch-Normalisierung: Beschleunigung des Trainings tiefer Netzwerke durch Reduzierung der internen Kovariatenverschiebung

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider