Key points are not available for this paper at this time.
Das Training tiefer neuronaler Netzwerke wird dadurch erschwert, dass sich die Verteilung der Eingaben jeder Schicht während des Trainings ändert, da sich die Parameter der vorherigen Schichten verändern. Dies verlangsamt das Training, da niedrigere Lernraten und sorgfältige Parameterinitialisierung erforderlich sind, und es macht das Trainieren von Modellen mit sättigenden Nichtlinearitäten notorisch schwierig. Wir bezeichnen dieses Phänomen als interne Kovariatenverschiebung und adressieren das Problem durch Normalisierung der Schicht-Eingaben. Unsere Methode gewinnt an Stärke, indem sie die Normalisierung als Teil der Modellarchitektur integriert und die Normalisierung für jedes Trainings-Mini-Batch durchführt. Batch-Normalisierung erlaubt es uns, deutlich höhere Lernraten zu verwenden und weniger sorgfältig bei der Initialisierung vorzugehen. Sie wirkt auch als Regularisierer und eliminiert in manchen Fällen die Notwendigkeit von Dropout. Angwendet auf ein hochmodernes Bildklassifikationsmodell erreicht Batch-Normalisierung dieselbe Genauigkeit bei 14-mal weniger Trainingsschritten und übertrifft das ursprüngliche Modell deutlich. Durch die Verwendung eines Ensembles von batch-normalisierten Netzwerken verbessern wir die beste veröffentlichte Leistung bei der ImageNet-Klassifikation: Erreichen eines Top-5-Validierungsfehlers von 4,9 % (und eines Testfehlers von 4,8 %), was die Genauigkeit menschlicher Bewerter übertrifft.
Building similarity graph...
Analyzing shared references across papers
Loading...
Sergey Ioffe
Christian Szegedy
Google (United States)
Building similarity graph...
Analyzing shared references across papers
Loading...
Ioffe et al. (Mi,) untersuchten diese Frage.
www.synapsesocial.com/papers/6952f892a91d4d47a20b9c0c — DOI: https://doi.org/10.48550/arxiv.1502.03167
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: