Key points are not available for this paper at this time.
Deep Learning gedeiht mit großen neuronalen Netzwerken und großen Datensätzen. Allerdings führen größere Netzwerke und größere Datensätze zu längeren Trainingszeiten, die Forschung und Entwicklung behindern. Verteiltes synchrones SGD bietet eine potenzielle Lösung für dieses Problem, indem SGD-Minigruppen über einen Pool paralleler Worker verteilt werden. Um dieses Schema jedoch effizient zu machen, muss die Arbeitslast pro Worker groß sein, was ein erhebliches Wachstum der SGD-Minigruppengröße impliziert. In diesem Papier zeigen wir empirisch, dass große Minigruppen auf dem ImageNet-Datensatz Optimierungsprobleme verursachen, diese aber gelöst werden können, sodass die trainierten Netzwerke eine gute Generalisierung zeigen. Konkret zeigen wir keinen Genauigkeitsverlust beim Training mit großen Minigruppengrößen bis zu 8192 Bildern. Um dieses Ergebnis zu erreichen, übernehmen wir eine hyperparameterfreie lineare Skalierungsregel zur Anpassung der Lernraten in Abhängigkeit von der Minigruppengröße und entwickeln ein neues Warmup-Schema, das Optimierungsherausforderungen zu Beginn des Trainings überwindet. Mit diesen einfachen Techniken trainiert unser auf Caffe2 basierendes System ResNet-50 mit einer Minigruppengröße von 8192 auf 256 GPUs in einer Stunde und erreicht dabei die Genauigkeit kleiner Minigruppen. Mit handelsüblicher Hardware erzielt unsere Implementierung etwa 90 % Skalierungseffizienz beim Wechsel von 8 auf 256 GPUs. Unsere Ergebnisse ermöglichen das effiziente Training von visuellen Erkennungsmodellen mit internetgroßen Datenmengen.
Building similarity graph...
Analyzing shared references across papers
Loading...
Priya Goyal
Piotr Dollár
Ross Girshick
Building similarity graph...
Analyzing shared references across papers
Loading...
Goyal et al. (Thu,) haben diese Frage untersucht.
www.synapsesocial.com/papers/6a096ba54db7968590513d75 — DOI: https://doi.org/10.48550/arxiv.1706.02677
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: