May 18, 2021Open Access

Peer-kooperatives Lernen für Online-Wissensdistillation

Key Points

Key points are not available for this paper at this time.

Abstract

Traditionelle Wissensdistillation verwendet eine zweistufige Trainingsstrategie, um Wissen von einem hochkapazitiven Lehrer-Modell auf ein kompaktes Schüler-Modell zu übertragen, wobei sie stark auf den vortrainierten Lehrer angewiesen ist. Aktuelle Online-Wissensdistillation mildert diese Einschränkung durch kooperatives Lernen, gegenseitiges Lernen und Online-Ensembling, wobei eine einstufige End-to-End-Trainingsweise verfolgt wird. Allerdings gelingt es kooperativem Lernen und gegenseitigem Lernen nicht, einen Online-Hochkapazitätslehrer zu konstruieren, während Online-Ensembling die Zusammenarbeit zwischen den Zweigen ignoriert und deren Logit-Summation die weitere Optimierung des Ensemble-Lehrers behindert. In dieser Arbeit schlagen wir eine neuartige Peer-kooperative Lernmethode für Online-Wissensdistillation vor, die Online-Ensembling und Netzwerk-Kollaboration in einem einheitlichen Rahmen integriert. Konkret konstruieren wir für ein Zielnetzwerk ein Mehrzweig-Netzwerk zum Training, in dem jeder Zweig als Peer bezeichnet wird. Wir führen mehrfache zufällige Datenaugmentierungen auf die Inputs der Peers durch und setzen die von den Peers ausgegebenen Merkmalsrepräsentationen mit einem zusätzlichen Klassifikator als Peer-Ensemble-Lehrer zusammen. Dies unterstützt die Wissensübertragung von einem hochkapazitiven Lehrer zu den Peers und optimiert wiederum den Ensemble-Lehrer weiter. Gleichzeitig verwenden wir das zeitliche Mittelmodell jedes Peers als Peer-Mittel-Lehrer, um Wissen kollaborativ unter Peers zu übertragen, was jedem Peer hilft, reichhaltigeres Wissen zu lernen und die Optimierung eines stabileren Modells mit besserer Generalisierung erleichtert. Umfangreiche Experimente auf CIFAR-10, CIFAR-100 und ImageNet zeigen, dass die vorgeschlagene Methode die Generalisierung verschiedener Backbone-Netzwerke signifikant verbessert und die Methoden des Standes der Technik übertrifft.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Guile Wu

Shaogang Gong

Actions

Institutions

Queen Mary University of London

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Wu et al. (Tue,) haben diese Frage untersucht.

www.synapsesocial.com/papers/6a08ebf71b91a3b1ea5b72e7 — DOI: https://doi.org/10.1609/aaai.v35i12.17234

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Feature Fusion for Online Mutual Knowledge Distillation· 2021 · 70 citations
Wide Residual Networks· 2016 · 5,941 citations
Neural network ensembles· 1990 · 4,253 citations
Very Deep Convolutional Networks for Large-Scale Image Recognition· 2014 · 75,505 citations
Snapshot Ensembles: Train 1, get M for free· 2017 · 118 citations

Peer-kooperatives Lernen für Online-Wissensdistillation

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider