Key points are not available for this paper at this time.
Traditionelle Wissensdistillation verwendet eine zweistufige Trainingsstrategie, um Wissen von einem hochkapazitiven Lehrer-Modell auf ein kompaktes Schüler-Modell zu übertragen, wobei sie stark auf den vortrainierten Lehrer angewiesen ist. Aktuelle Online-Wissensdistillation mildert diese Einschränkung durch kooperatives Lernen, gegenseitiges Lernen und Online-Ensembling, wobei eine einstufige End-to-End-Trainingsweise verfolgt wird. Allerdings gelingt es kooperativem Lernen und gegenseitigem Lernen nicht, einen Online-Hochkapazitätslehrer zu konstruieren, während Online-Ensembling die Zusammenarbeit zwischen den Zweigen ignoriert und deren Logit-Summation die weitere Optimierung des Ensemble-Lehrers behindert. In dieser Arbeit schlagen wir eine neuartige Peer-kooperative Lernmethode für Online-Wissensdistillation vor, die Online-Ensembling und Netzwerk-Kollaboration in einem einheitlichen Rahmen integriert. Konkret konstruieren wir für ein Zielnetzwerk ein Mehrzweig-Netzwerk zum Training, in dem jeder Zweig als Peer bezeichnet wird. Wir führen mehrfache zufällige Datenaugmentierungen auf die Inputs der Peers durch und setzen die von den Peers ausgegebenen Merkmalsrepräsentationen mit einem zusätzlichen Klassifikator als Peer-Ensemble-Lehrer zusammen. Dies unterstützt die Wissensübertragung von einem hochkapazitiven Lehrer zu den Peers und optimiert wiederum den Ensemble-Lehrer weiter. Gleichzeitig verwenden wir das zeitliche Mittelmodell jedes Peers als Peer-Mittel-Lehrer, um Wissen kollaborativ unter Peers zu übertragen, was jedem Peer hilft, reichhaltigeres Wissen zu lernen und die Optimierung eines stabileren Modells mit besserer Generalisierung erleichtert. Umfangreiche Experimente auf CIFAR-10, CIFAR-100 und ImageNet zeigen, dass die vorgeschlagene Methode die Generalisierung verschiedener Backbone-Netzwerke signifikant verbessert und die Methoden des Standes der Technik übertrifft.
Building similarity graph...
Analyzing shared references across papers
Loading...
Guile Wu
Shaogang Gong
Queen Mary University of London
Building similarity graph...
Analyzing shared references across papers
Loading...
Wu et al. (Tue,) haben diese Frage untersucht.
www.synapsesocial.com/papers/6a08ebf71b91a3b1ea5b72e7 — DOI: https://doi.org/10.1609/aaai.v35i12.17234
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: