March 9, 2015Open Access

Das Wissen in einem neuronalen Netzwerk destillieren

Key Points

Key points are not available for this paper at this time.

Abstract

Eine sehr einfache Möglichkeit, die Leistung nahezu jedes Machine-Learning-Algorithmus zu verbessern, besteht darin, viele verschiedene Modelle mit denselben Daten zu trainieren und dann ihre Vorhersagen zu mitteln. Leider ist die Vorhersage mit einem ganzen Ensemble von Modellen umständlich und kann zu rechenintensiv sein, um die Bereitstellung für eine große Anzahl von Benutzern zu ermöglichen, insbesondere wenn die einzelnen Modelle große neuronale Netze sind. Caruana und seine Mitarbeiter haben gezeigt, dass es möglich ist, das Wissen eines Ensembles in ein einzelnes Modell zu komprimieren, das wesentlich leichter bereitzustellen ist, und wir entwickeln diesen Ansatz weiter unter Verwendung einer anderen Kompressionstechnik. Wir erzielen überraschende Ergebnisse bei MNIST und zeigen, dass wir das akustische Modell eines stark genutzten kommerziellen Systems erheblich verbessern können, indem wir das Wissen in einem Ensemble von Modellen in ein einzelnes Modell destillieren. Zudem führen wir eine neue Art von Ensemble ein, das aus einem oder mehreren vollständigen Modellen und vielen Spezialistenmodellen besteht, die lernen, feinkörnige Klassen zu unterscheiden, die die vollständigen Modelle verwechseln. Im Gegensatz zu einem Expertenmischmodell können diese Spezialistenmodelle schnell und parallel trainiert werden.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Geoffrey E. Hinton

Oriol Vinyals

Jay B. Dean

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Das Wissen in einem neuronalen Netzwerk destillieren

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study