Key points are not available for this paper at this time.
Eine sehr einfache Möglichkeit, die Leistung nahezu jedes Machine-Learning-Algorithmus zu verbessern, besteht darin, viele verschiedene Modelle mit denselben Daten zu trainieren und dann ihre Vorhersagen zu mitteln. Leider ist die Vorhersage mit einem ganzen Ensemble von Modellen umständlich und kann zu rechenintensiv sein, um die Bereitstellung für eine große Anzahl von Benutzern zu ermöglichen, insbesondere wenn die einzelnen Modelle große neuronale Netze sind. Caruana und seine Mitarbeiter haben gezeigt, dass es möglich ist, das Wissen eines Ensembles in ein einzelnes Modell zu komprimieren, das wesentlich leichter bereitzustellen ist, und wir entwickeln diesen Ansatz weiter unter Verwendung einer anderen Kompressionstechnik. Wir erzielen überraschende Ergebnisse bei MNIST und zeigen, dass wir das akustische Modell eines stark genutzten kommerziellen Systems erheblich verbessern können, indem wir das Wissen in einem Ensemble von Modellen in ein einzelnes Modell destillieren. Zudem führen wir eine neue Art von Ensemble ein, das aus einem oder mehreren vollständigen Modellen und vielen Spezialistenmodellen besteht, die lernen, feinkörnige Klassen zu unterscheiden, die die vollständigen Modelle verwechseln. Im Gegensatz zu einem Expertenmischmodell können diese Spezialistenmodelle schnell und parallel trainiert werden.
Building similarity graph...
Analyzing shared references across papers
Loading...
Geoffrey E. Hinton
Oriol Vinyals
Jay B. Dean
Building similarity graph...
Analyzing shared references across papers
Loading...
Hinton et al. (Mon,) untersuchten diese Frage.
www.synapsesocial.com/papers/69d759e4b1cb92dd1bb8a94a — DOI: https://doi.org/10.48550/arxiv.1503.02531