February 19, 2024Open Access

HyperMoE: Auf dem Weg zu besseren Mixtures of Experts durch Transfer zwischen Experten

Key Points

Key points are not available for this paper at this time.

Abstract

Die Mixture of Experts (MoE) für Sprachmodelle hat sich als wirkungsvoll erwiesen, um die Kapazität von Modellen zu erhöhen, indem jeder Eingabetoken dynamisch an eine spezifische Expertengruppe zur Verarbeitung weitergeleitet wird. Trotz des Erfolgs stehen die meisten bestehenden Methoden vor der Herausforderung, ein Gleichgewicht zwischen Sparsität und Verfügbarkeit von Expertenwissen zu finden: Die Leistungssteigerung durch vermehrte Nutzung von Expertenwissen führt oft zu einer abnehmenden Sparsität bei der Expertenauswahl. Um diesen Widerspruch zu mindern, schlagen wir HyperMoE vor, einen neuartigen MoE-Rahmen, der auf Hypernetzwerken basiert. Dieses Framework integriert die Rechenprozesse von MoE mit dem Konzept des Wissenstransfers im Multi-Task-Lernen. Spezifische Module, die auf Basis der Informationen nicht ausgewählter Experten generiert werden, dienen als ergänzende Informationen und ermöglichen es, das Wissen nicht ausgewählter Experten zu nutzen, während die Auswahl-Sparsität erhalten bleibt. Unsere umfassenden empirischen Bewertungen über mehrere Datensätze und Backbones zeigen, dass HyperMoE bestehende MoE-Methoden unter gleichen Bedingungen hinsichtlich der Anzahl der Experten signifikant übertrifft.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Hao Zhao

Zihan Qiu

Huijia Wu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

HyperMoE: Auf dem Weg zu besseren Mixtures of Experts durch Transfer zwischen Experten

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider