Key points are not available for this paper at this time.
Die Mixture of Experts (MoE) für Sprachmodelle hat sich als wirkungsvoll erwiesen, um die Kapazität von Modellen zu erhöhen, indem jeder Eingabetoken dynamisch an eine spezifische Expertengruppe zur Verarbeitung weitergeleitet wird. Trotz des Erfolgs stehen die meisten bestehenden Methoden vor der Herausforderung, ein Gleichgewicht zwischen Sparsität und Verfügbarkeit von Expertenwissen zu finden: Die Leistungssteigerung durch vermehrte Nutzung von Expertenwissen führt oft zu einer abnehmenden Sparsität bei der Expertenauswahl. Um diesen Widerspruch zu mindern, schlagen wir HyperMoE vor, einen neuartigen MoE-Rahmen, der auf Hypernetzwerken basiert. Dieses Framework integriert die Rechenprozesse von MoE mit dem Konzept des Wissenstransfers im Multi-Task-Lernen. Spezifische Module, die auf Basis der Informationen nicht ausgewählter Experten generiert werden, dienen als ergänzende Informationen und ermöglichen es, das Wissen nicht ausgewählter Experten zu nutzen, während die Auswahl-Sparsität erhalten bleibt. Unsere umfassenden empirischen Bewertungen über mehrere Datensätze und Backbones zeigen, dass HyperMoE bestehende MoE-Methoden unter gleichen Bedingungen hinsichtlich der Anzahl der Experten signifikant übertrifft.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hao Zhao
Zihan Qiu
Huijia Wu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhao et al. (Mon,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e78968b6db6435876fbd8e — DOI: https://doi.org/10.48550/arxiv.2402.12656
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: