Mixture-of-Experts (MoE)-Modelle sind zu einem wichtigen Ansatz geworden, um große Sprachmodelle effizient zu skalieren, indem nur eine Teilmenge der Experten während Training und Inferenz aktiviert wird. Typischerweise stellt die Anzahl der aktivierten Experten einen Kompromiss dar: Weniger Experten reduzieren die Rechenkosten, während mehr Experten die Leistung verbessern. Neuere Studien zeigen, dass nicht alle aktivierten Experten gleichermaßen zur Modellleistung beitragen, wobei einige besonders beim Finetuning vortrainierter MoE-Modelle für spezialisierte Nachfolgeaufgaben nur minimalen Nutzen bieten. Das Nebeneinander von signifikanten und redundanten Parametern in Experten eröffnet die Möglichkeit, die Anzahl der aktivierten Experten zu reduzieren und gleichzeitig die Modellleistung beizubehalten. In dieser Arbeit schlagen wir das Konzept der komprimierten Experten vor, leichte Module, die als kompakte Repräsentationen vollständiger Experten dienen. Unser Ansatz bewahrt die wichtigsten Experten und ersetzt andere aktivierte Hilfsexperten durch komprimierte Experten. Die Reduktion aktiver Parameter senkt deutlich die Inferenzkosten bei vergleichbarer Leistung. Umfangreiche Experimente mit Modellen wie Phi-MoE und OLMoE zeigen, dass komprimierte Experten über 90% der Leistung vollwertiger Experten bei verschiedenen Aufgaben wiederherstellen, während sie mehr als 30% der aktiven Parameter reduzieren und 20% der Inferenzkosten einsparen. Dieser Ansatz ermöglicht den effizienten Einsatz von MoE-Modellen in ressourcenbeschränkten Umgebungen und erleichtert das Skalieren auf größere Modelle mit beherrschbarem Mehraufwand. Unser Code ist verfügbar unter https://github.com/yifei-he/Compressed-Experts.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yifei He
Yang Liu
Liang Chen
Building similarity graph...
Analyzing shared references across papers
Loading...
He et al. (Sat,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68ecc715d1cc7436f7d18b3c — DOI: https://doi.org/10.48550/arxiv.2503.00634
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: