What type of study is this?

This is a Experimental Study study.

October 13, 2025Open Access

Effiziente Bearbeitung von Mixture-of-Experts-Modellen mit komprimierten Experten

Key Points

Der Einsatz komprimierter Experten kann die aktiven Parameter um über 30% reduzieren und dabei die Modellleistung erhalten.
Experimente mit Phi-MoE und OLMoE zeigen, dass komprimierte Experten mehr als 90% der Leistung kompletter Experten bei verschiedenen Aufgaben wiederherstellen.
Weniger aktivierte Experten reduzieren die Rechenkosten und weisen so auf einen ausgewogenen Ansatz bei der Modells skalierung hin.
Diese Methode bietet eine praktische Lösung für den Einsatz großer Modelle in ressourcenbeschränkten Umgebungen.

Abstract

Mixture-of-Experts (MoE)-Modelle sind zu einem wichtigen Ansatz geworden, um große Sprachmodelle effizient zu skalieren, indem nur eine Teilmenge der Experten während Training und Inferenz aktiviert wird. Typischerweise stellt die Anzahl der aktivierten Experten einen Kompromiss dar: Weniger Experten reduzieren die Rechenkosten, während mehr Experten die Leistung verbessern. Neuere Studien zeigen, dass nicht alle aktivierten Experten gleichermaßen zur Modellleistung beitragen, wobei einige besonders beim Finetuning vortrainierter MoE-Modelle für spezialisierte Nachfolgeaufgaben nur minimalen Nutzen bieten. Das Nebeneinander von signifikanten und redundanten Parametern in Experten eröffnet die Möglichkeit, die Anzahl der aktivierten Experten zu reduzieren und gleichzeitig die Modellleistung beizubehalten. In dieser Arbeit schlagen wir das Konzept der komprimierten Experten vor, leichte Module, die als kompakte Repräsentationen vollständiger Experten dienen. Unser Ansatz bewahrt die wichtigsten Experten und ersetzt andere aktivierte Hilfsexperten durch komprimierte Experten. Die Reduktion aktiver Parameter senkt deutlich die Inferenzkosten bei vergleichbarer Leistung. Umfangreiche Experimente mit Modellen wie Phi-MoE und OLMoE zeigen, dass komprimierte Experten über 90% der Leistung vollwertiger Experten bei verschiedenen Aufgaben wiederherstellen, während sie mehr als 30% der aktiven Parameter reduzieren und 20% der Inferenzkosten einsparen. Dieser Ansatz ermöglicht den effizienten Einsatz von MoE-Modellen in ressourcenbeschränkten Umgebungen und erleichtert das Skalieren auf größere Modelle mit beherrschbarem Mehraufwand. Unser Code ist verfügbar unter https://github.com/yifei-he/Compressed-Experts.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yifei He

Yang Liu

Liang Chen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Effiziente Bearbeitung von Mixture-of-Experts-Modellen mit komprimierten Experten

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider