June 26, 2024Open Access

Eine Übersicht über Mixture of Experts

Key Points

Key points are not available for this paper at this time.

Abstract

Große Sprachmodelle (LLMs) haben beispiellose Fortschritte in vielfältigen Bereichen erzielt, von der Verarbeitung natürlicher Sprache bis hin zur Computer Vision und darüber hinaus. Die Leistungsfähigkeit von LLMs beruht auf ihrer beträchtlichen Modellgröße, umfangreichen und vielfältigen Datensätzen sowie der enormen Rechenleistung, die während des Trainings genutzt wird. All dies trägt zu den emergenten Fähigkeiten von LLMs bei (z. B. In-Context Learning), die in kleinen Modellen nicht vorhanden sind. In diesem Zusammenhang hat sich Mixture of Experts (MoE) als effektive Methode erwiesen, um die Modellkapazität erheblich mit minimalem Rechenaufwand zu erhöhen, und gewinnt sowohl in der akademischen Welt als auch in der Industrie große Aufmerksamkeit. Trotz der zunehmenden Verbreitung fehlt eine systematische und umfassende Übersicht über die Literatur zu MoE. Diese Umfrage soll diese Lücke schließen und als wesentliche Ressource für Forscher dienen, die sich mit den Feinheiten von MoE beschäftigen. Zunächst stellen wir kurz die Struktur der MoE-Schicht vor, gefolgt von einem neuen Taxonomie-Vorschlag für MoE. Anschließend geben wir einen Überblick über die Kernkonzepte verschiedener MoE-Modelle, einschließlich algorithmischer und systemischer Aspekte, zusammen mit Sammlungen verfügbarer Open-Source-Implementierungen, Hyperparameterkonfigurationen und empirischer Bewertungen. Darüber hinaus skizzieren wir die vielfältigen praktischen Anwendungen von MoE und erläutern einige potenzielle Richtungen für zukünftige Forschung. Zur Förderung laufender Updates und des Austauschs neuester Entwicklungen in der MoE-Forschung haben wir ein Ressourcen-Repository unter https://github.com/withinmiaov/A-Survey-on-Mixture-of-Experts eingerichtet.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Weilin Cai

Juyong Jiang

Fan Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Eine Übersicht über Mixture of Experts

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study