Key points are not available for this paper at this time.
Große Sprachmodelle (LLMs) haben beispiellose Fortschritte in vielfältigen Bereichen erzielt, von der Verarbeitung natürlicher Sprache bis hin zur Computer Vision und darüber hinaus. Die Leistungsfähigkeit von LLMs beruht auf ihrer beträchtlichen Modellgröße, umfangreichen und vielfältigen Datensätzen sowie der enormen Rechenleistung, die während des Trainings genutzt wird. All dies trägt zu den emergenten Fähigkeiten von LLMs bei (z. B. In-Context Learning), die in kleinen Modellen nicht vorhanden sind. In diesem Zusammenhang hat sich Mixture of Experts (MoE) als effektive Methode erwiesen, um die Modellkapazität erheblich mit minimalem Rechenaufwand zu erhöhen, und gewinnt sowohl in der akademischen Welt als auch in der Industrie große Aufmerksamkeit. Trotz der zunehmenden Verbreitung fehlt eine systematische und umfassende Übersicht über die Literatur zu MoE. Diese Umfrage soll diese Lücke schließen und als wesentliche Ressource für Forscher dienen, die sich mit den Feinheiten von MoE beschäftigen. Zunächst stellen wir kurz die Struktur der MoE-Schicht vor, gefolgt von einem neuen Taxonomie-Vorschlag für MoE. Anschließend geben wir einen Überblick über die Kernkonzepte verschiedener MoE-Modelle, einschließlich algorithmischer und systemischer Aspekte, zusammen mit Sammlungen verfügbarer Open-Source-Implementierungen, Hyperparameterkonfigurationen und empirischer Bewertungen. Darüber hinaus skizzieren wir die vielfältigen praktischen Anwendungen von MoE und erläutern einige potenzielle Richtungen für zukünftige Forschung. Zur Förderung laufender Updates und des Austauschs neuester Entwicklungen in der MoE-Forschung haben wir ein Ressourcen-Repository unter https://github.com/withinmiaov/A-Survey-on-Mixture-of-Experts eingerichtet.
Building similarity graph...
Analyzing shared references across papers
Loading...
Weilin Cai
Juyong Jiang
Fan Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Cai et al. (Mi,) untersuchten diese Frage.
www.synapsesocial.com/papers/68e634d1b6db6435875c670e — DOI: https://doi.org/10.48550/arxiv.2407.06204