Key points are not available for this paper at this time.
Le fine-tuning est souvent nécessaire pour améliorer l'adaptabilité des Grands Modèles de Langage (LLM) aux tâches en aval. Néanmoins, le processus de mise à jour de milliards de paramètres exige des ressources computationnelles et un temps d'entraînement importants, ce qui constitue un obstacle majeur à l'application généralisée des modèles à grande échelle dans divers scénarios. Pour remédier à ce problème, le Fine-Tuning Paramètre-Efficace (PEFT) est apparu comme un paradigme important dans les recherches récentes. Cependant, les approches PEFT actuelles qui utilisent un ensemble limité de paramètres globaux (comme LoRA, qui ajoute des matrices d'approximation de faible rang à tous les poids) rencontrent des difficultés à combiner de manière flexible différents modules computationnels dans les tâches en aval. Dans ce travail, nous introduisons une nouvelle méthode PEFT : MoELoRA. Nous considérons LoRA comme une Mixture of Experts (MoE), et pour atténuer le phénomène de routage aléatoire observé dans MoE, nous proposons l'utilisation de l'apprentissage contrastif afin d'inciter les experts à apprendre des caractéristiques distinctes. Nous avons mené des expériences sur 11 tâches dans les domaines du raisonnement mathématique et du raisonnement de bon sens. Avec le même nombre de paramètres, notre approche surpasse significativement LoRA. En raisonnement mathématique, MoELoRA a atteint une performance moyenne supérieure de 4,2 % à celle de LoRA, et a démontré une performance compétitive par rapport au GPT-3.5 175B sur plusieurs benchmarks.
Building similarity graph...
Analyzing shared references across papers
Loading...
Tongxu Luo
Jiahe Lei
Fangyu Lei
Building similarity graph...
Analyzing shared references across papers
Loading...
Luo et al. (Tue,) ont étudié cette question.
www.synapsesocial.com/papers/68e786f4b6db6435876f9581 — DOI: https://doi.org/10.48550/arxiv.2402.12851
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: