Key points are not available for this paper at this time.
Fine-Tuning ist oft notwendig, um die Anpassungsfähigkeit großer Sprachmodelle (LLM) an nachgelagerte Aufgaben zu verbessern. Dennoch erfordert der Prozess der Aktualisierung von Milliarden von Parametern erhebliche Rechenressourcen und Trainingszeit, was ein bedeutendes Hindernis für die breite Anwendung großskaliger Modelle in verschiedenen Szenarien darstellt. Um dieses Problem anzugehen, hat sich das parameter-effiziente Fine-Tuning (PEFT) als bedeutendes Paradigma in der aktuellen Forschung etabliert. Allerdings stoßen derzeitige PEFT-Ansätze, die eine begrenzte Menge globaler Parameter verwenden (wie z. B. LoRA, das Niedrigrang-Approximationsmatrizen zu allen Gewichten hinzufügt), auf Herausforderungen bei der flexiblen Kombination verschiedener Rechenmodule in nachgelagerten Aufgaben. In dieser Arbeit stellen wir eine neuartige PEFT-Methode vor: MoELoRA. Wir betrachten LoRA als Mischung von Experten (MoE) und schlagen vor, kontrastives Lernen einzusetzen, um das in MoE beobachtete zufällige Routing-Phänomen zu mildern und die Experten dazu zu bringen, unterschiedliche Merkmale zu lernen. Wir führten Experimente zu 11 Aufgaben in den Bereichen mathematisches und Alltagsverständnis durch. Bei gleicher Parameteranzahl übertrifft unser Ansatz LoRA deutlich. Im Bereich des mathematischen Denkens erreichte MoELoRA eine durchschnittliche Performance, die 4,2 % höher als die von LoRA war, und zeigte im Vergleich zum 175B GPT-3.5 auf mehreren Benchmarks eine konkurrenzfähige Leistung.
Building similarity graph...
Analyzing shared references across papers
Loading...
Tongxu Luo
Jiahe Lei
Fangyu Lei
Building similarity graph...
Analyzing shared references across papers
Loading...
Luo et al. (Tue,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e786f4b6db6435876f9581 — DOI: https://doi.org/10.48550/arxiv.2402.12851
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: