February 20, 2024Open Access

MoELoRA: Kontrastives Lernen geführte Mischung von Experten für parameter-effizientes Fine-Tuning großer Sprachmodelle

Key Points

Key points are not available for this paper at this time.

Abstract

Fine-Tuning ist oft notwendig, um die Anpassungsfähigkeit großer Sprachmodelle (LLM) an nachgelagerte Aufgaben zu verbessern. Dennoch erfordert der Prozess der Aktualisierung von Milliarden von Parametern erhebliche Rechenressourcen und Trainingszeit, was ein bedeutendes Hindernis für die breite Anwendung großskaliger Modelle in verschiedenen Szenarien darstellt. Um dieses Problem anzugehen, hat sich das parameter-effiziente Fine-Tuning (PEFT) als bedeutendes Paradigma in der aktuellen Forschung etabliert. Allerdings stoßen derzeitige PEFT-Ansätze, die eine begrenzte Menge globaler Parameter verwenden (wie z. B. LoRA, das Niedrigrang-Approximationsmatrizen zu allen Gewichten hinzufügt), auf Herausforderungen bei der flexiblen Kombination verschiedener Rechenmodule in nachgelagerten Aufgaben. In dieser Arbeit stellen wir eine neuartige PEFT-Methode vor: MoELoRA. Wir betrachten LoRA als Mischung von Experten (MoE) und schlagen vor, kontrastives Lernen einzusetzen, um das in MoE beobachtete zufällige Routing-Phänomen zu mildern und die Experten dazu zu bringen, unterschiedliche Merkmale zu lernen. Wir führten Experimente zu 11 Aufgaben in den Bereichen mathematisches und Alltagsverständnis durch. Bei gleicher Parameteranzahl übertrifft unser Ansatz LoRA deutlich. Im Bereich des mathematischen Denkens erreichte MoELoRA eine durchschnittliche Performance, die 4,2 % höher als die von LoRA war, und zeigte im Vergleich zum 175B GPT-3.5 auf mehreren Benchmarks eine konkurrenzfähige Leistung.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tongxu Luo

Jiahe Lei

Fangyu Lei

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MoELoRA: Kontrastives Lernen geführte Mischung von Experten für parameter-effizientes Fine-Tuning großer Sprachmodelle

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider