What question did this study set out to answer?

Diese Forschung zielt darauf ab, die Effizienz des Parameter-Fein-Tunings in Multitasking-Szenarien mit einer neuen Architektur namens SLoRA zu verbessern.

February 26, 2026Open Access

Erkundung einer neuen Architektur für effizientes Parameter-Fein-Tuning in SLoRA-Multitasking-Szenarien

Key Points

Diese Forschung zielt darauf ab, die Effizienz des Parameter-Fein-Tunings in Multitasking-Szenarien mit einer neuen Architektur namens SLoRA zu verbessern.
Vorgeschlagen wurde eine verbesserte LoRA MoE-Architektur namens SLoRA.
Orthogonale Zwangsoptimierung wurde genutzt, um Wissensstörungen zu minimieren.
Eine Mixed-Expert-Struktur mit allgemeinen und aufgabenspezifischen Experten wurde zur besseren Anpassungsfähigkeit entwickelt.
Performancebewertung erfolgte bei Common-Sense-Reasoning- und multimodalen Aufgaben mit spezifischen Datensätzen.
Erreichte eine Genauigkeitserhaltungsrate alter Aufgaben von 92,4 %, was LoRA um 16,1 % übertrifft.
Verbesserte Genauigkeit bei Common-Sense-Reasoning-Aufgaben um 9,0 % gegenüber LoRA und 3,7 % gegenüber AdaLoRA.
Erhöhte F1-Punktzahl um 7,7 % bei CommonsenseQA und 2,9 % bei derselben Aufgabe.
Demonstrierte eine durchschnittliche Leistungssteigerung von 15,3 % gegenüber LoRA bei multimodalen Aufgaben.

Abstract

Vorgeschlagen wird eine verbesserte LoRA (Low-Rank Adaptation) MoE (Mixed Expert) Architektur, SLoRA (Enhanced LoRA MoE Architecture), die darauf abzielt, das zentrale Problem des effizienten Parameter-Fein-Tunings in Multitasking-Szenarien zu adressieren. Angesichts der hohen Kosten des traditionellen vollständigen Fein-Tunings bei zunehmender Parameteranzahl visueller Sprachmodelle und der Einschränkungen von LoRA als populärer PEFT (parameter-effizientes Fein-Tuning)-Methode im Multitasking – wie unzureichender Anpassungsfähigkeit und Schwierigkeiten bei der Erfassung komplexer Aufgabenmuster – sowie der Herausforderungen von katastrophalem Vergessen und Wissensfragmentierung bei vorhandenen Forschungen zur Integration von MoE-Mechanismen in LoRA, nutzt SLoRA orthogonale Zwangsoptimierung, um durch die Initialisierung des Zwangslösungsraums Störungen des bestehenden Wissens zu reduzieren, wodurch katastrophales Vergessen gemildert wird (die Genauigkeitserhaltungsrate alter Aufgaben beträgt 92,4 %, 16,1 % höher als bei LoRA), und eine optimierte MoE-Struktur, die allgemeine Experten (zur Bewahrung des vortrainierten Wissens) sowie aufgabenspezifische Experten (dynamische Routing-Anpassungsaufgaben) umfasst, um die Multitasking-Anpassungsfähigkeit zu verbessern. Experimentelle Ergebnisse zeigen, dass SLoRA bei Common-Sense-Reasoning-Aufgaben eine Genauigkeit erzielt, die 9,0 % höher als LoRA und 3,7 % höher als AdaLoRA im WSC-Datensatz ist, und dass die F1-Punktzahl um 7,7 % höher als bei LoRA und 2,9 % höher als bei AdaLoRA im CommonsenseQA-Datensatz ausfällt; bei multimodalen Aufgaben liegt der durchschnittliche Wert bis zu 15,3 % über dem von LoRA, was signifikante Vorteile gegenüber bestehenden Methoden belegt.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ce Shi

Jin-Woo Jung

Journals

Applied Sciences

Actions

Institutions

Dongguk University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Erkundung einer neuen Architektur für effizientes Parameter-Fein-Tuning in SLoRA-Multitasking-Szenarien

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider