Key points are not available for this paper at this time.
Multimodale Large Language Models (MLLMs) zeigen eine bemerkenswerte Kompetenz in vielfältigen Aufgaben über verschiedene Domänen hinweg, wobei der Fokus zunehmend darauf liegt, ihre Zero-Shot-Generaliserungsfähigkeit für unbekannte multimodale Aufgaben zu verbessern. Multimodales Instruction Tuning hat sich als erfolgreiche Strategie herauskristallisiert, um Zero-Shot-Generalisation zu erreichen, indem vortrainierte Modelle durch Anweisungen auf diverse multimodale Aufgaben feinabgestimmt werden. Mit zunehmender Komplexität und Größe der MLLMs wird der Bedarf an parameter-effizienten Feinabstimmungsverfahren wie Low-Rank Adaptation (LoRA), die mit einer minimalen Parameteranzahl feinjustiert, immer essenzieller. Die Anwendung von LoRA im multimodalen Instruction Tuning stellt jedoch die Herausforderung der Aufgabeninterferenz dar, die besonders bei einer breiten Palette multimodaler Aufgaben zu Leistungsabfall führt. Um dem zu begegnen, stellt dieses Papier einen neuartigen Ansatz vor, der multimodales Instruction Tuning mit Conditional Mixture-of-LoRA (MixLoRA) kombiniert. Dieser erweitert LoRA durch die dynamische Konstruktion von Low-Rank-Adaptationsmatrizen, die speziell auf die einzigartigen Anforderungen jeder Eingabeinstanz zugeschnitten sind, mit dem Ziel, Aufgabeninterferenz zu reduzieren. Experimentelle Ergebnisse auf verschiedenen multimodalen Evaluationsdatensätzen zeigen, dass MixLoRA nicht nur die konventionelle LoRA mit gleichen oder sogar höheren Rängen übertrifft, sondern auch seine Wirksamkeit und Anpassungsfähigkeit in vielfältigen multimodalen Aufgaben demonstriert.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ying Shen
Zhiyang Xu
Qifan Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Shen et al. (Sat,) haben diese Frage untersucht.
www.synapsesocial.com/papers/68e77c8eb6db6435876f0a3d — DOI: https://doi.org/10.48550/arxiv.2402.15896
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: