Propomos uma arquitetura MoE (mixed expert) LoRA (Low-Rank Adaptation) aprimorada, denominada SLoRA (Arquitetura MoE LoRA Aprimorada), destinada a resolver o problema principal do ajuste fino eficiente de parâmetros em cenários multitarefa. Dado o alto custo do ajuste fino completo tradicional conforme o tamanho dos parâmetros dos modelos visuais de linguagem aumenta, e as limitações do LoRA como um método PEFT (parameter-efficient fine-tuning) popular em multitarefas, tais como adaptabilidade inadequada e dificuldade em capturar padrões complexos de tarefas, bem como os desafios de esquecimento catastrófico e fragmentação do conhecimento enfrentados pelas pesquisas existentes sobre a integração de mecanismos MoE em LoRA, o SLoRA utiliza otimização com restrição ortogonal para reduzir a perturbação ao conhecimento existente por meio da inicialização do espaço de solução das restrições, aliviando o esquecimento catastrófico (taxa de retenção da acurácia em tarefas antigas alcança 92,4%, 16,1% maior que LoRA), e uma estrutura MoE otimizada que inclui especialistas gerais (retendo conhecimento pré-treinado) e especialistas específicos de tarefas (adaptando dinamicamente as tarefas por roteamento) para melhorar a adaptabilidade multitarefa. Resultados experimentais mostram que em tarefas de raciocínio de senso comum, a acurácia do SLoRA é 9,0% maior que LoRA e 3,7% maior que AdaLoRA no conjunto de dados WSC, e seu escore F1 é 7,7% maior que LoRA e 2,9% maior que AdaLoRA no conjunto CommonsenseQA; em tarefas multimodais, sua pontuação média é até 15,3% maior que LoRA, demonstrando vantagens significativas sobre métodos existentes.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ce Shi
Jin-Woo Jung
Applied Sciences
Dongguk University
Building similarity graph...
Analyzing shared references across papers
Loading...
Shi et al. (Tue,) estudaram esta questão.
www.synapsesocial.com/papers/699fe32295ddcd3a253e6cd4 — DOI: https://doi.org/10.3390/app16052174
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: