Key points are not available for this paper at this time.
O ajuste de instrução em modelos de linguagem de grande porte multimodais (MLLMs) tem como objetivo integrar de forma harmoniosa um LLM principal com um codificador de características pré-treinado para tarefas a jusante. O principal desafio é como encontrar eficientemente a sinergia por meio do aprendizado cooperativo, onde os LLMs adaptam suas habilidades de raciocínio em tarefas a jusante enquanto os codificadores de características ajustam sua codificação para fornecer informações modais mais relevantes. Neste artigo, analisamos o ajuste de instruções de MLLM tanto do ponto de vista teórico quanto empírico, onde descobrimos que o aprendizado desequilibrado entre os dois componentes, ou seja, o codificador de características e o LLM, pode causar gradientes de aprendizado decrescentes que retardam a convergência do modelo e frequentemente levam a resultados subótimos devido ao aprendizado insuficiente. Inspirados por nossas descobertas, propomos uma métrica para avaliar quantitativamente o equilíbrio de aprendizado, com base na qual projetamos um agendador de aprendizado dinâmico que coordena melhor o aprendizado. Além disso, introduzimos um método de regularização por perda auxiliar para promover a atualização da distribuição de geração dos MLLMs considerando o estado de aprendizado de cada componente do modelo, o que potencialmente previne o desaparecimento dos gradientes de cada componente e permite uma estimativa mais precisa do coeficiente de equilíbrio do aprendizado. Realizamos experimentos com múltiplas arquiteturas de LLM e codificadores de características, cujas técnicas são independentes do modelo e podem ser integradas genericamente a vários backbones de MLLM. Os resultados experimentais em múltiplas tarefas a jusante e modalidades visuais e auditivas demonstram a melhor eficiência e eficácia do método proposto no ajuste de instruções de MLLM.
Building similarity graph...
Analyzing shared references across papers
Loading...
Junda Wu
Xintong Li
Tong Lei Yu
Building similarity graph...
Analyzing shared references across papers
Loading...
Wu et al. (Mon,) estudaram essa questão.
www.synapsesocial.com/papers/68e5eb43b6db6435875807b3 — DOI: https://doi.org/10.48550/arxiv.2407.20454
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: