July 29, 2024Open Access

CoMMIT: Ajuste Coordenado de Instruções para Modelos de Linguagem de Grande Porte Multimodais

Key Points

Key points are not available for this paper at this time.

Abstract

O ajuste de instrução em modelos de linguagem de grande porte multimodais (MLLMs) tem como objetivo integrar de forma harmoniosa um LLM principal com um codificador de características pré-treinado para tarefas a jusante. O principal desafio é como encontrar eficientemente a sinergia por meio do aprendizado cooperativo, onde os LLMs adaptam suas habilidades de raciocínio em tarefas a jusante enquanto os codificadores de características ajustam sua codificação para fornecer informações modais mais relevantes. Neste artigo, analisamos o ajuste de instruções de MLLM tanto do ponto de vista teórico quanto empírico, onde descobrimos que o aprendizado desequilibrado entre os dois componentes, ou seja, o codificador de características e o LLM, pode causar gradientes de aprendizado decrescentes que retardam a convergência do modelo e frequentemente levam a resultados subótimos devido ao aprendizado insuficiente. Inspirados por nossas descobertas, propomos uma métrica para avaliar quantitativamente o equilíbrio de aprendizado, com base na qual projetamos um agendador de aprendizado dinâmico que coordena melhor o aprendizado. Além disso, introduzimos um método de regularização por perda auxiliar para promover a atualização da distribuição de geração dos MLLMs considerando o estado de aprendizado de cada componente do modelo, o que potencialmente previne o desaparecimento dos gradientes de cada componente e permite uma estimativa mais precisa do coeficiente de equilíbrio do aprendizado. Realizamos experimentos com múltiplas arquiteturas de LLM e codificadores de características, cujas técnicas são independentes do modelo e podem ser integradas genericamente a vários backbones de MLLM. Os resultados experimentais em múltiplas tarefas a jusante e modalidades visuais e auditivas demonstram a melhor eficiência e eficácia do método proposto no ajuste de instruções de MLLM.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Junda Wu

Xintong Li

Tong Lei Yu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

CoMMIT: Ajuste Coordenado de Instruções para Modelos de Linguagem de Grande Porte Multimodais

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider