August 28, 2024Open Access

LLaVA-MoD: Haciendo LLaVA Pequeño mediante Destilación de Conocimiento MoE

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Presentamos LLaVA-MoD, un marco novedoso diseñado para permitir el entrenamiento eficiente de Modelos de Lenguaje Multimodal a pequeña escala (s-MLLM) mediante la destilación de conocimiento de MLLM a gran escala (l-MLLM). Nuestro enfoque aborda dos desafíos fundamentales en la destilación de MLLM. Primero, optimizamos la estructura de red del s-MLLM integrando una arquitectura de Mezcla de Expertos (MoE) dispersa en el modelo de lenguaje, equilibrando la eficiencia computacional y la expresividad del modelo. Segundo, proponemos una estrategia progresiva de transferencia de conocimiento para asegurar una migración completa del conocimiento. Esta estrategia comienza con la destilación por imitación, donde minimizamos la divergencia de Kullback-Leibler (KL) entre distribuciones de salida para que el modelo estudiante emule la comprensión del modelo docente. Luego, introducimos la destilación por preferencia vía Optimización Directa de Preferencias (DPO), cuyo punto clave es tratar al l-MLLM como el modelo de referencia. Durante esta fase, la capacidad del s-MLLM para discriminar entre ejemplos superiores e inferiores se mejora significativamente más allá del l-MLLM, generando un estudiante mejor que su maestro, especialmente en puntos de referencia de alucinaciones. Amplios experimentos demuestran que LLaVA-MoD supera a modelos existentes en varios benchmarks multimodales manteniendo un número mínimo de parámetros activados y bajos costos computacionales. De manera notable, LLaVA-MoD, con solo 2B de parámetros activados, supera a Qwen-VL-Chat-7B en un 8,8% promedio en los benchmarks, usando apenas el 0,3% de los datos de entrenamiento y el 23% de los parámetros entrenables. Estos resultados subrayan la capacidad de LLaVA-MoD para destilar eficazmente conocimiento integral de su modelo docente, allanando el camino para el desarrollo de MLLM más eficientes. El código estará disponible en: https://github.com/shufangxun/LLaVA-MoD.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Fangxun Shu

Yue Liao

Le Zhuo

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LLaVA-MoD: Haciendo LLaVA Pequeño mediante Destilación de Conocimiento MoE

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study