Los puntos clave no están disponibles para este artículo en este momento.
Presentamos LLaVA-MoD, un marco novedoso diseñado para permitir el entrenamiento eficiente de Modelos de Lenguaje Multimodal a pequeña escala (s-MLLM) mediante la destilación de conocimiento de MLLM a gran escala (l-MLLM). Nuestro enfoque aborda dos desafíos fundamentales en la destilación de MLLM. Primero, optimizamos la estructura de red del s-MLLM integrando una arquitectura de Mezcla de Expertos (MoE) dispersa en el modelo de lenguaje, equilibrando la eficiencia computacional y la expresividad del modelo. Segundo, proponemos una estrategia progresiva de transferencia de conocimiento para asegurar una migración completa del conocimiento. Esta estrategia comienza con la destilación por imitación, donde minimizamos la divergencia de Kullback-Leibler (KL) entre distribuciones de salida para que el modelo estudiante emule la comprensión del modelo docente. Luego, introducimos la destilación por preferencia vía Optimización Directa de Preferencias (DPO), cuyo punto clave es tratar al l-MLLM como el modelo de referencia. Durante esta fase, la capacidad del s-MLLM para discriminar entre ejemplos superiores e inferiores se mejora significativamente más allá del l-MLLM, generando un estudiante mejor que su maestro, especialmente en puntos de referencia de alucinaciones. Amplios experimentos demuestran que LLaVA-MoD supera a modelos existentes en varios benchmarks multimodales manteniendo un número mínimo de parámetros activados y bajos costos computacionales. De manera notable, LLaVA-MoD, con solo 2B de parámetros activados, supera a Qwen-VL-Chat-7B en un 8,8% promedio en los benchmarks, usando apenas el 0,3% de los datos de entrenamiento y el 23% de los parámetros entrenables. Estos resultados subrayan la capacidad de LLaVA-MoD para destilar eficazmente conocimiento integral de su modelo docente, allanando el camino para el desarrollo de MLLM más eficientes. El código estará disponible en: https://github.com/shufangxun/LLaVA-MoD.
Building similarity graph...
Analyzing shared references across papers
Loading...
Fangxun Shu
Yue Liao
Le Zhuo
Building similarity graph...
Analyzing shared references across papers
Loading...
Shu et al. (mié,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e5a955b6db643587543676 — DOI: https://doi.org/10.48550/arxiv.2408.15881