April 21, 2024Open Access

Mezcla de Expertos LoRA

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

LoRA ha ganado amplia aceptación en el ajuste fino de grandes modelos preentrenados para atender una diversa variedad de tareas aguas abajo, mostrando una efectividad y eficiencia notables, consolidándose así como una de las técnicas de ajuste fino más prevalentes. Debido a la naturaleza modular de los plugins plug-and-play de LoRA, los investigadores han explorado la amalgama de múltiples LoRAs para potenciar a los modelos y que destaquen en diversas tareas aguas abajo. No obstante, los enfoques existentes para la fusión de LoRA enfrentan desafíos inherentes. La combinación aritmética directa puede resultar en la pérdida de las capacidades generativas del modelo preentrenado original o de la identidad distintiva de los LoRAs, produciendo así resultados subóptimos. Por otro lado, la fusión basada en ajuste de referencia exhibe limitaciones respecto a la flexibilidad necesaria para la combinación efectiva de múltiples LoRAs. En respuesta a estos desafíos, este artículo introduce el enfoque Mezcla de Expertos LoRA (MoLE), que aprovecha el control jerárquico y la selección libre de ramas. El enfoque MoLE no solo logra un rendimiento superior en la fusión de LoRA en comparación con la combinación aritmética directa, sino que también conserva la crucial flexibilidad para combinar LoRAs de manera efectiva. Amplias evaluaciones experimentales realizadas tanto en los dominios de Procesamiento de Lenguaje Natural (NLP) como Visión y Lenguaje (V&L) corroboran la eficacia de MoLE.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xun Wu

Shaohan Huang

Furu Wei

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Mezcla de Expertos LoRA

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider