February 13, 2024Open Access

Les couches supérieures nécessitent plus d'experts LoRA

Key Points

Key points are not available for this paper at this time.

Abstract

Les techniques de réglage efficace en paramètres (PEFT) comme l'adaptation en faible rang (LoRA) offrent une efficacité d'entraînement sur les grands modèles de langage, mais leur impact sur la performance du modèle reste limité. Des efforts récents intègrent LoRA et le mélange d'experts (MoE) pour améliorer la performance des méthodes PEFT. Malgré des résultats prometteurs, la recherche visant à améliorer l'efficacité de LoRA avec MoE en est encore à ses débuts. Des études récentes ont montré que les experts dans l'architecture MoE ont différentes forces et présentent également une certaine redondance. Cette affirmation s'applique-t-elle également au MoE efficace en paramètres ? Dans cet article, nous introduisons une nouvelle méthode MoE efficace en paramètres, MoE-LoRA avec allocation d'experts par couche (MoLA) pour les modèles basés sur Transformer, où chaque couche du modèle a la flexibilité d'employer un nombre variable d'experts LoRA. Nous étudions plusieurs architectures avec différentes configurations d'experts couche par couche. Les expériences sur six benchmarks bien connus de PNL et de questions de sens commun montrent que MoLA atteint des performances égales ou supérieures à toutes les références. Nous constatons que l'allocation de plus d'experts LoRA aux couches supérieures améliore encore l'efficacité des modèles avec un certain nombre total d'experts. Avec beaucoup moins de paramètres, cette stratégie d'allocation surpasse la configuration avec le même nombre d'experts dans chaque couche. Ce travail peut être largement utilisé comme une approche plug-and-play de réglage efficace en paramètres pour diverses applications. Le code est disponible sur https://github.com/GCYZSL/MoLA.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Chongyang Gao

Kezhen Chen

Jinmeng Rao

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Les couches supérieures nécessitent plus d'experts LoRA

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider