Key points are not available for this paper at this time.
Les techniques de réglage efficace en paramètres (PEFT) comme l'adaptation en faible rang (LoRA) offrent une efficacité d'entraînement sur les grands modèles de langage, mais leur impact sur la performance du modèle reste limité. Des efforts récents intègrent LoRA et le mélange d'experts (MoE) pour améliorer la performance des méthodes PEFT. Malgré des résultats prometteurs, la recherche visant à améliorer l'efficacité de LoRA avec MoE en est encore à ses débuts. Des études récentes ont montré que les experts dans l'architecture MoE ont différentes forces et présentent également une certaine redondance. Cette affirmation s'applique-t-elle également au MoE efficace en paramètres ? Dans cet article, nous introduisons une nouvelle méthode MoE efficace en paramètres, MoE-LoRA avec allocation d'experts par couche (MoLA) pour les modèles basés sur Transformer, où chaque couche du modèle a la flexibilité d'employer un nombre variable d'experts LoRA. Nous étudions plusieurs architectures avec différentes configurations d'experts couche par couche. Les expériences sur six benchmarks bien connus de PNL et de questions de sens commun montrent que MoLA atteint des performances égales ou supérieures à toutes les références. Nous constatons que l'allocation de plus d'experts LoRA aux couches supérieures améliore encore l'efficacité des modèles avec un certain nombre total d'experts. Avec beaucoup moins de paramètres, cette stratégie d'allocation surpasse la configuration avec le même nombre d'experts dans chaque couche. Ce travail peut être largement utilisé comme une approche plug-and-play de réglage efficace en paramètres pour diverses applications. Le code est disponible sur https://github.com/GCYZSL/MoLA.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chongyang Gao
Kezhen Chen
Jinmeng Rao
Building similarity graph...
Analyzing shared references across papers
Loading...
Gao et al. (Mar,) ont étudié cette question.
www.synapsesocial.com/papers/68e79572b6db643587706275 — DOI: https://doi.org/10.48550/arxiv.2402.08562
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: