Key points are not available for this paper at this time.
Les modèles épars, y compris les modèles Mixture-of-Experts (MoE) épars, sont apparus comme une approche efficace pour l'expansion des modèles Transformer. Cependant, ils souffrent souvent d'une inefficacité computationnelle puisque de nombreux paramètres sont inutilement impliqués dans les calculs via la multiplication par zéro ou par des valeurs d'activation faibles. Pour résoudre ce problème, nous présentons un nouveau modèle MoE conçu pour améliorer à la fois l'efficacité et l'efficience des modèles MoE épars. Il exploite de petits experts et un routeur basé sur un seuil pour permettre aux tokens de n'engager que les paramètres essentiels. Nos expérimentations étendues sur des tâches de modélisation linguistique et de traduction automatique montrent que ce modèle peut améliorer les performances tout en réduisant la charge de calcul aux couches MoE de plus de 50\%, sans sacrifier la performance. De plus, nous démontrons la polyvalence de ce modèle en l'appliquant aux modèles denses, permettant un calcul épars lors de l'inférence. Nous fournissons une analyse complète et mettons notre code à disposition sur https: //anonymous. 4open. science/r/XMoE.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yuanhang Yang
Shiyi Qi
Wenchao Gu
Building similarity graph...
Analyzing shared references across papers
Loading...
Yang et al. (Tue,) ont étudié cette question.
www.synapsesocial.com/papers/68e7779db6db6435876ec53b — DOI: https://doi.org/10.48550/arxiv.2403.18926
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: