February 27, 2024Open Access

Amélioration de l'Efficacité dans les Modèles Épars avec une Sélection Encore Plus Éparse

Key Points

Key points are not available for this paper at this time.

Abstract

Les modèles épars, y compris les modèles Mixture-of-Experts (MoE) épars, sont apparus comme une approche efficace pour l'expansion des modèles Transformer. Cependant, ils souffrent souvent d'une inefficacité computationnelle puisque de nombreux paramètres sont inutilement impliqués dans les calculs via la multiplication par zéro ou par des valeurs d'activation faibles. Pour résoudre ce problème, nous présentons un nouveau modèle MoE conçu pour améliorer à la fois l'efficacité et l'efficience des modèles MoE épars. Il exploite de petits experts et un routeur basé sur un seuil pour permettre aux tokens de n'engager que les paramètres essentiels. Nos expérimentations étendues sur des tâches de modélisation linguistique et de traduction automatique montrent que ce modèle peut améliorer les performances tout en réduisant la charge de calcul aux couches MoE de plus de 50\%, sans sacrifier la performance. De plus, nous démontrons la polyvalence de ce modèle en l'appliquant aux modèles denses, permettant un calcul épars lors de l'inférence. Nous fournissons une analyse complète et mettons notre code à disposition sur https: //anonymous. 4open. science/r/XMoE.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yuanhang Yang

Shiyi Qi

Wenchao Gu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Amélioration de l'Efficacité dans les Modèles Épars avec une Sélection Encore Plus Éparse

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider