February 12, 2024Open Access

Lois d'échelle pour un mélange fin d'experts

Key Points

Key points are not available for this paper at this time.

Abstract

Les modèles Mixture of Experts (MoE) sont devenus une solution principale pour réduire le coût computationnel des grands modèles de langage. Dans ce travail, nous analysons leurs propriétés d'échelle, en intégrant une gamme étendue de variables. Plus précisément, nous introduisons un nouvel hyperparamètre, la granularité, dont l'ajustement permet un contrôle précis de la taille des experts. Sur cette base, nous établissons des lois d'échelle pour les MoE à granularité fine, en tenant compte du nombre de tokens d'entraînement, de la taille du modèle et de la granularité. En tirant parti de ces lois, nous déduisons la configuration d'entraînement optimale pour un budget computationnel donné. Nos résultats montrent non seulement que les modèles MoE surpassent systématiquement les Transformers denses, mais aussi que l'écart d'efficacité entre les modèles denses et MoE s'élargit avec l'augmentation de la taille du modèle et du budget d'entraînement. De plus, nous démontrons que la pratique courante consistant à fixer la taille des experts dans les MoE pour qu'elle corresponde à celle de la couche feed-forward n'est optimale pour presque aucun budget computationnel.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jakub Krajewski

Jan Ludziejewski

Kamil Adamczewski

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Lois d'échelle pour un mélange fin d'experts

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study