Key points are not available for this paper at this time.
Les modèles Mixture of Experts (MoE) sont devenus une solution principale pour réduire le coût computationnel des grands modèles de langage. Dans ce travail, nous analysons leurs propriétés d'échelle, en intégrant une gamme étendue de variables. Plus précisément, nous introduisons un nouvel hyperparamètre, la granularité, dont l'ajustement permet un contrôle précis de la taille des experts. Sur cette base, nous établissons des lois d'échelle pour les MoE à granularité fine, en tenant compte du nombre de tokens d'entraînement, de la taille du modèle et de la granularité. En tirant parti de ces lois, nous déduisons la configuration d'entraînement optimale pour un budget computationnel donné. Nos résultats montrent non seulement que les modèles MoE surpassent systématiquement les Transformers denses, mais aussi que l'écart d'efficacité entre les modèles denses et MoE s'élargit avec l'augmentation de la taille du modèle et du budget d'entraînement. De plus, nous démontrons que la pratique courante consistant à fixer la taille des experts dans les MoE pour qu'elle corresponde à celle de la couche feed-forward n'est optimale pour presque aucun budget computationnel.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jakub Krajewski
Jan Ludziejewski
Kamil Adamczewski
Building similarity graph...
Analyzing shared references across papers
Loading...
Krajewski et al. (Mon,) ont étudié cette question.
www.synapsesocial.com/papers/68e79844b6db643587708c5b — DOI: https://doi.org/10.48550/arxiv.2402.07871