September 3, 2024Open Access

OLMoE: Modelos de Lenguaje de Mezcla de Expertos Abiertos

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Presentamos OLMoE, un modelo de lenguaje de última generación completamente abierto que aprovecha la Mezcla de Expertos (MoE) dispersa. OLMoE-1B-7B tiene 7 mil millones (B) de parámetros pero utiliza solo 1B por token de entrada. Lo preentrenamos con 5 billones de tokens y lo adaptamos posteriormente para crear OLMoE-1B-7B-Instruct. Nuestros modelos superan a todos los modelos disponibles con parámetros activos similares, incluso superando a modelos más grandes como Llama2-13B-Chat y DeepSeekMoE-16B. Presentamos varios experimentos sobre el entrenamiento MoE, analizamos el enrutamiento en nuestro modelo mostrando alta especialización, y liberamos todos los aspectos de nuestro trabajo: pesos del modelo, datos de entrenamiento, código y registros.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Niklas Muennighoff

Luca Soldaini

Dirk Groeneveld

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

OLMoE: Modelos de Lenguaje de Mezcla de Expertos Abiertos

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider