Los puntos clave no están disponibles para este artículo en este momento.
Presentamos OLMoE, un modelo de lenguaje de última generación completamente abierto que aprovecha la Mezcla de Expertos (MoE) dispersa. OLMoE-1B-7B tiene 7 mil millones (B) de parámetros pero utiliza solo 1B por token de entrada. Lo preentrenamos con 5 billones de tokens y lo adaptamos posteriormente para crear OLMoE-1B-7B-Instruct. Nuestros modelos superan a todos los modelos disponibles con parámetros activos similares, incluso superando a modelos más grandes como Llama2-13B-Chat y DeepSeekMoE-16B. Presentamos varios experimentos sobre el entrenamiento MoE, analizamos el enrutamiento en nuestro modelo mostrando alta especialización, y liberamos todos los aspectos de nuestro trabajo: pesos del modelo, datos de entrenamiento, código y registros.
Building similarity graph...
Analyzing shared references across papers
Loading...
Niklas Muennighoff
Luca Soldaini
Dirk Groeneveld
Building similarity graph...
Analyzing shared references across papers
Loading...
Muennighoff et al. (martes,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e597d2b6db6435875323ba — DOI: https://doi.org/10.48550/arxiv.2409.02060
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: