September 3, 2024Open Access

OLMoE：开放式专家混合语言模型

Key Points

Key points are not available for this paper at this time.

Abstract

我们介绍了OLMoE，一种完全开放的、最先进的语言模型，利用稀疏专家混合（MoE）。OLMoE-1B-7B拥有70亿参数，但每个输入标记只使用10亿参数。我们在5万亿标记上进行预训练，并进一步调整以创建OLMoE-1B-7B-Instruct。我们的模型在相似活跃参数的所有可用模型中表现最优，甚至超过了更大的模型如Llama2-13B-Chat和DeepSeekMoE-16B。我们展示了关于MoE训练的各种实验，分析了模型中的路由表现出高度的专业化，并开源了我们工作的所有方面：模型权重、训练数据、代码和日志。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Niklas Muennighoff

Luca Soldaini

Dirk Groeneveld

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

OLMoE：开放式专家混合语言模型

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider