Key points are not available for this paper at this time.
我们介绍了OLMoE,一种完全开放的、最先进的语言模型,利用稀疏专家混合(MoE)。OLMoE-1B-7B拥有70亿参数,但每个输入标记只使用10亿参数。我们在5万亿标记上进行预训练,并进一步调整以创建OLMoE-1B-7B-Instruct。我们的模型在相似活跃参数的所有可用模型中表现最优,甚至超过了更大的模型如Llama2-13B-Chat和DeepSeekMoE-16B。我们展示了关于MoE训练的各种实验,分析了模型中的路由表现出高度的专业化,并开源了我们工作的所有方面:模型权重、训练数据、代码和日志。
Building similarity graph...
Analyzing shared references across papers
Loading...
Niklas Muennighoff
Luca Soldaini
Dirk Groeneveld
Building similarity graph...
Analyzing shared references across papers
Loading...
Muennighoff等人(星期二)研究了这个问题。
www.synapsesocial.com/papers/68e597d2b6db6435875323ba — DOI: https://doi.org/10.48550/arxiv.2409.02060
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: