Key points are not available for this paper at this time.
专家混合模型(MoE)作为一个有前景的框架,在扩展大型语言模型(LLMs)方面越来越受关注。然而,从零开始在大规模环境中训练MoE仍面临数据需求大和不稳定性问题。受到这一限制的启发,我们研究了如何从已有的密集型大型语言模型构建MoE模型。具体来说,基于知名的LLaMA-2 7B模型,我们通过以下步骤获得MoE模型:(1)专家构建,将原始前馈神经网络(FFNs)的参数划分为多个专家;(2)持续预训练,进一步训练转换后的MoE模型及额外的门控网络。在本文中,我们全面探索了不同的专家构建方法以及持续预训练的各种数据采样策略。经过这些阶段,我们的LLaMA-MoE模型能够保持语言能力,并在部分参数激活的情况下,将输入标记路由至特定专家。经验数据显示,通过训练2000亿标记,LLaMA-MoE-3.5B模型显著优于包含相似激活参数的密集模型。源码和模型可在https://github.com/pjlab-sys4nlp/llama-moe获取。
Building similarity graph...
Analyzing shared references across papers
Loading...
Tong Zhu
Xiaoye Qu
Daize Dong
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhu等人(星期一,)研究了这个问题。
www.synapsesocial.com/papers/68e63901b6db6435875ca741 — DOI: https://doi.org/10.48550/arxiv.2406.16554
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: