Key points are not available for this paper at this time.
大型语言模型(LLMs)在自然语言处理、计算机视觉及其他多个领域取得了前所未有的进展。LLMs的强大能力基于其庞大的模型规模、广泛多样的数据集以及训练时所使用的大量计算资源,这些因素共同促成了LLMs呈现出的小模型不具备的涌现能力(例如上下文学习)。在此背景下,专家混合(MoE)作为一种有效方法,可以在计算开销极小的情况下大幅提升模型容量,因而受到学术界和工业界的广泛关注。尽管MoE的应用日益广泛,目前尚缺乏对相关文献的系统和全面综述。本综述旨在填补这一空白,成为研究MoE细节的学者的重要资源。我们首先简要介绍MoE层的结构,随后提出MoE的新分类法。接着,我们概述了各类MoE模型的核心设计,包括算法和系统方面,同时汇集了可用的开源实现、超参数配置及实验评估。此外,我们阐述了MoE在实际中的多方面应用,并勾勒了未来研究的一些潜在方向。为了方便持续更新和分享MoE研究的最新进展,我们建立了资源库,地址为 https://github.com/withinmiaov/A-Survey-on-Mixture-of-Experts。
Building similarity graph...
Analyzing shared references across papers
Loading...
Weilin Cai
Juyong Jiang
Fan Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Cai 等人(星期三)研究了这一问题。
www.synapsesocial.com/papers/68e634d1b6db6435875c670e — DOI: https://doi.org/10.48550/arxiv.2407.06204
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: