混合专家模型(MoE)架构已成为扩展现代大型语言模型(LLM)的关键,然而对于它们的稀疏路由动态如何响应多语言数据,目前了解甚少。在本研究中,我们利用平行多语言数据集分析专家路由模式,并呈现高度可解释的分层现象。我们发现MoE模型在早期和晚期解码器层中以语言特定方式路由令牌,但在中间层表现出显著的跨语言路由对齐,反映出在密集型LLM中观察到的参数共享趋势。特别地,我们揭示了模型在特定语言上的性能与这些层中其令牌与英语路由相似程度之间存在明确且强烈的相关性。超越相关性,我们探索了推理时干预措施以促进更高的跨语言路由对齐。我们提出了一种方法,通过促进中间层中在英语中频繁激活的任务专家来引导路由器,并成功提高了多语言性能。这些1-2%的提升在两项评估任务、三种模型和15种以上语言中表现出惊人的一致性,尤其考虑到这些简单的干预覆盖了经过广泛训练的最先进LLM的路由器。相比之下,非中间层的干预或针对多语言专用专家的干预仅导致性能下降。总体而言,我们展示了许多解释MoE如何处理非英语文本的发现,并证明模型在所有语言中利用语言通用专家的能力限制了其泛化能力。
Building similarity graph...
Analyzing shared references across papers
Loading...
Lucas Bandarkar
Changxi Yang
Mohsen Fayyaz
Building similarity graph...
Analyzing shared references across papers
Loading...
Bandarkar等人(Mon,)研究了这一问题。
www.synapsesocial.com/papers/68e997abe14057276da7f1e9 — DOI: https://doi.org/10.48550/arxiv.2510.04694
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: