What type of study is this?

This is a Quantitative Study study.

October 10, 2025Open Access

多语言路由在混合专家模型中的应用

Key Points

MoE模型展示了不同语言的独特路由模式，显示了分层处理的细微差别。
中间层出现显著的跨语言路由对齐，与多语言性能表现相关。
增强中间层路由专家的干预措施提升了多语言任务性能1-2%，证明了有效策略。
研究结果表明，多语言性能受限于模型利用语言通用专家的能力。

Abstract

混合专家模型（MoE）架构已成为扩展现代大型语言模型（LLM）的关键，然而对于它们的稀疏路由动态如何响应多语言数据，目前了解甚少。在本研究中，我们利用平行多语言数据集分析专家路由模式，并呈现高度可解释的分层现象。我们发现MoE模型在早期和晚期解码器层中以语言特定方式路由令牌，但在中间层表现出显著的跨语言路由对齐，反映出在密集型LLM中观察到的参数共享趋势。特别地，我们揭示了模型在特定语言上的性能与这些层中其令牌与英语路由相似程度之间存在明确且强烈的相关性。超越相关性，我们探索了推理时干预措施以促进更高的跨语言路由对齐。我们提出了一种方法，通过促进中间层中在英语中频繁激活的任务专家来引导路由器，并成功提高了多语言性能。这些1-2%的提升在两项评估任务、三种模型和15种以上语言中表现出惊人的一致性，尤其考虑到这些简单的干预覆盖了经过广泛训练的最先进LLM的路由器。相比之下，非中间层的干预或针对多语言专用专家的干预仅导致性能下降。总体而言，我们展示了许多解释MoE如何处理非英语文本的发现，并证明模型在所有语言中利用语言通用专家的能力限制了其泛化能力。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Lucas Bandarkar

Changxi Yang

Mohsen Fayyaz

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

多语言路由在混合专家模型中的应用

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider