June 11, 2024Open Access

自注意力神经网络的动力学平均场理论

Key Points

Key points are not available for this paper at this time.

Abstract

基于Transformer的模型在多个领域表现出卓越性能，已成为解决序列机器学习问题的最先进方案。尽管我们对Transformer架构的基本组成有大致了解，但对其运行机制及预期动力学知之甚少。近年来，探究注意力机制与Hopfield网络之间关系的兴趣日益增长，这有望揭示Transformer网络的统计物理特性。然而，迄今为止，类似Transformer模型的动力学状态尚未被深入研究。在本文中，我们通过研究非平衡态非对称Hopfield网络的方法——即基于生成泛函的路径积分方法——以获取由并行平均场变量支配的动力学，填补了这一空白。假设1位令牌和权重，我们推导出了与softmax输出耦合的大型自注意力神经网络行为的解析近似，并且该解析在大规模极限时精确。我们的发现揭示了非平凡的动力学现象，包括与混沌分叉相关的非平衡相变，即使在仅编码少数特征和极短上下文窗口的简单配置中亦是如此。最后，我们讨论了该解析方法在深化Transformer模型内部机制理解上的潜力，有望降低计算训练成本并提升模型可解释性。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ángel Poc-López

Miguel Aguilera

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

自注意力神经网络的动力学平均场理论

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study