Key points are not available for this paper at this time.
基于Transformer的模型在多个领域表现出卓越性能,已成为解决序列机器学习问题的最先进方案。尽管我们对Transformer架构的基本组成有大致了解,但对其运行机制及预期动力学知之甚少。近年来,探究注意力机制与Hopfield网络之间关系的兴趣日益增长,这有望揭示Transformer网络的统计物理特性。然而,迄今为止,类似Transformer模型的动力学状态尚未被深入研究。在本文中,我们通过研究非平衡态非对称Hopfield网络的方法——即基于生成泛函的路径积分方法——以获取由并行平均场变量支配的动力学,填补了这一空白。假设1位令牌和权重,我们推导出了与softmax输出耦合的大型自注意力神经网络行为的解析近似,并且该解析在大规模极限时精确。我们的发现揭示了非平凡的动力学现象,包括与混沌分叉相关的非平衡相变,即使在仅编码少数特征和极短上下文窗口的简单配置中亦是如此。最后,我们讨论了该解析方法在深化Transformer模型内部机制理解上的潜力,有望降低计算训练成本并提升模型可解释性。
Building similarity graph...
Analyzing shared references across papers
Loading...
Ángel Poc-López
Miguel Aguilera
Building similarity graph...
Analyzing shared references across papers
Loading...
Poc-López等人(Tuesday)研究了该问题。
www.synapsesocial.com/papers/68e65555b6db6435875e49af — DOI: https://doi.org/10.48550/arxiv.2406.07247