What type of study is this?

This is a Quantitative Study study.

October 20, 2025Open Access

短程依赖对Transformer不稳定性的影响及一种分解注意力的解决方案

Key Points

长短注意力减少了transformer训练的不稳定性，在语言建模任务中实现了更低的困惑度。
经验比较显示，LS-attention在使用显著更少计算资源的情况下，达到与替代方法相似的验证困惑度。
引入分解注意力允许推理延迟降低最多36%，提升整体效率。
该方法强调了捕获短程依赖的重要性，特别是在提升自然语言处理中的transformer性能方面。

Abstract

Transformer语言模型推动了多个领域的显著进展，包括自然语言处理和计算机视觉。这些模型的核心组件是自注意力（SA）机制，通过建模序列中标记与其他标记之间的关系，学习丰富的标记向量表示。然而，尽管研究广泛，transformer训练仍存在不稳定性——通常表现为训练过程中训练损失的突变或发散。在本工作中，我们确定了这种不稳定性的一个来源：SA捕捉短程依赖的能力有限，特别是在语言建模等任务中，几乎每个标记都高度依赖其邻近的标记。这种限制导致SA的预softmax logits快速增长，从而使训练不稳定。为了解决这一问题，我们提出将SA分解为局部（短程）和全局（长程）注意力头。该分解注意力称为长短注意力（LS-attention），减缓了logits爆炸，与等效的多头自注意力（MHSA）相比，实现了更稳定的训练。与两种替代训练稳定方法的经验比较表明，LS-attention将验证困惑度降低至其中一种方法的约2/5，并仅用1/20的GPU小时数达到另一种方法的相似困惑度。此外，我们的实验还表明，与等效MHSA的最新实现相比，LS-attention将推理延迟最多减少了36%。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Suvadeep Hajra

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

短程依赖对Transformer不稳定性的影响及一种分解注意力的解决方案

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider