Transformer语言模型推动了多个领域的显著进展,包括自然语言处理和计算机视觉。这些模型的核心组件是自注意力(SA)机制,通过建模序列中标记与其他标记之间的关系,学习丰富的标记向量表示。然而,尽管研究广泛,transformer训练仍存在不稳定性——通常表现为训练过程中训练损失的突变或发散。在本工作中,我们确定了这种不稳定性的一个来源:SA捕捉短程依赖的能力有限,特别是在语言建模等任务中,几乎每个标记都高度依赖其邻近的标记。这种限制导致SA的预softmax logits快速增长,从而使训练不稳定。为了解决这一问题,我们提出将SA分解为局部(短程)和全局(长程)注意力头。该分解注意力称为长短注意力(LS-attention),减缓了logits爆炸,与等效的多头自注意力(MHSA)相比,实现了更稳定的训练。与两种替代训练稳定方法的经验比较表明,LS-attention将验证困惑度降低至其中一种方法的约2/5,并仅用1/20的GPU小时数达到另一种方法的相似困惑度。此外,我们的实验还表明,与等效MHSA的最新实现相比,LS-attention将推理延迟最多减少了36%。
Building similarity graph...
Analyzing shared references across papers
Loading...
Suvadeep Hajra
Building similarity graph...
Analyzing shared references across papers
Loading...
Suvadeep Hajra(周三)研究了这一问题。
www.synapsesocial.com/papers/68f5c338e2d8b12842645b42 — DOI: https://doi.org/10.48550/arxiv.2505.15548
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: