Key points are not available for this paper at this time.
최근 연구는 변환기, 특히 선형 어텐션 모델이 순방향 추론 단계에서 컨텍스트 내에 제공된 데이터에 대해 암묵적으로 그래디언트 하강과 유사한 알고리즘을 실행한다는 것을 보여주었습니다. 그러나 이들이 더 복잡한 문제를 처리하는 능력은 아직 탐구되지 않았습니다. 본 논문에서는 모든 선형 변환기가 암묵적인 선형 모델을 유지하며 사전조건된 그래디언트 하강의 변형을 수행하는 것으로 해석될 수 있음을 증명합니다. 또한, 우리는 훈련 데이터가 다양한 수준의 노이즈로 손상된 도전적인 상황에서 선형 변환기의 사용도 조사합니다. 놀랍게도 본 문제에서 선형 변환기는 복잡하고 매우 효과적인 최적화 알고리즘을 발견하며, 많은 합리적인 기준선들과 성능면에서 능가하거나 맞먹는다는 것을 입증합니다. 우리는 이 알고리즘을 역공학하여 노이즈 수준에 따른 모멘텀과 적응적 재스케일링을 통합한 새로운 접근법임을 보여줍니다. 우리의 결과는 선형 변환기조차도 정교한 최적화 전략을 발견하는 놀라운 능력을 가지고 있음을 보여줍니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Max Vladymyrov
Johannes von Oswald
M. Sandler
Building similarity graph...
Analyzing shared references across papers
Loading...
Vladymyrov 등(Wed,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e785a2b6db6435876f7f02 — DOI: https://doi.org/10.48550/arxiv.2402.14180
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: