March 5, 2024Open Access

트랜스포머가 인컨텍스트 뉴턴 방법을 얼마나 잘 모방할 수 있을까?

Key Points

Key points are not available for this paper at this time.

Abstract

트랜스포머 기반 모델들은 뛰어난 인컨텍스트 학습 능력을 보여주었으며, 이에 대한 근본적인 메커니즘에 대한 광범위한 연구가 이루어지고 있다. 최근 연구들은 트랜스포머가 인컨텍스트 학습을 위해 1차 최적화 알고리즘을 구현할 수 있으며, 선형 회귀의 경우 2차 최적화 알고리즘도 구현할 수 있음을 제시했다. 본 연구에서는 트랜스포머가 선형 회귀를 넘어서 더 높은 차수의 최적화 방법을 수행할 수 있는지를 살펴본다. 우리는 ReLU 층을 갖는 선형 어텐션 트랜스포머가 로지스틱 회귀 과제에 대해 2차 최적화 알고리즘을 근사할 수 있으며, 오차에 대해 로그함수적으로 더 많은 층만으로도 달성할 수 있음을 입증한다. 부수적으로, 선형 어텐션 전용 트랜스포머조차도 단 2개 층으로 행렬 역전의 단일 뉴턴 이터레이션 단계를 구현할 수 있음을 보여준다. 이러한 결과는 트랜스포머 아키텍처가 경사 하강법을 넘어 복잡한 알고리즘을 구현할 수 있는 능력을 시사한다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Angeliki Giannou

Yang Liu

Tianhao Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

트랜스포머가 인컨텍스트 뉴턴 방법을 얼마나 잘 모방할 수 있을까?

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider