Key points are not available for this paper at this time.
트랜스포머의 등장으로 시퀀스 모델링에 있어 GPU 병렬처리를 활용할 수 있는 매우 성능이 뛰어난 아키텍처의 획기적인 발전이 이루어졌습니다. 그러나 트랜스포머는 추론 시 계산 비용이 높아 특히 저자원 환경(예: 모바일 및 임베디드 기기)에서의 적용이 제한됩니다. 이를 해결하기 위해, (1) 어텐션을 특수한 형태의 순환 신경망(RNN)으로 볼 수 있으며, 다대일 RNN 출력을 효율적으로 계산할 수 있음을 보였습니다. 이어서 (2) 트랜스포머와 같은 인기 있는 어텐션 기반 모델들이 RNN 변형으로 간주될 수 있음을 보여주었습니다. 그러나 전통적인 RNN(예: LSTM)과 달리 이러한 모델들은 새로운 토큰으로 효율적으로 업데이트될 수 없는데, 이는 시퀀스 모델링에서 중요한 특성입니다. 이를 해결하기 위해, (3) 병렬 프리픽스 스캔 알고리즘을 기반으로 어텐션의 다대다 RNN 출력을 효율적으로 계산하는 새로운 방법을 도입했습니다. 새로운 어텐션 공식에 기반해, (4) 병렬 학습(트랜스포머처럼)이 가능하면서도 새로운 토큰으로 효율적으로 업데이트될 수 있고 추론 시에는 상수 메모리만 요구하는 전통적인 RNN과 같은 특성을 가진 어텐션 기반 모듈인 Aaren을 소개합니다. 실험적으로, Aaren은 강화 학습, 이벤트 예측, 시계열 분류 및 시계열 예측 등 네 가지 인기 있는 순차 문제 설정에 걸친 38개 데이터셋에서 트랜스포머와 비슷한 성능을 보이며 시간 및 메모리 효율성도 높음을 증명했습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Leo Feng
Frederick Tung
Hossein Hajimirsadeghi
Building similarity graph...
Analyzing shared references across papers
Loading...
Feng 등(수요일,)이 이 질문을 연구하였습니다.
www.synapsesocial.com/papers/68e68e7db6db643587615cc0 — DOI: https://doi.org/10.48550/arxiv.2405.13956