March 24, 2024Open Access

주의를 재고하다: 트랜스포머의 어텐션 레이어 대안으로서 얕은 피드포워드 신경망 탐구 (학생 초록)

Key Points

Key points are not available for this paper at this time.

Abstract

본 연구는 최첨단 시퀀스-투-시퀀스 과제 아키텍처인 원본 Transformer 모델에서 어텐션 메커니즘의 동작을 모방하기 위해 표준 얕은 피드포워드 네트워크를 사용하는 효과성을 분석한다. 우리는 Transformer의 어텐션 메커니즘 핵심 요소를 단순한 피드포워드 네트워크로 대체하며, 원본 구성 요소를 활용한 지식 증류 기법으로 훈련한다. IWSLT2017 데이터셋에서 수행한 실험은 이러한 '어텐션 없는 트랜스포머'가 원본 아키텍처의 성능과 필적할 수 있음을 보여준다. 엄격한 삭제 연구와 다양한 교체 네트워크 유형 및 크기 실험을 통해 우리의 접근 방식의 실행 가능성을 뒷받침하는 통찰을 제공한다. 이는 얕은 피드포워드 네트워크가 어텐션 메커니즘을 모방하는 적응성뿐만 아니라 시퀀스-투-시퀀스 과제를 위한 복잡한 아키텍처를 간소화할 잠재력을 강조한다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Danilo Dordevic

Vukasin Bozic

Joseph Thommes

Actions

Institutions

ETH Zurich

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

주의를 재고하다: 트랜스포머의 어텐션 레이어 대안으로서 얕은 피드포워드 신경망 탐구 (학생 초록)

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study