March 15, 2024Open Access

효율적인 비전 트랜스포머를 위한 다중 기준 토큰 융합과 한 단계 앞선 어텐션

Key Points

Key points are not available for this paper at this time.

Abstract

비전 트랜스포머(ViT)는 컴퓨터 비전의 주요 백본으로 부상했습니다. 보다 효율적인 ViT를 위해 최근 연구들은 중복 토큰을 가지치기하거나 융합하여 자기어텐션 계층의 이차 비용을 줄이고자 했습니다. 그러나 이들 연구는 정보 손실로 인한 속도와 정확도의 상충 문제에 직면했습니다. 본 논문에서는 토큰 융합이 정보 손실을 최소화하기 위해 토큰 간 다양한 관계를 고려해야 한다고 주장합니다. 이에 우리는 다중 기준(예: 유사도, 정보성, 융합된 토큰 크기)에 기반하여 점진적으로 토큰을 융합하는 다중 기준 토큰 융합(MCTF)을 제안합니다. 또한 토큰의 정보성을 포착하는 향상된 방법인 한 단계 앞선 어텐션(one-step-ahead attention)을 활용합니다. MCTF를 장착한 모델을 토큰 감소 일관성을 이용해 학습시킴으로써 이미지 분류(ImageNet1K)에서 최상의 속도-정확도 균형을 달성합니다. 실험 결과 MCTF는 학습 유무에 관계없이 기존 감소 방법들을 꾸준히 능가함을 입증합니다. 특히, DeiT-T 및 DeiT-S에 MCTF를 적용할 경우, 기본 모델 대비 FLOPs를 약 44% 절감하면서 성능은 각각 +0.5%, +0.3% 향상됩니다. 또한 MCTF가 다양한 비전 트랜스포머(예: T2T-ViT, LV-ViT)에서 성능 저하 없이 최소 31%의 속도 향상을 달성함을 보였습니다. 코드 및 자세한 내용은 https://github.com/mlvlab/MCTF 에서 확인할 수 있습니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Sanghyeok Lee

Joonmyung Choi

Hyunwoo J. Kim

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

효율적인 비전 트랜스포머를 위한 다중 기준 토큰 융합과 한 단계 앞선 어텐션

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider