June 13, 2024Open Access

Vision Transformers에서 지역 및 희소 주의의 융합

Key Points

Key points are not available for this paper at this time.

Abstract

현대의 비전 트랜스포머는 원래 ViT에서 사용된 전역 주의와 달리, 창(window)이나 격자(grid) 영역 내에서 계산된 주의를 통해 픽셀 간의 시각적으로 영감을 받은 지역 상호작용을 활용합니다. 지역 주의는 픽셀 상호작용을 특정 영역 내로 제한하는 반면, 희소 주의는 희소한 격자 전반에 분산시킵니다. 이러한 서로 다른 접근법은 계층적 관계 유지와 전역 문맥 캡처 간의 도전을 제기합니다. 본 연구에서는 atrous convolution에서 영감을 받아, 지역적 정보와 전역적 정보를 동적으로 통합하면서 계층적 구조를 유지하는 지역 주의와 희소 주의의 혼합인 Atrous Attention을 제안합니다. 이를 바탕으로 표준 비전 과제에 맞춘 다용도 하이브리드 비전 트랜스포머 백본인 ACC-ViT를 소개합니다. 우리의 컴팩트 모델은 2,850만 개 미만의 파라미터로 ImageNet-1K에서 약 84% 정확도를 달성하며, 최첨단 MaxViT보다 0.42% 높은 성능을 보이면서 8.4% 적은 파라미터 수를 요구합니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Nabil Ibtehaz

Ning Yan

Masood Mortazavi

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Vision Transformers에서 지역 및 희소 주의의 융합

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider