Key points are not available for this paper at this time.
현대의 비전 트랜스포머는 원래 ViT에서 사용된 전역 주의와 달리, 창(window)이나 격자(grid) 영역 내에서 계산된 주의를 통해 픽셀 간의 시각적으로 영감을 받은 지역 상호작용을 활용합니다. 지역 주의는 픽셀 상호작용을 특정 영역 내로 제한하는 반면, 희소 주의는 희소한 격자 전반에 분산시킵니다. 이러한 서로 다른 접근법은 계층적 관계 유지와 전역 문맥 캡처 간의 도전을 제기합니다. 본 연구에서는 atrous convolution에서 영감을 받아, 지역적 정보와 전역적 정보를 동적으로 통합하면서 계층적 구조를 유지하는 지역 주의와 희소 주의의 혼합인 Atrous Attention을 제안합니다. 이를 바탕으로 표준 비전 과제에 맞춘 다용도 하이브리드 비전 트랜스포머 백본인 ACC-ViT를 소개합니다. 우리의 컴팩트 모델은 2,850만 개 미만의 파라미터로 ImageNet-1K에서 약 84% 정확도를 달성하며, 최첨단 MaxViT보다 0.42% 높은 성능을 보이면서 8.4% 적은 파라미터 수를 요구합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Nabil Ibtehaz
Ning Yan
Masood Mortazavi
Building similarity graph...
Analyzing shared references across papers
Loading...
Ibtehaz 등(목요일)은 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e64e8bb6db6435875df26b — DOI: https://doi.org/10.48550/arxiv.2406.08859
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: