Key points are not available for this paper at this time.
비전 트랜스포머(ViT)는 컴퓨터 비전의 주요 백본으로 부상했습니다. 보다 효율적인 ViT를 위해 최근 연구들은 중복 토큰을 가지치기하거나 융합하여 자기어텐션 계층의 이차 비용을 줄이고자 했습니다. 그러나 이들 연구는 정보 손실로 인한 속도와 정확도의 상충 문제에 직면했습니다. 본 논문에서는 토큰 융합이 정보 손실을 최소화하기 위해 토큰 간 다양한 관계를 고려해야 한다고 주장합니다. 이에 우리는 다중 기준(예: 유사도, 정보성, 융합된 토큰 크기)에 기반하여 점진적으로 토큰을 융합하는 다중 기준 토큰 융합(MCTF)을 제안합니다. 또한 토큰의 정보성을 포착하는 향상된 방법인 한 단계 앞선 어텐션(one-step-ahead attention)을 활용합니다. MCTF를 장착한 모델을 토큰 감소 일관성을 이용해 학습시킴으로써 이미지 분류(ImageNet1K)에서 최상의 속도-정확도 균형을 달성합니다. 실험 결과 MCTF는 학습 유무에 관계없이 기존 감소 방법들을 꾸준히 능가함을 입증합니다. 특히, DeiT-T 및 DeiT-S에 MCTF를 적용할 경우, 기본 모델 대비 FLOPs를 약 44% 절감하면서 성능은 각각 +0.5%, +0.3% 향상됩니다. 또한 MCTF가 다양한 비전 트랜스포머(예: T2T-ViT, LV-ViT)에서 성능 저하 없이 최소 31%의 속도 향상을 달성함을 보였습니다. 코드 및 자세한 내용은 https://github.com/mlvlab/MCTF 에서 확인할 수 있습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Sanghyeok Lee
Joonmyung Choi
Hyunwoo J. Kim
Building similarity graph...
Analyzing shared references across papers
Loading...
Lee 등(금요일,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e73ed6b6db6435876b8686 — DOI: https://doi.org/10.48550/arxiv.2403.10030
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: