June 1, 2024Open Access

비전 트랜스포머 단계별로 적은 주의만 필요하다

Key Points

Key points are not available for this paper at this time.

Abstract

비전 트랜스포머(ViTs)의 등장은 컴퓨터 비전 분야에서 상당한 패러다임 변화를 의미합니다. ViTs는 패치화된 이미지 토큰들 간에 점곱 계산을 수행하는 자기 주의 모듈을 통해 이미지의 전역 정보를 포착합니다. 자기 주의 모듈이 ViTs로 하여금 장거리 의존성을 포착할 수 있게 하지만, 계산 복잡도가 토큰 수에 따라 제곱으로 증가하여 ViTs의 실용적 적용에 큰 장애가 됩니다. 더불어, 깊은 ViTs의 자기 주의 메커니즘은 주의 포화(attention saturation) 문제에도 취약합니다. 이에 우리는 모든 층에서 주의 점수를 계산할 필요성을 반박하며, 각 단계별로 적은 수의 주의 연산만 수행하고 이전에 계산된 주의 점수를 활용한 주의 변환(attention transformations)을 통해 후속 피처 정렬을 계산하는 Less-Attention Vision Transformer (LaViT)를 제안합니다. 이 새로운 접근법은 기존 자기 주의 모듈이 겪는 두 가지 주요 문제인 과도한 계산 부담과 주의 포화 문제를 완화할 수 있습니다. 제안된 아키텍처는 현대 딥러닝 프레임워크에서 고도로 최적화된 행렬 곱셈만을 필요로 하여 뛰어난 효율성과 구현 용이성을 제공합니다. 또한, 분류, 검출, 분할을 포함한 다양한 비전 과제에서 탁월한 성능을 보여줍니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shuoxi Zhang

Hanpeng Liu

Stephen Lin

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

비전 트랜스포머 단계별로 적은 주의만 필요하다

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider