Key points are not available for this paper at this time.
최근 몇 년 동안, 변환기 네트워크는 글로벌 수용 필드와 입력에 대한 적응성 덕분에 컴퓨터 비전 분야에서 순수 합성곱 신경망(CNN)을 대체하기 시작하고 있습니다. 그러나 소프트맥스 주의의 제곱 복잡성은 이미지 디헤이징 작업, 특히 고해상도 이미지에서의 광범위한 적용을 제한합니다. 이 문제를 해결하기 위해, 우리는 소프트맥스 주의를 근사하기 위해 테일러 급수를 적용하고 선형 계산 복잡성을 달성하는 새로운 변환기 변형을 제안합니다. 우리는 테일러 급수의 오류를 수정하기 위한 보완으로 다중 스케일 주의 정제 모듈을 제안합니다. 더욱이, 제안된 변환기에 다중 스케일 패치 임베딩을 사용하는 다중 분기 아키텍처를 도입하여 서로 다른 스케일의 변형 가능한 합성곱을 통해 특징을 중첩하여 임베딩합니다. 다중 스케일 패치 임베딩의 설계는 세 가지 핵심 아이디어를 기반으로 합니다: 1) 다양한 크기의 수용 필드; 2) 다중 수준의 의미 정보; 3) 유연한 수용 필드 형태. 우리의 모델, 즉 테일러 공식을 통해 확장된 다중 분기 변환기(MB-TaylorFormer)는 패치 임베딩 단계에서 거친 특징에서 세밀한 특징까지 더 유연하게 임베드하고 제한된 계산 비용으로 장거리 픽셀 상호작용을 캡처할 수 있습니다. 여러 디헤이징 벤치마크에 대한 실험 결과는 MB-TaylorFormer가 가벼운 계산 부담으로 최신 성능(SOTA)을 달성한다는 것을 보여줍니다. 소스 코드 및 사전 훈련된 모델은 https://github.com/FVL2020/ICCV-2023-MB-TaylorFormer에서 사용할 수 있습니다.
Qiu et al. (Sun,)는 이 질문을 연구했습니다.