Key points are not available for this paper at this time.
대규모 시각 및 언어 표현 학습은 다양한 시각-언어 과제에서 유망한 향상을 보여주고 있습니다. 기존 대부분의 방법들은 비주얼 토큰(영역 기반 이미지 특징)과 단어 토큰을 공동으로 모델링하기 위해 트랜스포머 기반의 다중모달 인코더를 사용합니다. 비주얼 토큰과 단어 토큰이 정렬되지 않아 다중모달 인코더가 이미지-텍스트 상호작용을 학습하기 어려운 문제가 있습니다. 본 논문에서는 대조 손실을 도입해 교차 모달 어텐션을 통해 이미지와 텍스트 표현을 조합하기 전에 정렬(ALign before Fusing, ALBEF)하여 보다 견고한 시각 및 언어 표현 학습을 가능하게 합니다. 대부분의 기존 방법과 달리 본 방법은 경계 상자 주석이나 고해상도 이미지를 요구하지 않습니다. 노이즈가 포함된 웹 데이터를 효율적으로 학습하기 위해 모멘텀 증류라는 자기학습 방법을 제안하는데, 이는 모멘텀 모델이 생성한 의사 타겟으로부터 학습합니다. 상호 정보 최대화 관점에서 ALBEF에 대한 이론적 분석을 제공하며, 서로 다른 학습 태스크들이 이미지-텍스트 쌍에 대해 서로 다른 뷰(view)를 생성하는 방식으로 해석될 수 있음을 보여줍니다. ALBEF는 여러 다운스트림 시각-언어 과제에서 최첨단 성능을 달성합니다. 이미지-텍스트 검색에서는 훨씬 큰 규모로 사전학습된 방법들을 능가합니다. VQA와 NLVR²에서는 각각 최첨단 대비 2.37%, 3.84%의 절대 성능 향상을 보이며 더 빠른 추론 속도를 자랑합니다. 코드와 사전학습 모델은 https://github.com/salesforce/ALBEF/ 에서 확인할 수 있습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Junnan Li
Ramprasaath R. Selvaraju
Akhilesh Deepak Gotmare
Building similarity graph...
Analyzing shared references across papers
Loading...
Li 등 (금요일,) 이 질문을 연구했습니다.
www.synapsesocial.com/papers/6a08f29f720b08f65a5b8fd2 — DOI: https://doi.org/10.48550/arxiv.2107.07651
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: