June 18, 2024Open Access

시각 질문 응답을 위한 학습 가능한 인-컨텍스트 벡터

Key Points

Key points are not available for this paper at this time.

Abstract

언어 모델이 지속적으로 확장됨에 따라, 대형 언어 모델(LLMs)은 인-컨텍스트 학습(ICL)에서 새로운 능력을 보여주고 있으며, 소수의 인-컨텍스트 시연(ICDs)을 프리픽스로 사용하여 언어 과제를 해결할 수 있습니다. 이러한 발전에 영감을 받아 연구자들은 이러한 기법을 확장하여 ICL 기능을 갖춘 대형 다중모달 모델(LMMs)을 개발했습니다. 그러나 ICL을 적용할 때는 보통 두 가지 주요 과제가 있습니다: 1) 더 많은 ICD를 사용할수록 추론 시간이 크게 증가하고 2) 성능이 ICD 선택에 민감합니다. 이러한 문제는 다중 데이터 유형 통합과 다중모달 ICD의 조합 복잡성 때문에 LMM에서 더욱 심화됩니다. 최근 이러한 문제를 해결하기 위해 일부 NLP 연구에서는 비학습 가능한 인-컨텍스트 벡터(ICVs)를 도입하여 ICD에서 유용한 작업 정보를 단일 벡터로 추출한 후 이를 LLM에 삽입하여 해당 작업 해결을 돕습니다. 그러나 간단한 NLP 과제에서는 유용하나, 이러한 비학습 가능한 방법들은 시각 질문 응답(VQA)과 같은 복잡한 다중모달 과제 처리에는 실패합니다. 본 연구에서는 시연에서 필수 작업 정보를 추출하여 LMM의 ICL 성능을 향상시키는 학습 가능한 ICV(L-ICV)를 제안합니다. 실험 결과, L-ICV는 기존 ICL 및 기타 비학습 가능한 ICV 방법에 비해 VQA 과제에서 계산 비용을 크게 줄이면서 정확도를 향상시킴을 보여줍니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yingzhe Peng

Chenduo Hao

Xu Yang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

시각 질문 응답을 위한 학습 가능한 인-컨텍스트 벡터

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider