July 28, 2024Open Access

LLAVADI: 다중모달 대형 언어 모델 증류에서 중요한 요소

Key Points

Key points are not available for this paper at this time.

Abstract

최근 다중모달 대형 언어 모델(MLLM)의 급증은 시각적 이해를 대형 언어 모델에 통합함으로써 일반화된 지능을 달성하는 데 큰 잠재력을 보여주었습니다. 그럼에도 불구하고 MLLM의 거대한 모델 크기는 메모리와 계산 요구량을 크게 증가시켜 광범위한 배포를 방해합니다. 본 연구에서는 새로운 효율적인 모델 구조를 제안하거나 소규모 MLLM을 처음부터 학습하지 않습니다. 대신, 다중모달 증류 관점에서 첫 단계인 지식 증류를 통해 소규모 MLLM 학습에서 중요한 점에 집중합니다. 우리의 광범위한 연구는 학습 전략, 모델 선택 및 지식 증류 과정의 증류 알고리즘을 포함합니다. 결과는 토큰과 로짓 정렬의 공동 정렬이 교사-학생 프레임워크에서 중요한 역할을 한다는 것을 보여줍니다. 또한 본 연구에서 일련의 흥미로운 관찰을 도출했습니다. 다양한 벤치마크와 적절한 전략 평가를 통해 2.7B 소규모 모델도 7B 또는 13B 파라미터를 가진 더 큰 모델과 동등한 성능을 낼 수 있습니다. 우리의 코드와 모델은 추가 연구를 위해 공개될 예정입니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shilin Xu

Xiangtai Li

Haobo Yuan

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LLAVADI: 다중모달 대형 언어 모델 증류에서 중요한 요소

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider