March 29, 2024Open Access

LLaVA-Gemma: 소형 언어 모델로 멀티모달 파운데이션 모델 가속화

Key Points

Key points are not available for this paper at this time.

Abstract

우리는 최근에 공개된 Gemma 계열 대형 언어 모델(LLMs)을 사용하여 인기 있는 LLaVA 프레임워크로 멀티모달 파운데이션 모델(MMFM) 군을 훈련시켰습니다. 특히 20억 매개변수의 Gemma 모델은 능력 있는 소규모 MMFM 구성을 위한 기회를 제공합니다. 이 분야의 다른 논문들과 일치하게, 우리는 세 가지 설계 특징의 제거 효과를 시험했습니다: 커넥터의 사전 훈련, 더 강력한 이미지 백본 활용, 그리고 언어 백본 크기 증가. 결과로 나온 모델들을 LLaVA-Gemma라고 부르며, 다양한 평가에서 중간 정도의 성능을 보이나 현재 동급 최고 수준(SOTA) 모델들을 넘지 못했습니다. 성능을 더 자세히 분석한 결과 혼재된 영향이 나타났습니다; 사전 훈련 생략은 성능 저하 경향을 보이고, 더 큰 비전 모델은 때때로 성능을 향상시키며, 언어 모델 크기 증가는 일관되지 않은 효과를 나타냈습니다. 우리는 LLaVA-Gemma 모델을 위한 훈련 레시피, 코드, 가중치를 공개합니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Musashi Hinck

Matthew Olson

David Cobbley

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LLaVA-Gemma: 소형 언어 모델로 멀티모달 파운데이션 모델 가속화

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider