Key points are not available for this paper at this time.
우리는 최근에 공개된 Gemma 계열 대형 언어 모델(LLMs)을 사용하여 인기 있는 LLaVA 프레임워크로 멀티모달 파운데이션 모델(MMFM) 군을 훈련시켰습니다. 특히 20억 매개변수의 Gemma 모델은 능력 있는 소규모 MMFM 구성을 위한 기회를 제공합니다. 이 분야의 다른 논문들과 일치하게, 우리는 세 가지 설계 특징의 제거 효과를 시험했습니다: 커넥터의 사전 훈련, 더 강력한 이미지 백본 활용, 그리고 언어 백본 크기 증가. 결과로 나온 모델들을 LLaVA-Gemma라고 부르며, 다양한 평가에서 중간 정도의 성능을 보이나 현재 동급 최고 수준(SOTA) 모델들을 넘지 못했습니다. 성능을 더 자세히 분석한 결과 혼재된 영향이 나타났습니다; 사전 훈련 생략은 성능 저하 경향을 보이고, 더 큰 비전 모델은 때때로 성능을 향상시키며, 언어 모델 크기 증가는 일관되지 않은 효과를 나타냈습니다. 우리는 LLaVA-Gemma 모델을 위한 훈련 레시피, 코드, 가중치를 공개합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Musashi Hinck
Matthew Olson
David Cobbley
Building similarity graph...
Analyzing shared references across papers
Loading...
Hinck 등(Fri,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e71cc2b6db6435876969df — DOI: https://doi.org/10.48550/arxiv.2404.01331
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: