대규모 언어 모델(LLM)을 대규모 멀티모달 모델(LMM)로 확장하는 데 급속한 발전이 이루어지고 있다. 그러나 LLM의 입력 양식을 비디오 데이터로 확장하는 것은 특히 장시간 비디오의 경우 여전히 도전적인 과제이다. 대규모 고품질 비디오 데이터 접근의 부족과 시각적 특징의 과도한 압축으로 인해, 현재 방법들은 장시간 비디오를 효과적으로 처리하는 데 한계가 있다. 본 논문에서는 이러한 과제를 해결하는 강력한 비디오 LMM인 캥거루(Kangaroo)를 소개한다. 훈련 데이터 부족 문제에 대응하기 위해 시각-언어 사전학습 및 명령 튜닝을 위한 고품질 주석을 갖춘 대규모 데이터셋 구축을 위한 데이터 큐레이션 시스템을 개발하였다. 또한, 장시간 비디오에 적응하기 위해 점진적으로 해상도와 입력 프레임 수를 늘리는 커리큘럼 학습 파이프라인을 설계하였다. 평가 결과, 8B 파라미터 규모의 캥거루는 다양한 비디오 이해 벤치마크에서 최첨단 성능을 달성하면서도 다른 벤치마크에서는 경쟁력 있는 결과를 보인다. 특히, 장시간 비디오 전용 벤치마크에서는 10B 이상의 대형 모델 및 독점 모델을 능가하는 성과를 보인다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiajun Liu
Yibing Wang
Hanghang Ma
International Journal of Computer Vision
Building similarity graph...
Analyzing shared references across papers
Loading...
Liu 등(Mon,)은 이 질문을 연구하였다.
www.synapsesocial.com/papers/698be001058ab1890a13ba5e — DOI: https://doi.org/10.1007/s11263-025-02620-2
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: