What question did this study set out to answer?

장기 문맥 비디오를 효과적으로 처리할 수 있는 비디오 LMM인 캥거루를 개발하는 것이 목표이다.

February 11, 2026

캥거루: 장기 문맥 비디오 입력을 지원하는 강력한 비디오-언어 모델

Key Points

장기 문맥 비디오를 효과적으로 처리할 수 있는 비디오 LMM인 캥거루를 개발하는 것이 목표이다.
고품질 주석을 위한 데이터 큐레이션 시스템을 개발하였다.
시각-언어 사전학습을 위한 대규모 데이터셋을 구축하였다.
장시간 비디오 처리를 위한 커리큘럼 학습 파이프라인을 설계하였다.
캥거루는 비디오 이해 벤치마크 전반에서 최첨단 성능을 달성하였다.
장시간 비디오 작업에서 더 큰 모델 및 독점 모델과 비교해 우수한 성과를 보였다.

Abstract

대규모 언어 모델(LLM)을 대규모 멀티모달 모델(LMM)로 확장하는 데 급속한 발전이 이루어지고 있다. 그러나 LLM의 입력 양식을 비디오 데이터로 확장하는 것은 특히 장시간 비디오의 경우 여전히 도전적인 과제이다. 대규모 고품질 비디오 데이터 접근의 부족과 시각적 특징의 과도한 압축으로 인해, 현재 방법들은 장시간 비디오를 효과적으로 처리하는 데 한계가 있다. 본 논문에서는 이러한 과제를 해결하는 강력한 비디오 LMM인 캥거루(Kangaroo)를 소개한다. 훈련 데이터 부족 문제에 대응하기 위해 시각-언어 사전학습 및 명령 튜닝을 위한 고품질 주석을 갖춘 대규모 데이터셋 구축을 위한 데이터 큐레이션 시스템을 개발하였다. 또한, 장시간 비디오에 적응하기 위해 점진적으로 해상도와 입력 프레임 수를 늘리는 커리큘럼 학습 파이프라인을 설계하였다. 평가 결과, 8B 파라미터 규모의 캥거루는 다양한 비디오 이해 벤치마크에서 최첨단 성능을 달성하면서도 다른 벤치마크에서는 경쟁력 있는 결과를 보인다. 특히, 장시간 비디오 전용 벤치마크에서는 10B 이상의 대형 모델 및 독점 모델을 능가하는 성과를 보인다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jiajun Liu

Yibing Wang

Hanghang Ma

Journals

International Journal of Computer Vision

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

캥거루: 장기 문맥 비디오 입력을 지원하는 강력한 비디오-언어 모델

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider