July 20, 2024Open Access

비디오-텍스트 LLM의 향상된 정합을 위한 시청각 훈련

Key Points

Key points are not available for this paper at this time.

Abstract

최근 멀티모달 LLM의 발전으로 인해 중요한 비디오 관련 작업을 위한 여러 비디오-텍스트 모델이 제안되었습니다. 그러나 이전 연구 대부분은 시각 입력만 지원하여 본질적으로 비디오 내 오디오 신호를 무시하고 있습니다. 오디오와 시각 입력을 모두 지원하는 모델은 소수에 불과하며, 명시적으로 오디오 데이터에 대해 훈련된 경우는 드뭅니다. 따라서 비디오 이해에서 오디오의 영향은 대부분 탐구되지 않았습니다. 이에, 우리는 시청각 입력을 명시적으로 처리하는 모델 아키텍처를 제안합니다. 본 모델은 비디오 지침 튜닝 데이터셋의 오디오 및 시각 데이터를 모두 사용하여 훈련하였습니다. 시각 전용 기준선 및 다른 시청각 모델과의 비교 결과, 오디오 데이터 학습이 응답의 정합 향상으로 이어짐을 보여줍니다. 또한 시청각 모델의 보다 나은 평가를 위해 오디오 인지 질문-응답 쌍을 포함한 인간 주석 벤치마크 데이터셋도 공개합니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shivprasad Rajendra Sagare

S Hemachandran

Kinshuk Sarabhai

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

비디오-텍스트 LLM의 향상된 정합을 위한 시청각 훈련

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider