Key points are not available for this paper at this time.
최근 멀티모달 LLM의 발전으로 인해 중요한 비디오 관련 작업을 위한 여러 비디오-텍스트 모델이 제안되었습니다. 그러나 이전 연구 대부분은 시각 입력만 지원하여 본질적으로 비디오 내 오디오 신호를 무시하고 있습니다. 오디오와 시각 입력을 모두 지원하는 모델은 소수에 불과하며, 명시적으로 오디오 데이터에 대해 훈련된 경우는 드뭅니다. 따라서 비디오 이해에서 오디오의 영향은 대부분 탐구되지 않았습니다. 이에, 우리는 시청각 입력을 명시적으로 처리하는 모델 아키텍처를 제안합니다. 본 모델은 비디오 지침 튜닝 데이터셋의 오디오 및 시각 데이터를 모두 사용하여 훈련하였습니다. 시각 전용 기준선 및 다른 시청각 모델과의 비교 결과, 오디오 데이터 학습이 응답의 정합 향상으로 이어짐을 보여줍니다. 또한 시청각 모델의 보다 나은 평가를 위해 오디오 인지 질문-응답 쌍을 포함한 인간 주석 벤치마크 데이터셋도 공개합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shivprasad Rajendra Sagare
S Hemachandran
Kinshuk Sarabhai
Building similarity graph...
Analyzing shared references across papers
Loading...
Sagare 등(Sat,)이 이 질문을 연구하였습니다.
www.synapsesocial.com/papers/68e5fa6bb6db64358758ee9a — DOI: https://doi.org/10.48550/arxiv.2407.15046
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: