Key points are not available for this paper at this time.
대규모 언어 모델(LLM)의 최근 발전은 포괄적인 비디오 이해를 포함한 다중 모달 맥락으로 그 능력을 확장시켰습니다. 하지만 24시간 CCTV 영상이나 장편 영화처럼 방대한 비디오를 처리하는 것은 데이터 양과 처리 요구량으로 인해 상당한 어려움을 야기합니다. 주요 프레임 추출이나 프레임을 텍스트로 변환하는 전통적인 방법들은 종종 상당한 정보 손실을 초래합니다. 이러한 단점을 해결하기 위해, 우리는 OmAgent를 개발하였으며, 이는 특정 쿼리에 대해 관련 비디오 프레임을 효율적으로 저장하고 검색함으로써 비디오의 상세한 내용을 보존합니다. 또한, 쿼리 처리와 정확성을 향상시키기 위해 API와 도구를 동적으로 호출할 수 있는 자율 추론 기능을 갖춘 분할-정복 루프를 특징으로 합니다. 이 접근법은 정보 손실을 크게 줄이면서 견고한 비디오 이해를 보장합니다. 실험 결과는 OmAgent가 다양한 유형의 비디오와 복잡한 작업을 처리하는 데 효율적임을 확인시켜 줍니다. 더 나아가, 우리는 OmAgent에 더 높은 자율성 및 견고한 도구 호출 시스템을 부여하여 더욱 복잡한 작업 수행을 가능하게 하였습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Lu Zhang
Tiancheng Zhao
Heting Ying
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang 등(Mon,)이 이 문제를 연구하였습니다.
www.synapsesocial.com/papers/68e639e5b6db6435875cb7a4 — DOI: https://doi.org/10.48550/arxiv.2406.16620
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: