June 24, 2024Open Access

OmAgent: 작업 분할-정복을 통한 복잡한 비디오 이해를 위한 다중 모달 에이전트 프레임워크

Key Points

Key points are not available for this paper at this time.

Abstract

대규모 언어 모델(LLM)의 최근 발전은 포괄적인 비디오 이해를 포함한 다중 모달 맥락으로 그 능력을 확장시켰습니다. 하지만 24시간 CCTV 영상이나 장편 영화처럼 방대한 비디오를 처리하는 것은 데이터 양과 처리 요구량으로 인해 상당한 어려움을 야기합니다. 주요 프레임 추출이나 프레임을 텍스트로 변환하는 전통적인 방법들은 종종 상당한 정보 손실을 초래합니다. 이러한 단점을 해결하기 위해, 우리는 OmAgent를 개발하였으며, 이는 특정 쿼리에 대해 관련 비디오 프레임을 효율적으로 저장하고 검색함으로써 비디오의 상세한 내용을 보존합니다. 또한, 쿼리 처리와 정확성을 향상시키기 위해 API와 도구를 동적으로 호출할 수 있는 자율 추론 기능을 갖춘 분할-정복 루프를 특징으로 합니다. 이 접근법은 정보 손실을 크게 줄이면서 견고한 비디오 이해를 보장합니다. 실험 결과는 OmAgent가 다양한 유형의 비디오와 복잡한 작업을 처리하는 데 효율적임을 확인시켜 줍니다. 더 나아가, 우리는 OmAgent에 더 높은 자율성 및 견고한 도구 호출 시스템을 부여하여 더욱 복잡한 작업 수행을 가능하게 하였습니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Lu Zhang

Tiancheng Zhao

Heting Ying

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

OmAgent: 작업 분할-정복을 통한 복잡한 비디오 이해를 위한 다중 모달 에이전트 프레임워크

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider