September 27, 2025Open Access

MM-BrowseComp: 다중모달 브라우징 에이전트를 위한 종합 벤치마크

Key Points

에이전트는 MM-BrowseComp에서 29.02%의 정확도만을 기록하여 다중모달 추론 능력의 약점을 드러냈습니다.
이 벤치마크는 이미지와 비디오를 포함하는 다중모달 평가를 위해 설계된 224개의 고유 질문을 포함합니다.
평가는 수작업으로 제작된 질문을 이용하며, 추론 의존성에 대한 세부 분석을 위한 체크리스트를 제공합니다.
연구 결과는 OpenAI o3를 포함한 선도 AI 모델들의 다중모달 능력에 격차가 있음을 시사합니다.

Abstract

고도화된 추론 및 도구 사용 능력을 갖춘 AI 에이전트는 심층 검색을 위한 웹 브라우징에서 뛰어난 성과를 보여주고 있습니다. BrowseComp와 같은 기존 벤치마크는 이러한 브라우징 능력을 평가하지만, 주로 텍스트 정보에 중점을 두어 다중모달 콘텐츠의 보편성을 간과하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 에이전트의 다중모달 검색 및 추론 능력을 평가하도록 특별히 설계된 224개의 도전적인 수작업 질문으로 구성된 새로운 벤치마크 MM-BrowseComp를 소개합니다. 이 질문들은 종종 프롬프트 내에 이미지를 포함하며, 검색 및 추론 과정 중 마주치는 중요한 정보 역시 웹페이지의 이미지나 비디오에 내재될 수 있습니다. 따라서 텍스트만을 사용하는 방법은 우리 벤치마크에 부적합합니다. 추가로, 각 질문에 대해 검증된 체크리스트를 제공하여 다중모달 의존성과 추론 경로에 대한 세밀한 분석을 가능하게 합니다. MM-BrowseComp에서 최첨단 모델들을 종합 평가한 결과, OpenAI o3 with tools 같은 최상위 모델조차도 정확도가 29.02%에 불과하여 현재 모델들의 다중모달 능력이 미흡하며 본질적인 다중모달 추론이 부족함을 보여줍니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

S. Li

Xingyuan Bu

Wenjie Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MM-BrowseComp: 다중모달 브라우징 에이전트를 위한 종합 벤치마크

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider