고도화된 추론 및 도구 사용 능력을 갖춘 AI 에이전트는 심층 검색을 위한 웹 브라우징에서 뛰어난 성과를 보여주고 있습니다. BrowseComp와 같은 기존 벤치마크는 이러한 브라우징 능력을 평가하지만, 주로 텍스트 정보에 중점을 두어 다중모달 콘텐츠의 보편성을 간과하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 에이전트의 다중모달 검색 및 추론 능력을 평가하도록 특별히 설계된 224개의 도전적인 수작업 질문으로 구성된 새로운 벤치마크 MM-BrowseComp를 소개합니다. 이 질문들은 종종 프롬프트 내에 이미지를 포함하며, 검색 및 추론 과정 중 마주치는 중요한 정보 역시 웹페이지의 이미지나 비디오에 내재될 수 있습니다. 따라서 텍스트만을 사용하는 방법은 우리 벤치마크에 부적합합니다. 추가로, 각 질문에 대해 검증된 체크리스트를 제공하여 다중모달 의존성과 추론 경로에 대한 세밀한 분석을 가능하게 합니다. MM-BrowseComp에서 최첨단 모델들을 종합 평가한 결과, OpenAI o3 with tools 같은 최상위 모델조차도 정확도가 29.02%에 불과하여 현재 모델들의 다중모달 능력이 미흡하며 본질적인 다중모달 추론이 부족함을 보여줍니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
S. Li
Xingyuan Bu
Wenjie Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (Thu,) 이 질문을 연구하였습니다.
www.synapsesocial.com/papers/68d7be70eebfec0fc52384ec — DOI: https://doi.org/10.48550/arxiv.2508.13186
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: