Key points are not available for this paper at this time.
우리는 대형 다중모달 모델(LMM)과 텍스트2이미지 모델을 활용하여 보다 일반적인 구현형 에이전트를 구축하는 방안을 탐구합니다. LMM은 상징적 추상화를 통한 장기 과제 계획에 뛰어나지만 물리적 세계에 대한 구체화에서는 어려움을 겪어, 이미지 내 객체 위치를 정확히 식별하지 못하는 경우가 많습니다. LMM을 물리적 세계와 연결하는 다리가 필요합니다. 본 논문은 다양한 가정 시나리오에서 자기 중심적 관점으로 장기 과제를 다루는 새로운 접근법인 자기중심 시각 언어 계획(EgoPlan)을 제안합니다. 이 모델은 상태와 행동 간 기본 역학을 시뮬레이션하기 위해 확산 모델을 활용하며, 스타일 전이와 옵티컬 플로우 같은 기법을 통합하여 환경 동역학의 일반화를 강화합니다. LMM은 계획자로서 명령을 하위 목표로 나누고 하위 목표와의 정합성에 따라 행동을 선택하여 보다 일반적이고 효과적인 의사결정을 가능하게 합니다. 실험 결과 EgoPlan은 가정 시나리오 전반에서 자기 중심적 관점으로 장기 과제 성공률을 기준 모델보다 향상시켰습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhirui Fang
Ming Yang
Weishuai Zeng
Building similarity graph...
Analyzing shared references across papers
Loading...
Fang 등 (Sun,)이 이 질문을 연구하였습니다.
www.synapsesocial.com/papers/68e5cb6fb6db643587562484 — DOI: https://doi.org/10.48550/arxiv.2408.05802
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: