Key points are not available for this paper at this time.
구현된 에이전트가 자연어로 된 복잡한 인간 명령을 완수하도록 하는 것은 가정용 서비스에서 자율 시스템에 매우 중요합니다. 기존 방법은 모든 상호작용 객체가 에이전트에 제공되는 알려진 환경에서만 인간 명령을 수행할 수 있으며, 미지의 환경에 기존 접근법을 직접 적용하면 존재하지 않는 객체를 조작하는 실행 불가능한 계획을 생성하는 경우가 많습니다. 이에 반해, 우리는 미지의 환경에서 복잡한 작업을 위한 구현된 명령 수행(EIF) 방법을 제안하며, 이 방법은 에이전트가 미지의 환경을 효율적으로 탐색하여 기존 객체를 활용한 실행 가능한 계획을 생성해 추상적인 명령을 완수합니다. 구체적으로, 다중 모달 대형 언어 모델을 활용한 고수준 작업 계획자와 저수준 탐색 컨트롤러를 포함하는 계층적 구현된 명령 수행 프레임워크를 구축했습니다. 그리고 알려진 시각적 단서들을 보여주기 위해 동적 영역 주의가 적용된 장면의 의미 표현 지도를 구성하여, 작업 계획과 장면 탐색의 목표가 인간 명령에 맞춰 일치하도록 했습니다. 작업 계획자의 경우, 작업 완료 과정과 알려진 시각적 단서에 따라 인간 목표 달성을 위한 실행 가능한 단계별 계획을 생성합니다. 탐색 컨트롤러는 생성된 단계별 계획과 알려진 시각적 단서를 바탕으로 최적의 탐색 또는 객체 상호작용 정책을 예측합니다. 실험 결과, 본 방법은 큰 주택 수준의 장면에서 아침 식사 준비, 방 정리 등 204개의 복잡한 인간 명령에서 45.09%의 성공률을 달성함을 입증했습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhenyu Wu
Ziwei Wang
Xiuwei Xu
Building similarity graph...
Analyzing shared references across papers
Loading...
Wu 등(월요일,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e64779b6db6435875d91a6 — DOI: https://doi.org/10.48550/arxiv.2406.11818
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: