비전-언어 내비게이션(VLN)은 에이전트가 자연어 지시를 따라 환경을 탐색하도록 요구하며, 기억 지속형 변형은 누적된 경험을 통한 점진적 향상을 요구합니다. 기존의 기억 지속형 VLN 접근법은 치명적인 한계가 있는데, 효과적인 기억 접근 메커니즘이 부족하여 전체 기억 통합이나 고정 범위 탐색에 의존하며, 주로 환경 관찰만 저장하고 의사결정 전략을 내포한 내비게이션 행동 패턴은 간과합니다. 우리는 명시적 기억에 기반한 검색 메커니즘으로 상상을 활용하는 Memoir를 제시합니다: 세계 모델이 미래 내비게이션 상태를 쿼리로 상상하여 관련 환경 관찰과 행동 이력을 선택적으로 검색합니다. 접근법은 다음으로 구성됩니다: 1) 경험 저장과 검색 쿼리 생성을 겸하는 언어 조건 세계 모델; 2) 관찰과 행동 패턴을 시점에 고정하여 하이브리드 검색이 가능한 하이브리드 시점 수준 기억; 3) 전문 인코더로 검색된 지식을 통합하는 경험 강화 내비게이션 모델. 10개의 다양한 테스트 시나리오를 포함한 기억 지속형 VLN 벤치마크에서 광범위한 평가를 통해 Memoir의 효과가 입증되었습니다: 모든 시나리오에서 유의미한 향상, 최고 기억 지속형 기준선 대비 IR2R에서 5.4% SPL 개선, 8.3배 빠른 훈련 속도 및 74% 추론 메모리 감소 동반. 결과는 환경 및 행동 기억의 예측적 검색이 내비게이션 효율을 높임을 검증하며, 분석 결과 이 상상 기반 패러다임에는 상당한 여지(73.3% 대 93.4% 상한선)가 존재함을 시사합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yunzhe Xu
Y. Pan
Ziyi Liu
IEEE Transactions on Pattern Analysis and Machine Intelligence
Shanghai Jiao Tong University
Building similarity graph...
Analyzing shared references across papers
Loading...
Xu 등(Thu,)은 이 질문을 연구하였습니다.
www.synapsesocial.com/papers/69cf5c925a333a821460a27a — DOI: https://doi.org/10.1109/tpami.2026.3679426
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: