Key points are not available for this paper at this time.
Zusammenfassung Vision-und-Sprach-Navigation (VLN) simuliert einen visuellen Agenten, der natürlichen Sprach-Navigationsanweisungen in realen Szenen folgt. Bestehende Ansätze haben enorme Fortschritte bei der Navigation in neuen Umgebungen gemacht, wie z. B. Strahlensuche, Vorerkundung und dynamische oder hierarchische Historiencodierung. Um Generalisierung und Effizienz auszubalancieren, greifen wir darauf zurück, besuchte Szenarien zusätzlich zur laufenden Route während der Navigation zu speichern. In dieser Arbeit führen wir einen Mechanismus des episodischen Szenengedächtnisses (ESceme) für VLN ein, der die Erinnerungen eines Agenten an vergangene Besuche weckt, wenn er die aktuelle Szene betritt. Das episodische Szenengedächtnis erlaubt dem Agenten, ein größeres Bild der nächsten Vorhersage zu erfassen. So lernt der Agent, dynamisch aktualisierte Informationen zu nutzen anstatt sich nur an die aktuellen Beobachtungen anzupassen. Wir bieten eine einfache und dennoch effektive Implementierung von ESceme durch Erweiterung der zugänglichen Ansichten an jedem Ort und schrittweises Vervollständigen des Gedächtnisses während der Navigation. Wir bestätigen die Überlegenheit von ESceme bei kurzstreckigen (R2R), langstreckigen (R4R) und Vision-und-Dialog (CVDN) VLN-Aufgaben. Unser ESceme erringt außerdem den ersten Platz auf der CVDN-Bestenliste. Der Code ist verfügbar: https://github.com/qizhust/esceme .
Building similarity graph...
Analyzing shared references across papers
Loading...
Qi Zheng
Daqing Liu
Chaoyue Wang
International Journal of Computer Vision
The University of Sydney
Commonwealth Scientific and Industrial Research Organisation
Shenzhen University
Building similarity graph...
Analyzing shared references across papers
Loading...
Zheng et al. (Fr,) untersuchten diese Frage.
www.synapsesocial.com/papers/68e5ef77b6db643587583b4d — DOI: https://doi.org/10.1007/s11263-024-02159-8
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: