Apresentamos o DyNaVLM, uma estrutura de navegação visão-linguagem de ponta a ponta utilizando Modelos Visão-Linguagem (VLM). Em contraste com métodos anteriores limitados por intervalos angulares ou de distância fixos, nosso sistema permite que agentes selecionem livremente alvos de navegação por meio de raciocínio visual-linguístico. Em seu núcleo está uma memória de grafo autoajustável que 1) armazena localizações de objetos como relações topológicas executáveis, 2) possibilita compartilhamento de memória entre robôs via atualizações distribuídas do grafo, e 3) aprimora a tomada de decisão do VLM por meio de aumento por recuperação. Operando sem treinamento ou ajuste fino específicos de tarefa, o DyNaVLM demonstra alto desempenho nos benchmarks GOAT e ObjectNav. Testes no mundo real validam ainda sua robustez e generalização. As três inovações do sistema: formulação dinâmica do espaço de ações, memória de grafo colaborativa e implantação sem treinamento estabelecem um novo paradigma para robótica incorporada escalável, preenchendo a lacuna entre tarefas VLN discretas e navegação contínua no mundo real.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zehua Ji
Huangxuan Lin
Yue Gao
Building similarity graph...
Analyzing shared references across papers
Loading...
Ji et al. (Qua,) estudaram esta questão.
www.synapsesocial.com/papers/68f6379bb481a140a36cf67d — DOI: https://doi.org/10.48550/arxiv.2506.15096
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: