Key points are not available for this paper at this time.
Permitir que agentes incorporados completem instruções humanas complexas em linguagem natural é crucial para sistemas autônomos em serviços domésticos. Métodos convencionais só conseguem realizar instruções humanas em ambientes conhecidos, onde todos os objetos interativos são fornecidos ao agente incorporado, e a implementação direta das abordagens existentes em ambientes desconhecidos geralmente gera planos inviáveis que manipulam objetos inexistentes. Em contrapartida, propomos um método de execução incorporada de instruções (EIF) para tarefas complexas em ambientes desconhecidos, onde o agente explora eficientemente o ambiente desconhecido para gerar planos viáveis com objetos existentes para cumprir instruções abstratas. Especificamente, construímos uma estrutura hierárquica de execução incorporada de instruções que inclui o planejador de tarefas de alto nível e o controlador de exploração de baixo nível com modelos multimodais de linguagem natural. Em seguida, construímos um mapa de representação semântica da cena com atenção dinâmica a regiões para demonstrar as pistas visuais conhecidas, onde o objetivo do planejamento da tarefa e a exploração da cena estão alinhados com a instrução humana. Para o planejador de tarefas, geramos planos detalhados viáveis para a realização do objetivo humano conforme o processo de conclusão da tarefa e as pistas visuais conhecidas. Para o controlador de exploração, a política ótima de navegação ou interação com objetos é prevista com base nos planos detalhados gerados e nas pistas visuais conhecidas. Os resultados experimentais demonstram que nosso método pode alcançar uma taxa de sucesso de 45,09% em 204 instruções humanas complexas, como preparar o café da manhã e arrumar os cômodos, em cenas de grande escala em nível residencial.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhenyu Wu
Ziwei Wang
Xiuwei Xu
Building similarity graph...
Analyzing shared references across papers
Loading...
Wu et al. (Mon,) estudaram essa questão.
www.synapsesocial.com/papers/68e64779b6db6435875d91a6 — DOI: https://doi.org/10.48550/arxiv.2406.11818
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: