Une exigence clé pour les robots généralistes est la généralisation compositionnelle - la capacité à combiner des compétences atomiques pour résoudre des tâches complexes et à long terme. Alors que les travaux antérieurs se sont principalement concentrés sur la synthèse d'un planificateur séquençant des compétences préalablement apprises, l'exécution robuste des compétences individuelles demeure difficile, car les politiques visuomotrices échouent souvent en cas de décalages de distribution induits par la composition de la scène. Pour y remédier, nous introduisons une représentation basée sur un graphe de scène qui met l'accent sur les objets et relations pertinents pour la tâche, réduisant ainsi la sensibilité aux variations non pertinentes. En nous appuyant sur cette idée, nous développons un cadre d'apprentissage des compétences basé sur le graphe de scène qui intègre des réseaux de neurones graphiques avec un apprentissage par imitation basé sur la diffusion, et combinons en outre les compétences « focalisées » du graphe de scène avec un planificateur de tâche basé sur un modèle vision-langage (VLM). Des expériences en simulation et en manipulation en conditions réelles démontrent des taux de succès nettement supérieurs aux références à l'état de l'art, soulignant une robustesse améliorée et une généralisation compositionnelle dans les tâches à long terme.
Building similarity graph...
Analyzing shared references across papers
Loading...
Qi Han
Changhe Chen
Heng Yang
Building similarity graph...
Analyzing shared references across papers
Loading...
Han et al. (ven,) ont étudié cette question.
www.synapsesocial.com/papers/68e040eda99c246f578b341c — DOI: https://doi.org/10.48550/arxiv.2509.16053
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: