What question did this study set out to answer?

Esta investigación tiene como objetivo generar pares video-acción a partir de instrucciones de texto para manipulación robótica.

December 22, 2025Open Access

CoVAR: cogeneración de video y acción para manipulación robótica mediante difusión multimodal

Puntos clave

Esta investigación tiene como objetivo generar pares video-acción a partir de instrucciones de texto para manipulación robótica.
Introducción de un método que genera pares video-acción a partir de una imagen y estados articulares del robot.
Desarrollo de un módulo de refinamiento de acción para mejorar la precisión de las acciones.
Implementación de un mecanismo de Atención Puente para una mejor interacción multimodal.
Demostración de generación de video de mayor calidad en comparación con métodos existentes.
Obtención de acciones más precisas para tareas robóticas.
Superación de modelos base en evaluaciones extensas.

Resumen

Presentamos un método para generar pares de video-acción que siguen instrucciones de texto, partiendo de una observación de imagen inicial y los estados articulares del robot. Nuestro enfoque proporciona automáticamente etiquetas de acción para modelos de difusión de video, superando la falta común de anotaciones de acción y permitiendo su uso completo para el aprendizaje de políticas robóticas. Los métodos existentes adoptan pipelines de dos etapas que limitan el intercambio de información multimodal estrechamente acoplada, o dependen de adaptar un modelo de difusión unimodal para una distribución conjunta que no puede aprovechar completamente el conocimiento preentrenado de video. Para superar estas limitaciones, (1) extendemos un modelo de difusión de video preentrenado con un modelo dedicado y paralelo de difusión de acción que preserva el conocimiento preentrenado, (2) introducimos un mecanismo de Atención Puente para posibilitar una interacción multimodal eficaz, y (3) diseñamos un módulo de refinamiento de acción para convertir acciones aproximadas en controles precisos para conjuntos de datos de baja resolución. Evaluaciones extensas en múltiples benchmarks públicos y conjuntos de datos del mundo real demuestran que nuestro método genera videos de mayor calidad, acciones más precisas y supera significativamente a las líneas base existentes, ofreciendo un marco escalable para aprovechar datos de video a gran escala para el aprendizaje robótico.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Liudi Yang

Yang Bai

George Eskandar

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

CoVAR: cogeneración de video y acción para manipulación robótica mediante difusión multimodal

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider