Presentamos un método para generar pares de video-acción que siguen instrucciones de texto, partiendo de una observación de imagen inicial y los estados articulares del robot. Nuestro enfoque proporciona automáticamente etiquetas de acción para modelos de difusión de video, superando la falta común de anotaciones de acción y permitiendo su uso completo para el aprendizaje de políticas robóticas. Los métodos existentes adoptan pipelines de dos etapas que limitan el intercambio de información multimodal estrechamente acoplada, o dependen de adaptar un modelo de difusión unimodal para una distribución conjunta que no puede aprovechar completamente el conocimiento preentrenado de video. Para superar estas limitaciones, (1) extendemos un modelo de difusión de video preentrenado con un modelo dedicado y paralelo de difusión de acción que preserva el conocimiento preentrenado, (2) introducimos un mecanismo de Atención Puente para posibilitar una interacción multimodal eficaz, y (3) diseñamos un módulo de refinamiento de acción para convertir acciones aproximadas en controles precisos para conjuntos de datos de baja resolución. Evaluaciones extensas en múltiples benchmarks públicos y conjuntos de datos del mundo real demuestran que nuestro método genera videos de mayor calidad, acciones más precisas y supera significativamente a las líneas base existentes, ofreciendo un marco escalable para aprovechar datos de video a gran escala para el aprendizaje robótico.
Building similarity graph...
Analyzing shared references across papers
Loading...
Liudi Yang
Yang Bai
George Eskandar
Building similarity graph...
Analyzing shared references across papers
Loading...
Yang et al. (Wed,) estudiaron esta cuestión.
www.synapsesocial.com/papers/69488bc877063b71e748ce7d — DOI: https://doi.org/10.48550/arxiv.2512.16023
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: