What type of study is this?

This is a Quantitative Study study (also classified as: Experimental Study).

October 20, 2025Open Access

Vidar: Modelo de Difusão de Vídeo Incorporado para Manipulação Generalista

Key Points

Vidar melhora a eficácia da manipulação com apenas 20 minutos de demonstrações humanas em robôs não vistos, superando métodos existentes.
O modelo de difusão de vídeo incorporado captura dinâmicas complexas de interação e consistência física a partir de vastos vídeos não rotulados.
Uma característica chave é o modelo de dinâmica inversa mascarado que aprende máscaras de pixels relevantes para ação, facilitando a adaptação eficaz da incorporação.
Esta abordagem reduz a necessidade de grandes dados específicos de robô aproveitando fortes priors de vídeo para várias incorporações.

Abstract

Ampliar a manipulação de uso geral para novas incorporações robóticas continua sendo um desafio: cada plataforma geralmente requer grandes demonstrações homogêneas, e os pipelines VLA de pixel a ação tipicamente degeneram sob mudanças de fundo e ponto de vista. Neste artigo, apresentamos Vidar, um paradigma de adaptação de baixo-shot guiado por priors que substitui a maioria dos dados específicos da incorporação por priors de vídeo transferíveis. Vidar consiste em um modelo de difusão de vídeo incorporado como o prior generalizável e um adaptador de modelo de dinâmica inversa mascarado (MIDM) baseado em um desacoplamento chave da política. O modelo de difusão incorporado é pré-treinado em vídeos na escala da Internet e depois adaptado ao domínio com 750 mil trajetórias multiview de três plataformas robóticas do mundo real usando um espaço de observação unificado codificando contexto de robô, câmera, tarefa e cena. O módulo MIDM aprende máscaras de pixel relevantes para ação sem rótulos densos, ancorando o prior no espaço de ação da incorporação alvo enquanto suprime distrações. Crucialmente, o prior gerativo de vídeo modela a distribuição de interações plausíveis e temporalmente coerentes, capturando implicitamente affordances, dinâmica de contato e consistência física a partir de vídeos maciços não rotulados. Isso desloca o desafio de coletar grandes quantidades de novos dados robóticos para alinhar eficientemente um prior rico com uma nova incorporação. Com apenas 20 minutos de demonstrações humanas em um robô não visto (1% dos dados típicos), Vidar supera as linhas de base VLA de última geração e generaliza para tarefas, fundos e layouts de câmera não vistos. Nossos resultados sugerem uma receita escalável para "um prior, muitas incorporações": priors de vídeo fortes e baratos + alinhamento mínimo no robô.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Feng Yao

H. T. Tan

Xun Mao

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Vidar: Modelo de Difusão de Vídeo Incorporado para Manipulação Generalista

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study