Ampliar a manipulação de uso geral para novas incorporações robóticas continua sendo um desafio: cada plataforma geralmente requer grandes demonstrações homogêneas, e os pipelines VLA de pixel a ação tipicamente degeneram sob mudanças de fundo e ponto de vista. Neste artigo, apresentamos Vidar, um paradigma de adaptação de baixo-shot guiado por priors que substitui a maioria dos dados específicos da incorporação por priors de vídeo transferíveis. Vidar consiste em um modelo de difusão de vídeo incorporado como o prior generalizável e um adaptador de modelo de dinâmica inversa mascarado (MIDM) baseado em um desacoplamento chave da política. O modelo de difusão incorporado é pré-treinado em vídeos na escala da Internet e depois adaptado ao domínio com 750 mil trajetórias multiview de três plataformas robóticas do mundo real usando um espaço de observação unificado codificando contexto de robô, câmera, tarefa e cena. O módulo MIDM aprende máscaras de pixel relevantes para ação sem rótulos densos, ancorando o prior no espaço de ação da incorporação alvo enquanto suprime distrações. Crucialmente, o prior gerativo de vídeo modela a distribuição de interações plausíveis e temporalmente coerentes, capturando implicitamente affordances, dinâmica de contato e consistência física a partir de vídeos maciços não rotulados. Isso desloca o desafio de coletar grandes quantidades de novos dados robóticos para alinhar eficientemente um prior rico com uma nova incorporação. Com apenas 20 minutos de demonstrações humanas em um robô não visto (1% dos dados típicos), Vidar supera as linhas de base VLA de última geração e generaliza para tarefas, fundos e layouts de câmera não vistos. Nossos resultados sugerem uma receita escalável para "um prior, muitas incorporações": priors de vídeo fortes e baratos + alinhamento mínimo no robô.
Building similarity graph...
Analyzing shared references across papers
Loading...
Feng Yao
H. T. Tan
Xun Mao
Building similarity graph...
Analyzing shared references across papers
Loading...
Yao et al. (qui,) estudaram esta questão.
www.synapsesocial.com/papers/68f6196ee0bbbc94fac3625b — DOI: https://doi.org/10.48550/arxiv.2507.12898