Aprovechar datos limitados para sintetizar un conjunto adicional de entrenamiento es esencial para la visión robótica, particularmente en entornos dinámicos donde recolectar grandes conjuntos de datos es impracticable. Los sistemas tradicionales de visión robótica dependen de datos de entrenamiento extensos para el reconocimiento de objetos y la comprensión de escenas, pero tienen dificultades para generalizar a variaciones del mundo real, como condiciones de iluminación, oclusiones y ruido de sensores. Este artículo propone un autoencoder variacional difuso causal (causal DiffuseVAE), un método novedoso que integra la inferencia causal con la síntesis de imágenes de alta fidelidad para generar imágenes contrafactuales. Al combinar las propiedades de desencadenamiento de los autoencoders variacionales (VAEs) con las capacidades generativas de los modelos de difusión, el causal DiffuseVAE produce simulaciones realistas e interpretable de variaciones, como sombras y oclusiones. Esta combinación permite un modelado generativo eficiente en datos mediante el aprendizaje de pequeños subconjuntos y la síntesis de muestras faltantes o no vistas. Además, la inferencia causal asegura que los datos generados sigan las dependencias del mundo real, haciéndolos robustos e interpretables para su implementación en entornos impredecibles. Se evalúan cuatro enfoques de referencia a través de seis conjuntos de datos diferentes, demostrando que el causal DiffuseVAE supera consistentemente los cuatro enfoques de referencia.
Ye et al. (Thu,) estudiaron esta cuestión.