April 25, 2024Open Access

OpenDlign: Mejorando el Aprendizaje 3D en Mundo Abierto con Imágenes Alineadas por Profundidad

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los avances recientes en Modelos de Visión y Lenguaje (VLMs) han mejorado la representación 3D en mundos abiertos, facilitando la capacidad 3D zero-shot en categorías no vistas. Los métodos actuales de mundo abierto preentrenan un codificador 3D adicional para alinear características de datos 3D (por ejemplo, mapas de profundidad o nubes de puntos) con imágenes renderizadas en CAD y textos correspondientes. Sin embargo, la limitada variación de color y textura en imágenes CAD puede comprometer la robustez de la alineación. Además, la discrepancia volumétrica entre los conjuntos de datos de preentrenamiento del codificador 3D y del VLM conduce a una transferencia de conocimiento 2D a 3D subóptima. Para superar estos problemas, proponemos OpenDlign, un marco novedoso para aprender representaciones 3D en mundos abiertos, que aprovecha imágenes alineadas por profundidad generadas a partir de mapas de profundidad proyectados desde nubes de puntos. A diferencia de las imágenes renderizadas en CAD, nuestras imágenes generadas ofrecen una rica y realista diversidad de color y textura, preservando la consistencia geométrica y semántica con los mapas de profundidad. OpenDlign también optimiza la proyección del mapa de profundidad e integra indicaciones textuales específicas de profundidad, mejorando la adaptación del conocimiento del VLM 2D para el afinamiento eficiente del aprendizaje 3D. Resultados experimentales muestran que OpenDlign supera significativamente los puntos de referencia existentes en tareas 3D zero-shot y few-shot, excediendo puntuaciones previas en un 8.0% en ModelNet40 y un 16.4% en OmniObject3D con solo 6 millones de parámetros ajustados. Además, integrar imágenes generadas alineadas por profundidad en canalizaciones de aprendizaje 3D existentes mejora consistentemente su rendimiento.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Mao Ye

Junpeng Jing

Krystian Mikolajczyk

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

OpenDlign: Mejorando el Aprendizaje 3D en Mundo Abierto con Imágenes Alineadas por Profundidad

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider