Los puntos clave no están disponibles para este artículo en este momento.
Los avances recientes en Modelos de Visión y Lenguaje (VLMs) han mejorado la representación 3D en mundos abiertos, facilitando la capacidad 3D zero-shot en categorías no vistas. Los métodos actuales de mundo abierto preentrenan un codificador 3D adicional para alinear características de datos 3D (por ejemplo, mapas de profundidad o nubes de puntos) con imágenes renderizadas en CAD y textos correspondientes. Sin embargo, la limitada variación de color y textura en imágenes CAD puede comprometer la robustez de la alineación. Además, la discrepancia volumétrica entre los conjuntos de datos de preentrenamiento del codificador 3D y del VLM conduce a una transferencia de conocimiento 2D a 3D subóptima. Para superar estos problemas, proponemos OpenDlign, un marco novedoso para aprender representaciones 3D en mundos abiertos, que aprovecha imágenes alineadas por profundidad generadas a partir de mapas de profundidad proyectados desde nubes de puntos. A diferencia de las imágenes renderizadas en CAD, nuestras imágenes generadas ofrecen una rica y realista diversidad de color y textura, preservando la consistencia geométrica y semántica con los mapas de profundidad. OpenDlign también optimiza la proyección del mapa de profundidad e integra indicaciones textuales específicas de profundidad, mejorando la adaptación del conocimiento del VLM 2D para el afinamiento eficiente del aprendizaje 3D. Resultados experimentales muestran que OpenDlign supera significativamente los puntos de referencia existentes en tareas 3D zero-shot y few-shot, excediendo puntuaciones previas en un 8.0% en ModelNet40 y un 16.4% en OmniObject3D con solo 6 millones de parámetros ajustados. Además, integrar imágenes generadas alineadas por profundidad en canalizaciones de aprendizaje 3D existentes mejora consistentemente su rendimiento.
Building similarity graph...
Analyzing shared references across papers
Loading...
Mao Ye
Junpeng Jing
Krystian Mikolajczyk
Building similarity graph...
Analyzing shared references across papers
Loading...
Ye et al. (Thu,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e6dac2b6db6435876575bb — DOI: https://doi.org/10.48550/arxiv.2404.16538
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: