Malgré des progrès encourageants dans la compréhension des scènes 3D, il reste difficile de développer un Large Multi-modal Model (LMM) efficace capable de comprendre et de raisonner dans des environnements 3D complexes. La plupart des méthodes précédentes encodent généralement séparément les caractéristiques des points 3D et des images 2D, négligeant les interactions entre la sémantique 2D et les propriétés des objets 3D, ainsi que les relations spatiales au sein de l'environnement 3D. Cette limitation entrave non seulement la représentation exhaustive des scènes 3D, mais compromet aussi l'efficacité de l'entraînement et de l'inférence. Pour relever ces défis, nous proposons un Large Multi-modal Model 3D sensible à l'instance unifié (Inst3D-LMM) capable de traiter simultanément plusieurs tâches de compréhension de scène 3D. Pour obtenir des tokens visuels précis au niveau de l'instance, nous introduisons d'abord un nouveau module de Fusion Cross-Modale Multi-vue (MCMF) pour injecter la sémantique 2D multi-vues dans leurs caractéristiques géométriques 3D correspondantes. Pour des tokens sensibles aux relations au niveau de la scène, nous présentons en outre un module de Relation Spatiale d'Instance 3D (3D-ISR) pour capturer les relations spatiales complexes binaires entre les objets. De plus, nous réalisons un réglage d'instructions multi-tâches de bout en bout simultanément sans nécessiter un ajustement spécifique à chaque tâche par la suite. Des expériences approfondies démontrent que notre approche surpasse les méthodes à l'état de l'art pour les tâches de compréhension, raisonnement et ancrage des scènes 3D. Le code source est disponible à https://github.com/hanxunyu/Inst3D-LMM
Building similarity graph...
Analyzing shared references across papers
Loading...
Hanxun Yu
Wentong Li
Song Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Yu et al. (Sat,) ont étudié cette question.
www.synapsesocial.com/papers/68ecc715d1cc7436f7d18a8a — DOI: https://doi.org/10.48550/arxiv.2503.00513
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: