What type of study is this?

This is a Quantitative Study study.

October 13, 2025Open Access

Inst3D-LMM : Compréhension de scène 3D sensible à l'instance avec réglage d'instructions multi-modal

Key Points

De vastes expériences montrent que Inst3D-LMM surpasse significativement les méthodes précédentes en compréhension de scène 3D.
Le modèle intègre la sémantique 2D avec les propriétés des objets 3D pour une meilleure représentation et efficacité.
Un nouveau module de fusion cross-modale multi-vue est introduit pour créer des tokens visuels précis au niveau de l'instance.
Le réglage d'instructions de bout en bout permet des capacités multi-tâches sans besoin d'un ajustement spécifique à chaque tâche.

Abstract

Malgré des progrès encourageants dans la compréhension des scènes 3D, il reste difficile de développer un Large Multi-modal Model (LMM) efficace capable de comprendre et de raisonner dans des environnements 3D complexes. La plupart des méthodes précédentes encodent généralement séparément les caractéristiques des points 3D et des images 2D, négligeant les interactions entre la sémantique 2D et les propriétés des objets 3D, ainsi que les relations spatiales au sein de l'environnement 3D. Cette limitation entrave non seulement la représentation exhaustive des scènes 3D, mais compromet aussi l'efficacité de l'entraînement et de l'inférence. Pour relever ces défis, nous proposons un Large Multi-modal Model 3D sensible à l'instance unifié (Inst3D-LMM) capable de traiter simultanément plusieurs tâches de compréhension de scène 3D. Pour obtenir des tokens visuels précis au niveau de l'instance, nous introduisons d'abord un nouveau module de Fusion Cross-Modale Multi-vue (MCMF) pour injecter la sémantique 2D multi-vues dans leurs caractéristiques géométriques 3D correspondantes. Pour des tokens sensibles aux relations au niveau de la scène, nous présentons en outre un module de Relation Spatiale d'Instance 3D (3D-ISR) pour capturer les relations spatiales complexes binaires entre les objets. De plus, nous réalisons un réglage d'instructions multi-tâches de bout en bout simultanément sans nécessiter un ajustement spécifique à chaque tâche par la suite. Des expériences approfondies démontrent que notre approche surpasse les méthodes à l'état de l'art pour les tâches de compréhension, raisonnement et ancrage des scènes 3D. Le code source est disponible à https://github.com/hanxunyu/Inst3D-LMM

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Hanxun Yu

Wentong Li

Song Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Inst3D-LMM : Compréhension de scène 3D sensible à l'instance avec réglage d'instructions multi-modal

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider