Key points are not available for this paper at this time.
Les avancées récentes dans la génération 3D ont exploité des ensembles de données synthétiques avec des actifs 3D de vérité terrain et des caméras prédéfinies. Cependant, le potentiel d'adopter des ensembles de données du monde réel, capables de produire des scènes 3D significativement plus réalistes, reste largement inexploré. Dans ce travail, nous abordons le défi majeur des trajectoires de caméra complexes et spécifiques à la scène que l'on trouve dans les captures réelles. Nous introduisons Director3D, un cadre robuste de génération texte-vers-3D en monde ouvert, conçu pour générer à la fois des scènes 3D réelles et des trajectoires de caméra adaptatives. Pour ce faire, (1) nous utilisons d'abord un Trajectory Diffusion Transformer, agissant comme le Cinématographe, pour modéliser la distribution des trajectoires de caméra à partir de descriptions textuelles. (2) Ensuite, un Modèle de Diffusion Latent Multi-vue piloté par Gaussiennes sert de Décorateur, modélisant la distribution de séquences d'images données les trajectoires de caméra et les textes. Ce modèle, ajusté à partir d'un modèle de diffusion 2D, génère directement des Gaussiennes 3D alignées aux pixels comme une représentation immédiate de la scène 3D pour un débruitage cohérent. (3) Enfin, les Gaussiennes 3D sont affinées par une nouvelle perte SDS++ en tant que Détailleur, qui incorpore le prior du modèle de diffusion 2D. De nombreuses expériences démontrent que Director3D surpasse les méthodes existantes, offrant des performances supérieures dans la génération 3D du monde réel.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xinyang Li
Zhangyu Lai
Linning Xu
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (Tue,) ont étudié cette question.
www.synapsesocial.com/papers/68e636c5b6db6435875c8bbd — DOI: https://doi.org/10.48550/arxiv.2406.17601
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: