May 16, 2024Open Access

当大型语言模型步入3D世界：通过多模态大型语言模型对3D任务的调研与元分析

Key Points

Key points are not available for this paper at this time.

Abstract

随着大型语言模型（LLMs）的发展，它们与3D空间数据（3D-LLMs）的融合取得了快速进展，提供了前所未有的理解和交互物理空间的能力。本综述全面概述了使LLMs能够处理、理解和生成3D数据的方法论。强调LLMs的独特优势，如上下文学习、逐步推理、开放词汇能力和广泛的世界知识，我们强调它们在体现人工智能（AI）系统中显著提升空间理解和交互的潜力。我们调查了各种3D数据表示，从点云到神经辐射场（NeRFs），并审视了它们与LLMs的整合，用于3D场景理解、描述、问答和对话等任务，以及基于LLM的空间推理、规划和导航代理。论文还简要回顾了其他将3D与语言整合的方法。本文呈现的元分析揭示了显著进展，但强调了开发新方法以充分发挥3D-LLMs全部潜力的必要性。因此，我们希望通过本文为未来探索和扩展3D-LLMs在复杂3D世界理解与交互能力的研究指明方向。为支持本综述，我们建立了一个项目页面，组织并列出了相关论文：https://github.com/ActiveVisionLab/Awesome-LLM-3D。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xianzheng Ma

Yash Bhalgat

Brandon Smart

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

当大型语言模型步入3D世界：通过多模态大型语言模型对3D任务的调研与元分析

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider