论文阅读笔记之——《What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models》

2026-01-18

引言

之前博客《Spatial Foundation Model/通用 3D 基础模型/Spatial Intelligence》对空间基础模型作了基本的论述,而此前博客视觉SLAM也对SLAM中的各种地图表达方式进行了介绍。虽然两个博客都有涉及机器人的3D 表征,但没有很系统性的,正好最近看的上交的一篇综述,打算深入阅读并记录。

本博文为学习笔记,仅供记录用~

这篇综述横跨了机器人3D表征近50年的发展历程(从1970s到2025年),系统性地将表征方式划分为 几何表征(Geometric)神经表征(Neural) 以及 基础模型表征(Foundation Model) 三大阶段,并深入探讨了它们在感知(Perception)、定位建图(Localization & Mapping)以及交互(Interaction,包括导航与操纵)中的应用。

一、 3D场景表征:机器人的“世界观”

在机器人学中,3D场景表征(Representation)是连接传感器输入与动作输出的桥梁。一个理想的表征应当具备以下属性:

  1. 几何精确性(Geometric Accuracy):用于避障和运动规划。
  2. 外观写实性(Photo-realism):用于视觉定位和高质量渲染。
  3. 语义丰富性(Semantic Richness):用于高级任务理解与语言交互。
  4. 计算高效性(Computational Efficiency):满足移动端实时运行的需求。

论文将这50年的演进通过一张宏大的时间轴展现出来:从早期的栅格地图到点云,从NeRF到3DGS,再到如今将3D世界Token化并喂给Transformer,表征的维度正在从单纯的“点位”向“高维特征”跃迁。


二、 第一阶段:几何表征(Geometric Representations)—— 经典的基石

几何表征是机器人领域研究最久、应用最成熟的方案。它直接描述物体的形状和空间的占据情况。

2.1 点云(Point Clouds)

点云是3D传感器(LiDAR, RGB-D)的直接输出。

  • 数学定义:$P = {p_i p_i \in \mathbb{R}^3, i=1,…,n}$,每个点包含$(x, y, z)$,有时包含颜色$(r, g, b)$或反射强度。
  • 深度解读
    • 优点:离散、简单、保留了最原始的传感器几何信息。
    • 缺点:缺乏拓扑结构(无法知道点与点之间是否属于同一个面),且在稀疏情况下难以进行精细的物理碰撞检测。
    • 演进:从传统的ICP匹配到基于深度学习的PointNet系列。

2.2 体素与占用地图(Voxels & Occupancy Grids)

体素是2D像素在3D空间的延伸。

  • 定义:将空间量化为规则的立方体,每个格点存储占据概率 $P(o)$。
  • 关键算法
    • OctoMap:通过八叉树结构解决了大规模场景下体素存储爆炸的问题。
    • VoxelMap:在LiDAR SLAM中通过自适应体素提高建图精度。
  • 评价:体素是避障规划的最爱,因为它能明确告诉机器人“哪里不能去”。

2.3 网格(Meshes)

Mesh由顶点(Vertices)、边(Edges)和面片(Faces)组成。

  • 应用:在机器人仿真(Gazebo, Isaac Gym)和图形学渲染中是标准格式。
  • 痛点:拓扑变化时的更新非常困难,在动态建图中不如点云灵活。

2.4 符号距离函数(SDF/TSDF)

SDF不再记录“有没有”,而是记录“有多远”。

  • 数学定义:对于空间任一点 $x$,$f(x)$ 表示 $x$ 到最近表面的带符号距离。$f(x)=0$ 即代表物体表面。
  • 机器人的意义:SDF非常适合轨迹优化,因为它可以提供梯度信息,引导机器人远离障碍物(梯度指向远离表面的方向)。

2.5 场景图(Scene Graphs)

这是一种更高层的抽象,将场景组织为层级结构:房屋 -> 房间 -> 物体 -> 零部件。

  • 3D Dynamic Scene Graphs (DSG):代表作如 Hydra。它不仅记录了几何,还记录了物体间的语义拓扑关系。

三、 第二阶段:神经表征(Neural Representations)—— 连续与写实的跨越

2020年后,NeRF的出现彻底改变了我们对“地图”的认知。地图不再是一堆点或格子,而是一个神经网络。

3.1 神经辐射场(NeRF)

  • 核心原理:用一个MLP $F_\theta: (x, d) \to (c, \sigma)$ 来表示场景。输入位置 $x$ 和视角 $d$,输出颜色 $c$ 和密度 $\sigma$。
  • 体积渲染(Volume Rendering): \(C(r) = \int_{t_n}^{t_f} T(t) \sigma(r(t)) c(r(t), d) dt\)
  • 机器人领域的困境
    • :训练和渲染都极耗计算资源,难以实时 SLAM。
    • 几何崩坏:NeRF主要优化视觉损失,其内部学习到的几何有时会出现“空洞”或“浮点”。

3.2 3D高斯泼溅(3D Gaussian Splatting, 3DGS)

3DGS是2023年后的绝对主角,它结合了显式(点云状)和隐式(可微渲染)的优点。

  • 表征方式:由数百万个各向异性高斯分布组成。 \(G(x) = \exp\left(-\frac{1}{2}(x-\mu)^T \Sigma^{-1} (x-\mu)\right)\)
  • 为什么3DGS对机器人很重要?
    1. :支持100+ FPS实时渲染。
    2. 显式性:均值 $\mu$ 本身就是点云,方便做碰撞检测。
    3. 可编辑性:比NeRF更容易通过移动高斯球来模拟物体搬运。

四、 第三阶段:基础模型(Foundation Models)—— 走向通才机器人

这是目前(2024-2025年)最前沿的方向,即将3D场景转化为大模型(LLM/VLM)能理解的“语言”。

4.1 场景Token化(Scene Tokenization)

为了让Transformer处理3D,必须将场景离散化。

  • 方法:利用类似 VQ-VAE 的技术,将点云或体素 patch 映射为特定的 Codebook 索引(Token)。
  • 代表作MeshGPT, Pano-Language

4.2 视觉-语言-动作(VLA)模型

将3D表征与语义对齐。例如,当你对机器人说“去厨房拿那个红色的杯子”,机器人不再是根据坐标导航,而是根据表征中的语义语义特征流进行匹配。

  • Open-Vocabulary Map:如 ConceptFusion, VLMaps。它们在3D地图的每一个格子上不仅存储几何,还存储了来自 CLIP 模型的特征向量。

五、 机器人核心任务中的表征博弈

5.1 感知任务(Perception)

  • 3D检测与分割:早期用点云卷积(PointConv),现在倾向于用多模态大模型(如 SAM3D)直接在神经表征上进行分割。
  • 关键点提取:神经表征能提供更稳定的关键点,辅助机器人抓取精细物体。

5.2 SLAM(定位与建图)

  • 传统 vs 神经
    • 传统 SLAM(如 ORB-SLAM3)依然是实时性之王,但在低纹理、强反光环境下经常失败。
    • 神经 SLAM(如 GS-SLAM, SplaTAM)利用3DGS作为底图,能实现照片级的重构,且位姿跟踪精度正在追赶传统方法。

5.3 交互:操纵(Manipulation)与 导航(Navigation)

  • 操纵:需要极其精确的接触几何。SDF和Mesh仍是主流。但最近的研究(如 GraspNeRF)表明,神经表征可以处理透明/高反光物体的抓取难题。
  • 导航
    • 几何导航:解决“怎么走不撞”。
    • 语义导航:解决“去哪儿”。
    • 生成式导航:利用大模型生成导航代码或动作序列。

六、 终极辩论:谁才是“最好的”表征?

论文深入讨论了目前学术界的分歧。

6.1 模块化还是端到端?

  • 模块化(Modular):将地图分为几何层、语义层、拓扑层。每一层服务于特定的算法。优点是可解释、安全;缺点是误差累积。
  • 统一化(Unified/Foundation Model):直接把传感器输入转化成行为 Token。优点是潜力上限极高,能够处理极复杂的指令;缺点是“黑盒”,难以保证安全边界。

6.2 各种表征性能对比大表(核心干货)

表征方式 实时性 几何精度 语义能力 渲染质量 典型算法
点云 极高 极低 ICP, PointNet
TSDF 极高 KinectFusion
NeRF 极高 iMAP, NICE-SLAM
3DGS 极高 GS-SLAM, Splat-Nav
Token化 极高 RT-2, MeshGPT

七、 未来趋势:机器人3D表征的下半场

  1. 从静态到动态(Static to Dynamic): 现实世界是流动的。如何表征非刚体(如被扯动的布料、流体)是神经表征目前的重难点。
  2. 生成式仿真(Generative World Models): 机器人不再需要人类手动搭建仿真场景,而是通过大模型生成无限的 3D 训练数据(World Models)。
  3. 硬件协同(Hardware-Algorithm Co-design): 未来的机器人芯片可能不再是纯CPU/GPU,而是针对高斯泼溅或Transformer Token推理专门优化的NPU。

结语

综述阅读完,最深刻的感受是:没有绝对最好的表征,只有最适合任务的表征。 如果你在做高速避障,点云和体素是你的战友;如果你在做智能管家,3DGS + 语义基础模型才是未来的通途。

正如论文最后引用的那样:机器人学正从“感知世界”走向“理解并模拟世界”。

参考资料