论文阅读及复现笔记之——《Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass》

2025-03-06

引言

由Meta和University of Michigan发表的CVPR2025工作《Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass》实现1000多幅图像的3D重建。基于DUSt3R的多视图泛化，通过并行处理多个视图实现高效且可扩展的3D重建，速度高达 250 FPS（DUSt3R是0.78 FPS，Spann3R是65.49 FPS），并可在一次前向传递中处理 1000+ 张图像。为此本博文对该工作进行学习并且复现，本博文仅供本人学习记录用~

理论学习

Fast3R应该是在DUSt3R上的改进，所提出的基于Transformer的结构可以在单次前向递推的时候同时处理N张图片，进而不需要迭代对齐（iterative alignment），那么既然是基于DUSt3R的改进，那么应该就是以三维重建为主，同时可估算相机的pose，并且不需要已知的相机的内参和外参（pose）。

DUSt3R是直接从RGB图像预测3D结构（无需图像的内参与外参），它把成对的重建（pairwise reconstruction）问题看成是对pointmaps的回归，并不需要相机投射投影模型。但同时，DUSt3R从原理上显示了它需要两张图像输入，而对于多张图片输入的情况，DUSt3R应该是对每对的pointmaps进行金酸然后再运行global alignment的优化处理，从而导致计算量极大。

PS：测试DUSt3R的时候会发现，比如输入10张图像，要进行90次推理运算（应该是90对图片），推理运算后，在执行全局优化。

而Fast3R则是：processes multiple images in parallel, allowing N images to be reconstructed in a single forward pass.

Spann3R应该也是有点类似的思路，增量式构建环境利用一对滑动窗口网络（sliding window network），但是对于窗口以外的是不能联合优化，进而会存在累积误差。而Fast3R all in的策略，不管输入的image多少，一起处理了

Fast3R的结构如下所示。整个模块分为image encoding，fusion transformer以及pointmap decoding。

image encoding跟DUSt3R一样，采用CroCo ViT
fusion transformer是计算量最大的一部分，采用12层的transformer， takes the concatenated encoded image patches from all views and performs all-to-all self-attention.
pointmap decoding将所有的tokens映射到各自的local 和global pointmaps上