利用 AI 和 NVIDIA RTX GPU 加速现实捕捉工作流程

现实捕捉可创建高度准确、详细且身临其境的环境数字表示。现场扫描和加速数据处理方面的创新以及神经辐射场 (NeRF) 和高斯溅射等新兴技术正在显著增强现实捕捉的能力。这些技术正在彻底改变与物理世界的交互和分析。

现场扫描是现实捕捉的第一步，它使用激光雷达和摄影测量等方法生成详细的 3D 模型，而由 NVIDIA RTX GPU 提供支持的加速处理可以实现更快、更高效的数据处理。NeRF 在制作逼真的 3D 场景方面表现出色，而高斯分层则提供了一种流畅、高效渲染的新方法。AI 通过先进的对象检测、分割和分类算法提供更深入的洞察，从而增强了这些工具。

这篇文章探讨了 NVIDIA 如何在 AI 与现实捕捉的融合方面处于领先地位，并通过强大的 GPU、软件解决方案和尖端研究推动这些技术进步。

现实捕捉基础知识

现实捕捉过程始于扫描或拍摄物理环境，然后通过摄影测量或激光雷达进行处理以生成点云——一组密集的数据点，代表精确的 3D 表面位置。此点云通常会转换为 3D 模型，提供物理空间的详细虚拟表示。

摄影测量

摄影测量是一种利用摄影图像提取物理对象的详细空间信息（包括其距离、尺寸、形状和空间中的精确位置）的技术。通过分析多个视点的角度、重叠和透视，摄影测量可以创建点云，然后将其转换为高度详细的 3D 模型。

这种方法方便易用且经济高效，尤其是与激光雷达相比，因为它只需要基本的摄影设备。然而，摄影测量的准确性在很大程度上取决于所捕获图像的质量和数量，并且它可能会难以处理某些表面，例如反射或透明的表面，这可能导致结果不太可靠。

激光雷达

激光雷达（光探测和测距）技术使 美国华侨华人数据 用激光脉冲来测量距离，并通过计算光从表面反射回来所需的时间来创建精确的环境 3D 模型。即使在光线条件较差（例如弱光或黑暗）的情况下，它也能以无与伦比的精度捕获大面积的详细空间数据，并且能够有效地绘制各种材料，包括植被和透明物体下方的表面。

由于需要专用硬件，激光雷达通常比摄影测量更昂贵，而且它很难处理水或玻璃等高反射表面，可能会扭曲数据或产生间隙。此外，虽然激光雷达在几何精度方面表现出色，但与摄影测量相比，它提供的纹理信息较少，这可能会限制其在需要逼真细节的应用中的有效性。

点云和 3D 网格

点云和 3D 网格是现实捕捉的基本元素，可将来自激光雷达或摄影测量的原始数据转换为详细、准确的虚拟模型。点云由映射精确 3D 表面位置的密集点集合组成，这些点通常被转换为 3D 网格，形成连续、纹理表面，以实现更逼真的表示。

CUDA、NVIDIA RTX和NVIDIA Omniverse平台显著增强了这一过程。CUDA 加速了处理大型数据集所需的复杂计算，RTX 支持实时光线追踪渲染，可实现高度逼真的灯光和阴影，而 Omniverse 则提供了一个强大的协作平台，可 使用生成式人工智能使机器人能够通过 ReMEmbR 进行推理和行动 实时无缝编辑和可视化 3D 网格。

选择正确的现实捕捉技术

选择正确的现实捕捉技术取决于项目的具体需求。激光雷达是高分辨率、详细空间数据的首选，非常适合大规模测量、复杂场地和精度至关重要的环境。Autodesk ReCap 和 Bentley iTwin Capture 等软件通常用于简化激光雷达数据处理和分析。

另一方面，摄影测量擅长捕捉详细的颜色数据，这在建筑文档和文化遗产保护方面特别有用。配备高分辨率摄像头的无人机可以通过从多个角度和难以到达的区域捕捉图像来显著增强摄影测量，从而实现大型或复杂场地的综合 3D 模型。Esri Site Scan for ArcGIS 和 Pix4D 等工具在摄影测量中得到广泛使用，为将无人机捕获的图像处理成详细的 3D 模型提供了强大的解决方案。

使用 CUDA 和 NVIDIA RTX 增强工作流程

为了处理通常涉及现实捕捉的海量数据集，CUDA 利用并行计算加速激光雷达点云和摄影测量数据的处理，大大减少了数据转换、可视化和分析所需的时间。这使其对高分辨率扫描和 3D 重建项目非常有用。

RTX 技术通过结合光线追踪来增强这些 3D 模型的可视化效果，从而提供逼真的光照、阴影和反射。此功能对于创建沉浸式、高保真度的扫描环境可视化至关重要，Omniverse 和 Unreal Engine 等工具可为激光雷达和摄影测量工作流程提供 RTX 驱动的渲染。

NeRF 和高斯溅射

NeRF 正在改变 3D 场景合成，它利用机器学习从数量大大减少的 2D 图像中生成高度详细和逼真的视图，而传统摄影测量则不然。NeRF 可以在稀疏数据点之间进行插值，即使从最初未捕捉到的角度，也能创建流畅、逼真的场景。

这种能够处理较少图像同时仍提供出色视觉保真度的能力使 NeRF 成为建筑可视化和虚拟现实环境等应用的理想选择。NeRF Studio等工具通过使开发人员能够添加语义嵌入等功能来增强 NeRF 的功能，从而实现更高级的应用程序和更丰富的交互式体验。

尽管 NeRF 效率高，但要想有效运行，仍然需要大量计算资源和高质量图像，这可能会限制其在实时处理或动态环境中的实用性。NVIDIA 正在通过用于大规模模型的NVIDIA NeRF-XL和用于加速处理的NVIDIA Instant-NeRF等研究项目推进 NeRF 技术的发展，突破现实捕捉的极限。

高斯铺层是一种高效的实时渲染 3D 表面或体积的技术，通过在 2.5D 空间中布置 2D 铺层（小的、重叠的高斯函数），实现平滑、连续的可视化效果，平衡细节和性能。它在需要快速清晰地可视化复杂 3D 点云的场景中表现出色，使其成为建筑、城市规划、增强现实和虚拟现实应用的理想选择。

基于摄影测量的建筑物 3D 模型，捕捉主要结构但缺少周围城市景观和环境的细节，提供的背景信息有限。
同一建筑物的高斯溅射 3D 模型，包括详细纹理和周围的城市景观，提供具有完整环境背景的更全面的可视化。
图 1. 摄影测量法可以捕捉结构的网格，但会遗漏周围环境和背景（左）。高斯分布包括背景，为开发人员和受益于完整上下文的用例提供更好的可视化效果（右）。照片来源：Ben Stocker，Skender

虽然它提供了出色的流 cg 线索 畅度和速度，但几何精度却有所降低，这可能会限制其在需要高保真度的环境中的使用。NVIDIA 已经通过NVIDIA InstantSplat（用于快速 3D 重建）、NVIDIA 4D-Rotor Gaussian splatting（用于实时动态场景可视化）和NVIDIA Align Your Gaussians (AYG)（用于从文本描述生成高质量 4D 可视化）等工具改进了这项技术。在 Omniverse 平台的支持下，这些创新可在大型项目和动态环境中实现高效、详细和实时的可视化，为建筑可视化、施工监控和数字内容创建带来显著优势。

Atomic Maps等初创公司正在通过将高斯图块集成到Cesium 图块中来突破界限，提供地图级地理环境，通过全面的地理框架增强可视化效果。

从卫星图像放大到电力变压器的 3D 模型的视图。
图 2. Atomic Maps 将高斯图块集成到 Cesium 图块中，增强了地理背景和 3D 可视化
这些技术可以捕捉传统摄影测量法可能遗漏的复杂细节和背景元素，从而实现更准确、更身临其境的环境表现。虽然摄影测量法在精确测量和勘测方面表现出色，但 NeRF 和高斯分布提供了卓越的视觉保真度，使开发商、建筑业主和利益相关者能够可视化具有丰富背景环境的项目，例如从建筑阳台上看到的城市景观，并看到标准摄影测量法中通常不存在的电话线和交通标志等精细细节。这些增强的可视化效果提供了对项目的更全面了解，有助于在设计、规划和施工阶段做出更好的决策。

人工智能捕捉现实

AI 正在通过显著改进对象识别、分割和 3D 重建过程来改变现实捕捉。像Hover这样的初创公司正在引领使用 AI 生成建筑物详细 3D 模型的潮流，从而提高结构分析和分类的准确性和效率。