广告位

您现在的位置是：主页 > 营销推广 >

Bolt3D – 牛津大学联合谷歌推出的 3D 场景生成技术

2025-04-23 22:59营销推广人已围观

简介Bolt3D 是谷歌研究院、牛津大学 VGG 团队和谷歌 DeepMind 联合推出的新型 3D 场景生成技术，是潜在扩散模型，能在单个 GPU 上，仅需不到七秒的时间，直接从一张或多张图像中采样出 3D 场...

Bolt3D 是谷歌研究院、牛津大学 VGG 团队和谷歌 DeepMind 联合推出的新型 3D 场景生成技术，是潜在扩散模型，能在单个 GPU 上，仅需不到七秒的时间，直接从一张或多张图像中采样出 3D 场景表示。在英伟达 H100 图形处理单元上，Bolt3D 仅需 6.25 秒能将照片处理成完整的三维场景。

快速生成 3D 场景：Bolt3D 是一种前馈式生成方法，能直接从一张或多张输入图像中采样出 3D 场景表示，生成速度极快，在单个 GPU 上仅需 6.25 秒即可完成。
多视角输入与泛化能力：支持不同数量的输入图像，从单视图到多视图均可处理，能生成未被观测区域的内容，具备良好的泛化能力。
高保真 3D 场景表示：基于高斯溅射（Gaussian Splatting）技术来存储数据，通过布置在二维网格中的三维高斯函数来构建三维场景，每个函数都记录着位置、颜色、透明度和空间信息，生成的 3D 场景质量高。
实时交互与应用：用户可以在浏览器中实时查看和渲染生成的 3D 场景，具有广泛的应用前景，如游戏开发、虚拟现实、增强现实、建筑设计、影视制作等领域。

几何多视角潜在扩散模型：训练了多视图潜在扩散模型，用于联合建模图像和 3D 点图。模型将一张或多张图像及其相机位姿作为输入，学习捕捉目标图像、目标点图和源视图点图的联合分布。
几何 VAE：训练了几何 VAE，将一个视图的点图和相机射线图联合编码为一个几何潜在特征。模型通过最小化标准 VAE 目标和特定几何损失的组合进行优化，能以高精度压缩点图。
高斯头部模型：给定相机以及生成的图像和点图，训练多视图前馈高斯头部模型，输出存储在散点图像中的 3D 高斯的细化颜色、不透明度和协方差矩阵。
大规模多视图一致数据集：为了训练 Bolt3D，创建了大规模的多视图一致的 3D 几何和外观数据集，通过对现有的多视图图像数据集应用最先进的密集重建技术来生成。
三阶段训练过程：采用三阶段训练过程，首先训练几何变分自编码器（Geometry VAE），然后训练高斯头部模型，最后训练潜在扩散模型。