编辑:计算机视觉工坊
添加小助理:dddvision,备注:3D目标检测,拉你入群。文末附行业细分群扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
论文作者:Zhongrui Yu | 编辑:计算机视觉工坊
添加微信:dddvision,备注:3D高斯,拉你入群。文末附行业细分群标题:SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior
论文地址:https://arxiv.org/pdf/2403.20079.pdf
1.导读
这篇文章提出了一种基于高斯散射和扩散先验的街道场景新视角合成方法。为了应对车辆捕获的图像视角受限的问题,文章对扩散模型进行了微调,以增强高斯散射模型对未见视角的感知能力。具体而言,文章利用相邻帧图像和激光雷达点云深度信息作为条件,微调扩散模型。在训练高斯散射模型时,文章渲染了一些随机采样的伪视角图像,并通过微调后的扩散模型生成这些视角的指导图像。实验证明,这种方法在KITTI和KITTI-360数据集上取得了较好的效果,并且能够在远离训练视角的新视角下保持高质量的渲染效果。总体来说,该文章通过高斯散射和扩散先验的结合,提升了自动驾驶仿真中新视角控制的能力最新官网的telegram的官网下载的入口是多少。
2.主要贡献
3、方法总览
我们的方法概述如下图所示。(a)扩散模型[27]微调中有两个训练阶段。首先,通过注入与文本提示的 CLIP 文本特征连接的参考图像的补丁CLIP图像特征来对U-Net 进行微调。其次,以目标图像的深度作为控制信号来训练ControlNet。(b).(a)中的微调扩散模型通过提供伪视图的正则化来纸飞机的下载的方法指导3DGS训练。为了简单起见,图中省略了VAE编码器和解码器最新官网的telegram官方中文版的下载入口是什么。
主要关键内容:
微调Diffusion telegram的官网的下载网址在哪里 Model:首先在自动驾驶数据集上微调Diffusion Model,利用相邻帧作为条件,并结合LiDAR点云提供的深度信息。微调包括两个阶段:第一阶段通过CLIP图像编码器引入相邻帧的语义信息,第二阶段通过ControlNet引入深度信息来控制图像生成。
3D Gaussian Splatting与Diffusion Prior结合:将微调后的Diffusion Model与3D Gaussian Splatting结合,用于指导未观察视角的合成。在3DGS训练过程中,除了训练视角外,还随机采样伪视角。利用Diffusion Model对3DGS渲染的伪视角图像进行指导,以增强其未观察世界的感知能力。
详细阐述了文章提出的SGD方法,旨在通过结合Diffusion Model提供的先验知识,来增强3DGS在自动驾驶场景中的新颖视角合成能力。
4、损失函数
涉及的损失函数主要包括以下几种:
重建损失 Lrecon:用于优化3D高斯模型的参数Φo,包括RGB损失、SSIM损失和深度损失,计算渲染图像与真实图像之间的差距。
伪视图损失 Lpseudo:用于优化3D高斯模型的参数Φp,包括RGB损失、SSIM损失和深度损失,计算渲染伪视图与通过扩散模型生成的指导图像之间的差距。
综合损失 L:综合重建损失和伪视图损失,通过超参数λpseudo进行加权,最终优化3D高斯模型的参数Φ。
扩散模型损失:包括两阶段损失函数,第一阶段通过U-Net损失函数L(θ)优化扩散模型的参数θ,第二阶段通过ControlNet损失函数L(˜θ)优化ControlNet的参数˜θ。
U-Net损失函数L(θ):用于优化扩散模型的U-Net部分,计算随机噪声与U-Net输出的噪声之间的差距。
ControlNet损失函数 L(˜θ):用于优化扩散模型的ControlNet部分,计算随机噪声与ControlNet输出的噪声之间的差距。
因此,文档中涉及的主要损失函数包括重建损失、伪视图损失、扩散模型损失等,通过这些损失函数的组合,可以有效地优化3D高斯模型和扩散模型的参数。
5、实验结果
主要描述了作者进行的实验以及实验结果。该部分包含以下关键内容:
实验细节: 作者详细介绍了实验中所使用的模型和超参数设置,包括扩散模型和3D高斯模型的训练细节。
实验设置: 作者说明了实验中使用的两个自动驾驶数据集(KITTI和KITTI-360),并指出仅对KITTI-360数据集进行了扩散模型的微调,而KITTI数据集则未参与微调。
竞争模型选择: 作者选择了3个竞争模型进行比较,包括3DGS、Zip-NeRF和MARS。为进行公平比较,作者复现了3DGS,并对其参数进行了调整。
实验结果: 作者展示了在测试视图和新型视图上的定量和定性比较结果。结果显示,在稀疏输入情况下,作者的方法优于其他竞争方法,同时保持了较高的渲染质量和实时渲染能力。
消融实验: 作者进行了两个主要过程的消融实验,包括扩散模型的微调和3DGS训练过程,以验证各模块的有效性。
总的来说,这部分通过实验结果验证了作者方法的有效性,并提供了与其他方法的比较结果。
6、总结
总之,我们提出了一种旨在增强自动驾驶场景中自由视点渲染能力的方法。尽管存在某些局限性,但我们的方法已显示出能够从新颖的角度保持高质量渲染,并且渲染效率相当高。这使得我们的方法能够在自动驾驶模拟中提供更广阔的视角,从而能够模拟潜在危险的极端情况,从而提高自动驾驶系统的整体安全性和可靠性。
本文仅做学术分享,如有侵权,请联系删文。
计算机视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群
添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉学习知识星球
3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。