Stability AI推出SV3D：重塑3D创造力边界｜TodayAI

人工智能新闻1年前 (2024)更新 TodayAI

14,946 0 0

在不断推陈出新的人工智能领域，Stability AI再次引发业界关注，这次他们带来的是全新的3D生成模型——Stable Video 3D（简称SV3D）。这款模型以其高质量的输出和强大功能，再次证明了Stability AI在AI技术革新方面的领先地位。

SV3D的亮点在于其对单张图像的强大处理能力。通过仅需一张图片，它就能生成对应的3D模型，这在技术上是一次巨大的飞跃。与此同时，与Stability AI此前推出的Stable Zero123相比，SV3D在模型质量和功能性上都有了显著提升，这主要得益于其基于Stable Video Diffusion的架构，这一架构最大化地发挥了视频模型的功能性，尤其在生成输出的泛化能力和视图一致性方面，展现了视频扩散模型相较于图像扩散模型的明显优势。

从公布的演示中可见，SV3D在3D模型生成上的能力远超同类模型，无论是篮球、玉米还是钟表，生成的3D效果都极为逼真，显示了视频模型在理解和重建三维物体方面的强大能力。Stability AI也幽默地提到，在未来的法庭上，SV3D或许可以成为一名不可多得的证人。

SV3D项目的公开，旨在进一步推动3D生成技术的发展和应用。Stability AI还提供了模型的下载链接，以及两个进阶版本——SV3D_u和SV3D_p，分别用于生成基于单图像输入的轨道视频，以及支持单图像和轨道视图输入的更高级功能，从而允许沿指定的摄像机路径创建3D视频。这一系列举措展现了Stability AI在技术共享和推广方面的开放态度。

在Stable Video 3D的背后，是计算机视觉中一个长期而具有挑战性的问题——单图像3D对象重建。这一问题的解决不仅对游戏设计、AR/VR、电子商务、机器人等领域具有重要意义，也代表了AI技术在3D重建领域的一大进步。SV3D通过先进的视频扩散模型（Stable Video Diffusion，SVD）技术，实现了对给定对象多个新视图的生成，具备出色的多视图一致性，并通过大规模图像和视频数据训练，展现了更强的泛化能力。

SV3D的工作机制也颇为引人注目。首先，它根据输入的单个图像生成一致的多视图图像，然后利用这些生成视图优化3D表示，最终生成高质量的3D网格。这一过程不仅需要生成具有高度一致性的多视图图像，还要解决3D空间中物体不可见部分的推理问题，这无疑对模型的理解能力和创造力提出了更高要求。

为了进一步提升模型的效能，研究团队还实施了解纠缠照明优化和新的掩蔽分数蒸馏采样损失功能，这使得SV3D能够从单个图像输入中可靠地输出高质量的3D网格。在众多数据集上的实验结果也表明，无论是在新视图合成还是3D重建方面，SV3D都达到了当前最好的性能。

值得一提的是，SV3D的设计思路充分利用了视频扩散模型中的时间一致性来实现对象的空间3D一致性，这一策略的成功应用为3D生成技术提供了新的研究方向。通过对SVD的调整和摄像机路径的优化，SV3D能够围绕3D物体生成多视图视频，为3D内容的创造提供了更多可能性。

Stability AI此次推出的Stable Video 3D无疑是3D生成领域的一次重要突破，它不仅提高了3D模型生成的质量和效率，也为未来3D内容的创造和应用开辟了新的道路。随着技术的不断进步和应用的不断拓展，我们有理由期待，3D生成技术将在更多领域发挥重要作用，推动整个行业的发展。