Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放

2025-10-27 • 印刷设备 • 作者：小编

机器之心报道

StabilityAI的大模型家族来了一位新成员。

该模型基于StableVideoDiffusion打造，能够显著提升3D生成的质量和多视角一致性，效果要优于之前StabilityAI推出的StableZero123以及丰田研究院和哥伦比亚大学联合开源的Zero123-XL。

目前，StableVideo3D既支持商用，需要加入StabilityAI会员（Membership）；也支持非商用，用户在HuggingFace上下载模型权重即可。

论文地址：

博客地址：

Huggingface地址：

技术概览

StableVideo3D在3D生成领域实现重大进步，尤其是在新颖视图生成（novelviewsynthesis，NVS）方面。

以往的方法通常倾向于解决有限视角和输入不一致的问题，而StableVideo3D能够从任何给定角度提供连贯视图，并能够很好地泛化。因此，该模型不仅增加了姿势可控性，还能确保多个视图中对象外观的一致性，进一步改进了影响真实和准确3D生成的关键问题。

如下图所示，与StableZero123、Zero-XL相比，StableVideo3D能够生成细节更强、更忠实于输入图像和多视角更一致的新颖多视图。

此外，StableVideo3D利用其多视角一致性来优化3D神经辐射场（NeuralRadianceFields，NeRF），以提高直接从新视图生成3D网格的质量。

为此，StabilityAI设计了掩码分数蒸馏采样损失，进一步增强了预测视图中未见过区域的3D质量。同时为了减轻烘焙照明问题，StableVideo3D采用了与3D形状和纹理共同优化的解耦照明模型。

下图为使用StableVideo3D模型及其输出时，通过3D优化改进后的3D网格生成示例。

下图为使用StableVideo3D生成的3D网格结果与EscherNet、StableZero123的生成结果比较。

架构细节

StableVideo3D模型的架构如下图2所示，它基于StableVideoDiffusion架构构建而成，包含一个具有多个层的UNet，其中每一层又包含一个带有Conv3D层的残差块序列，以及两个带有注意力层（空间和时间）的transformer块。

具体流程如下所示：

(i)删除「fpsid」和「motionbucketid」的矢量条件，原因是它们与StableVideo3D无关；

(ii)条件图像通过StableVideoDiffusion的VAE编码器嵌入到潜在空间，然后在通向UNet的噪声时间步t处连接到噪声潜在状态输入zt；

(iii)条件图像的CLIPembedding矩阵被提供给每个transformer块的交叉注意力层来充当键和值，而查询成为相应层的特征；

(iv)相机轨迹沿着扩散噪声时间步被馈入到残差块中。相机姿势角度ei和ai以及噪声时间步t首先被嵌入到正弦位置嵌入中，然后将相机姿势嵌入连接在一起进行线性变换并添加到噪声时间步嵌入中，最后被馈入到每个残差块并被添加到该块的输入特征中。

此外，StabilityAI设计了静态轨道和动态轨道来研究相机姿势调整的影响，具体如下图3所示。

为了构建动态轨道，StabilityAI对静态轨道采样，向方位角添加小的随机噪声，并向其仰角添加不同频率的正弦曲线的随机加权组合。这样做提供了时间平滑性，并确保相机轨迹沿着与条件图像相同的方位角和仰角循环结束。

实验结果

StabilityAI在未见过的GSO和OmniObject3D数据集上，评估了静态和动态轨道上的StableVideo3D合成多视图效果。结果如下表1至表4所示，StableVideo3D在新颖多视图合成方面实现了SOTA效果。

表1和表3显示了StableVideo3D与其他模型在静态轨道的结果，表明了即使是无姿势调整的模型SV3D_u，也比所有先前的方法表现得更好。

消融分析结果表明，SV3D_c和SV3D_p在静态轨道的生成方面优于SV3D_u，尽管后者专门在静态轨道上进行了训练。

下表2和表4展示了动态轨道的生成结果，包括姿势调整模型SV3D_c和SV3D_p，后者在所有指标上实现了SOTA。

下图6中的视觉比较结果进一步表明，与以往工作相比，StableVideo3D生成的图像细节更强、更忠实于条件图像、多视角更加一致。

更多技术细节和实验结果请参阅原论文。

免责声明：本文章如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

尚品包装在线