揭开Sora模型的神秘面纱：高达72万H100 GPU峰值需求，每月不低于4200块。｜TodayAI

人工智能新闻1年前 (2024)发布 TodayAI

3,520 0 0

在技术界引起轰动的OpenAI最新成果——Sora模型，以其生成极其逼真视频的能力震惊了全球。尽管OpenAI对这项革命性技术的详细情况守口如瓶，我们仅能通过一些官方技术报告、TikTok上的展示视频以及对团队的零星访谈中，勾勒出这一技术的轮廓。

不过，天下没有不透风的墙。3月15日，以前瞻性投资著称的Factorial Funds在其技术博客中发布了一篇文章，详尽解读了Sora的背后技术原理，从参数规模、算力配置，到训练与推理的逻辑，乃至其商业潜力，一一剖析，令技术爱好者大开眼界。

深度解析Sora的技术奥秘：

Sora采用了扩散Transformer模型和潜在扩散技术，这不仅极大地扩展了模型和训练数据集的规模，更标志着视频模型技术的一大进步。
如同大型语言模型的发展一样，Sora的进一步扩展预示着视频生成技术将迎来快速的性能提升。
众多公司如Runway、Genmo和Pika正致力于围绕Sora等视频生成模型开发更直观的界面和工作流程，这将大幅提高这些模型的实用性和普及度。
训练Sora模型所需的计算资源庞大，根据估计，仅训练一个月就需要使用4200至10500个Nvidia H100 GPU。
相比之下，像Sora这类基于扩散的模型，在推理成本上要远高于大型语言模型，其每小时最多能在一个Nvidia H100 GPU上生成约5分钟的视频内容。
背后的技术细节：
Sora模型作为一种扩散模型，它通过一个逐步去噪的过程学习生成数据，例如图像或视频。这与大型语言模型的工作原理有所不同，后者是通过迭代生成每个标记来构建输出。Sora模型的设计显然深受“Scalable Diffusion Models with Transformers”这篇研究论文的影响，该论文提出了一种基于Transformer的架构，即DiT（Diffusion Transformers），用于图像生成。Sora将这一概念扩展到了视频生成领域，并利用大规模数据集进行训练，实现了前所未有的视频生成效果。

对未来的影响和展望：
Sora在视频生成领域的突破，不仅在质量和功能上取得了重大进展，同时也预示着未来对GPU推理计算需求的显著增长。随着视频生成技术的持续完善和应用范围的不断扩大，我们可以预期，未来将有更多创新的模型如Sora般涌现，为视频内容的创作和消费带来翻天覆地的变化。然而，这也意味着未来对计算资源的需求将达到一个新的高度，对硬件产业乃至整个技术生态产生深远的