揭开Sora模型的神秘面纱:高达72万H100 GPU峰值需求,每月不低于4200块。|TodayAI

人工智能新闻6个月前发布 TodayAI
3,458 0 0
PonderAI-智能助手

揭开Sora模型的神秘面纱:高达72万H100 GPU峰值需求,每月不低于4200块。|TodayAI

在技术界引起轰动的OpenAI最新成果——Sora模型,以其生成极其逼真视频的能力震惊了全球。尽管OpenAI对这项革命性技术的详细情况守口如瓶,我们仅能通过一些官方技术报告、TikTok上的展示视频以及对团队的零星访谈中,勾勒出这一技术的轮廓。

不过,天下没有不透风的墙。3月15日,以前瞻性投资著称的Factorial Funds在其技术博客中发布了一篇文章,详尽解读了Sora的背后技术原理,从参数规模、算力配置,到训练与推理的逻辑,乃至其商业潜力,一一剖析,令技术爱好者大开眼界。

深度解析Sora的技术奥秘:

Sora采用了扩散Transformer模型和潜在扩散技术,这不仅极大地扩展了模型和训练数据集的规模,更标志着视频模型技术的一大进步。
如同大型语言模型的发展一样,Sora的进一步扩展预示着视频生成技术将迎来快速的性能提升。
众多公司如Runway、Genmo和Pika正致力于围绕Sora等视频生成模型开发更直观的界面和工作流程,这将大幅提高这些模型的实用性和普及度。
训练Sora模型所需的计算资源庞大,根据估计,仅训练一个月就需要使用4200至10500个Nvidia H100 GPU。
相比之下,像Sora这类基于扩散的模型,在推理成本上要远高于大型语言模型,其每小时最多能在一个Nvidia H100 GPU上生成约5分钟的视频内容。
背后的技术细节:
Sora模型作为一种扩散模型,它通过一个逐步去噪的过程学习生成数据,例如图像或视频。这与大型语言模型的工作原理有所不同,后者是通过迭代生成每个标记来构建输出。Sora模型的设计显然深受“Scalable Diffusion Models with Transformers”这篇研究论文的影响,该论文提出了一种基于Transformer的架构,即DiT(Diffusion Transformers),用于图像生成。Sora将这一概念扩展到了视频生成领域,并利用大规模数据集进行训练,实现了前所未有的视频生成效果。

对未来的影响和展望:
Sora在视频生成领域的突破,不仅在质量和功能上取得了重大进展,同时也预示着未来对GPU推理计算需求的显著增长。随着视频生成技术的持续完善和应用范围的不断扩大,我们可以预期,未来将有更多创新的模型如Sora般涌现,为视频内容的创作和消费带来翻天覆地的变化。然而,这也意味着未来对计算资源的需求将达到一个新的高度,对硬件产业乃至整个技术生态产生深远的

揭开Sora模型的神秘面纱:高达72万H100 GPU峰值需求,每月不低于4200块。|TodayAI
© 版权声明

相关文章