全球AI视频技术竞赛加速：Runway即将推出更优更快的第三代AI视频模型｜TodayAI

人工智能新闻1年前 (2024)发布 TodayAI

1,851 0 0

Runway即将在未来几天推出其更优更快的第三代AI视频模型，这是新一代模型中最小的一个。据公司透露，这款名为Gen-3的模型将带来“在真实度、一致性和动态效果上的重大提升”，同时在速度上也有显著的加快。

去年六月，Runway首次推出了商业化的文本到视频AI模型Gen-2，开启了合成视频技术的全球革命。现在，Runway与Pika Labs、Haiper、Luma Labs以及尚未发布的Sora等公司展开竞争。

全球AI视频技术竞赛加速：Runway即将推出更优更快的第三代AI视频模型｜TodayAI

第三代模型是Runway以及整个AI视频领域的一次重大进步。该模型从底层完全重建，采用了专为大规模多模式训练而设计的全新基础设施。这一新模型同时在图像和视频上进行训练，极大地提升了真实感。

公众将很快能够体验到Gen-3模型的Alpha版本。Runway的首席技术官兼联合创始人Anastasis Germanidis表示，这是得益于新的训练基础设施而来的新一代前沿AI模型中最小的一个。

Runway第三代带来了哪些惊喜？

Runway Gen-3在视频中控制动作的能力得到了改进，同时它还能更好地理解现实世界的运动和物理法则。结合其接近真实的视觉效果，Gen-3能够创造出几乎无法与现实区分的视频。

团队在第一次使用完成训练的Gen-3时，其场景创作方式带来了一些惊喜，这得益于至少10秒的视频创作时间，而前一代的最长时间仅为四秒。Germanidis透露：“创造不寻常过渡的能力是我们在内部使用Gen-3 Alpha时最有趣和令人惊讶的方式之一。这款模型能够整合并理解环境中的剧烈变化，并取得非常令人满意的结果。”

此外，用户在改变场景和环境时拥有更大的时间控制能力，因为它是通过每个场景多个高度描述性的标题进行训练的，这使得它能够生成具有不寻常且有趣的环境和行动过渡的视频，以及对特定时间元素进行精确的关键帧设置。

Germanidis还指出，这些模型改进与现有的控制模式如运动笔刷、高级相机控制和导演模式相结合，为用户提供了前所未有的控制能力。无论是从图像、文本还是视频开始，Gen-3都支持多种输入方式，而且无论使用哪种方式，Gen-3 Alpha在时间一致性方面都有显著的改进，并且相比Gen-2在形态变化上有了大幅减少。

构建“通用世界模型”

Germanidis还向外界透露，这是Runway从头开始训练的下一代基础模型中的第一个，未来的版本将达到甚至超过大型语言模型的规模。Runway正朝着构建“通用世界模型”迈进，这种模型是AI系统，能够构建环境的内部表现，并使用它来模拟该环境中未来的事件，旨在表现和模拟现实世界中遇到的各种情况和互动。

尽管Gen-3还处于初期阶段，但它已经迈出了构建开放世界模型的第一步。Germanidis提醒，尽管Gen-3在处理复杂的角色和物体互动时可能会遇到挑战，且生成的结果并不总是严格遵循物理定律，但这只是一个开始。

全球AI视频技术突破

全球AI视频生成技术迎来了多项重大突破，其中包括快手的可灵（Kling AI）、以及Luma AI的梦机器（Dream Machine），各自推动了视频内容创造的新高度。这些模型展示了从简短文本到复杂场景生成的惊人能力，标志着AI视频技术的一大飞跃。

由快手推出的可灵AI，能够生成高达两分钟、1080p质量的视频。这个模型特别注重真实模拟和高级视频质量，能够基于简单的文本提示创造出极具现实感的视频。目前，可灵AI处于公开测试阶段。

梦机器（Dream Machine）由Luma AI开发，这款模型能够从文本指令和图片中创建高质量、逼真的视频镜头。它代表了AI视频生成领域的一个重大里程碑，尽管具体的性能细节较少公开，但它被看作是与OpenAI的Sora等竞争产品的重要竞争者。

这些技术的推出不仅为内容创作者提供了更多工具，还预示着未来视频制作和虚拟现实领域的巨大潜力。随着AI视频模型的不断进步，未来的视频内容创造将更加多元化和生动，为广告、娱乐及教育行业带来前所未有的变革。