不能输的战争:谷歌的Veo能否成功阻击OpenAI的Sora?|TodayAI

人工智能新闻2个月前更新 TodayAI
2,217 0 0
PonderAI-智能助手

不能输的战争:谷歌的Veo能否成功阻击OpenAI的Sora?|TodayAI

在2024年谷歌I/O大会上,谷歌宣布推出Veo,这是一款能够根据文本、图像或视频提示生成高清视频的AI视频合成模型。Veo具有生成1080p分辨率、时长超过一分钟的视频的能力,并能根据书面指令编辑视频,但目前尚未向公众广泛发布。

据介绍,Veo能够使用文本命令编辑现有视频,并在视频帧间保持视觉一致性。此外,该模型能够根据单个提示或一系列构成叙事的提示,生成长达60秒及以上的视频序列。公司表示,Veo能够生成详细的场景,并应用多种电影效果,如时间推移、空中镜头等。

自从OpenAI在2022年推出图像生成工具DALL-E 2以来,谷歌和其他科技巨头陆续推出了多种图像和视频合成模型,旨在让用户能够仅通过输入文字描述来创建图像或视频。这些技术虽然尚在不断完善中,但其生成能力已显著提升。

OpenAI的视频生成器Sora在今年2月首次亮相,当时其表现令行业内多数观察者印象深刻,甚至促使电影制作人Tyler Perry搁置其工作室的扩建计划。尽管如此,OpenAI至今尚未向广泛用户开放Sora的使用,仅限于少数测试者。

而谷歌的Veo似乎有望达到与Sora相媲美的视频生成效果。尽管公众尚未亲自体验Veo,但可以从谷歌提供的演示视频中窥见一斑,包括牛仔骑马、快速移动的郊区街道镜头、烧烤肉串和向日葵绽放等场景。

 

值得注意的是,Veo在生成人物视频时尚未展示详细描述,这一直是AI视频模型面临的难题,因为生成的人物往往容易出现变形。

Veo在技术上建立在谷歌此前的视频生成模型基础之上,包括生成查询网络(GQN)、DVD-GAN、Imagen-Video等。为了提高生成质量和效率,Veo的训练数据包括了更详细的视频描述,并采用了压缩的“潜在”视频表示形式。

 

谷歌表示,Veo特别支持电影制作指令。例如,用户可以命令Veo在一个海岸线的空中镜头中添加皮划艇,Veo能够根据这些命令生成新的、经过编辑的视频。

虽然演示看起来一眼就令人印象深刻(特别是与Will Smith吃意大利面相比),谷歌承认AI视频生成是困难的。“在视频生成模型中保持视觉一致性可能是一个挑战,”公司写道。“角色、对象甚至整个场景都可能在帧之间闪烁、跳跃或意外变形,这会破坏观看体验。”

 

谷歌已经尝试通过“尖端潜在扩散变换器”来减轻这些缺点,这基本上是没有具体细节的营销话术。但公司对这个模型足够自信,正在与演员Donald Glover及其工作室Gilga合作,制作一部即将首映的AI生成演示电影。

接下来,Veo将通过Google的AI Test Kitchen网站上的一个新实验工具VideoFX向选定的创作者开放。创作者可以加入VideoFX的等待列表,有可能在未来几周内获得使用Veo功能的权限。谷歌计划将Veo的一些功能整合到YouTube Shorts和其他产品中。

谷歌尚未透露Veo的训练数据来源,但表示正在对Veo采取“负责任”的方法。所有通过Veo创建的视频都将使用谷歌的先进水印和识别工具SynthID进行标记,并通过安全过滤器和记忆检查过程,以减少隐私、版权和偏见方面的风险。

 

不能输的战争:谷歌的Veo能否成功阻击OpenAI的Sora?|TodayAI
© 版权声明

相关文章