(资料图片)
与文本到图像的生成AI形成鲜明对比的是,几乎没有任何可用于视频的东西。但随着初创公司Runway最近公布了其新的AI模型:Gen-2,这种情况可能很快就会改变。
Gen-2的功能类似于StableDiffusion(顺便说一句,Runway参与创建),通过接收文本提示从头开始创建视频。正如开发者网站上所见(在新标签页中打开),您可以创建纽约市阁楼外的山脉或日落的航拍镜头。文本到视频的升级一开始听起来可能并不那么令人印象深刻,但如果你将它与Runway之前的努力进行比较,它就会令人印象深刻。
早在2月,开发人员就推出了其Gen-1模型(在新标签页中打开)这更像是一个视频编辑器。它需要某种基础,例如未完成的3D动画或人物,然后模型才能用AI制作的视频覆盖该素材。旧的人工智能无法从头开始创造任何东西。
旧模型的粉丝将能够继续享受Gen-1,因为它的功能将在Gen-2中成为独立的模式。
然而,模式01是主要的文本到视频功能组件。第二种新模式允许您将图像添加到文本提示中以产生更好的结果。对于第三种模式,您只需上传图片即可生成视频。不需要文本提示。
Mode03之后的一切都是Gen-1的东西(在新标签页中打开).模式04:风格化将“任何图像提示的风格应用于视频的每一帧”,如添加火热效果。模式05:故事板将模型素材转换为AI渲染的视频。接下来是Mask来隔离主题并使用简单的提示修改它们,例如“为拉布拉多添加斑点以创建斑点狗”。第七是渲染,人工智能通过3D渲染生成视频。最后一个,Customization,与Render做同样的事情,但与人有关。
可用性
这项技术仍处于早期阶段。至少可以说,演示卷轴的预览看起来很奇怪。他们深入恐怖谷,建筑物相互融合,人们目光空洞。即便如此,拥有一个公开可用的文本到视频生成AI的可能性还是令人兴奋的。它可以为创造力(或错误信息)开辟新的途径。一些科技巨头之前已经涉足人工智能视频,例如谷歌及其ImagenVideo项目,但这些模型仍处于闭门造车状态。
部分报道(在新标签页中打开)声称在Runway的私人Discord频道上有一个提前访问Gen-2的候补名单。但是,我们发现的唯一测试版是针对Gen-1的。今年晚些时候可能会有Gen-2beta,尽管目前还没有官方消息。同时,您可以通过Runway的网站加入Discord频道以获取更新。