<iframe allowfullscreen="true" border="0" class="center-iframe" frameborder="0" height="300" scrolling="no" src="https://tv.sohu.com/s/sohuplayer/iplay.html?bid=562590712&vars=%5B%5B%22showRecommend%22%2C0%5D%5D&disablePlaylist=true&mute=1&autoplay=false" style="font-size: 16px; border-top: 0px; border-right: 0px; border-bottom: 0px; padding-bottom: 0px; padding-top: 0px; padding-left: 0px; border-left: 0px; margin: 0px auto; display: block; padding-right: 0px" width="500"></iframe>
最近,国内的视频 AI 们,全都扎堆上线了。。。
这不,智谱的清影 AI 上线还没几天,国内另外一个视频 AI 界的大神,Vidu 也跳出来了,不用排队,免费就能用。
大伙儿应该也都知道,之前 Vidu 一出来,就在小范围火了一波,当时世超还专门给它盘了一篇文章。
光是来头就能唬住不少人, Vidu 背靠的是清华系团队,他们早在 Sora 之前,就抢先发了一篇把扩散模型和 Transformer 模型融合在一起( Sora 用的也是这个思路)的论文。
而且因为清华小分队早发了两个月,当年的计算机视觉顶会CVPR 2023还以“缺乏创新”的由头,拒了 Sora 的 DiT 论文。
虽说最后, Vidu 的宣传视频出来得晚了些,但效果在彼时的一堆视频 AI 里,还是很扎眼的存在,各种视角、各种场景,好像都能 handle 住。
所以这次它宣布开放使用后,世超在第一时间就上手了一波。
到底有没有宣传视频里那么厉害,跟咱看看就知道了。
先来试试 Vidu 文字生成视频的效果,这一回合世超拉来了体感还不错的可灵 AI 来做对比。
第一招,我们来测测它们各自对提示词的理解程度,看能不能把所有要素都展示出来。
提示词:
写实风格,镜头慢慢推进,在一个雨天,一对情侣坐在餐厅靠窗的位置吃饭。
Vidu 这边在生成的时候,会贴心给一些影视方面的小百科,而且速度也挺麻溜。
这颇有电影感的画面,雨天、情侣等要素也挺齐全,唯一的缺点没get到提示词里的“吃饭”
轮到老将可灵 AI 这边,没想到一上来就有点翻车了,照理说它应该挺擅长吃东西的画面,但这次不知道咋了,两个人嘴巴全都变形了,不过要素倒还挺全。
紧接着,我们又同时给可灵和 Vidu 喂了一组超现实的提示词,考验下视频 AI 厂商们都爱宣传的“电影感”。
让它们生成一组“末日时,一名战士破土而出”的画面。
Vidu 生成的效果是这样的,只能说中规中矩,画面的质感一般般,而且也没给战士一个露脸的机会。
反观可灵 AI 这边,对场景的处理则更加细腻一些,不仅画面的质感、清晰度上去了,连走路会扬起灰尘这种细节,它都能捕捉到。
除了常规风格外, Vidu 这次还整出来一个专门的“动画风格”,据说效果还不错。那接下来,我们就用这个风格来给它和可灵搭个擂台。
提示词:
动漫电影风格,从侧面拍摄,镜头聚焦在面部,夜晚,一个长发女人坐在公交车靠窗的位置,眼睛望向窗外不断变化的街景,忽明忽暗的光线打在她的脸上,画面弥漫着孤独感 。
Vidu 这边确实也没让咱失望,这女主角真有点日漫那味了,而且咱也能透过窗户,看到外面一闪而过的景象。
这波可灵 AI 又开始掉链子了,提示词里面的“动漫电影风格”,它直接给忽略掉了,而且公交车虽然在往前走,但外面的街景的变化有点不太明显。。。
既然是动漫风格,那肯定少不了测试想象力的环节,考考它们各自是如何处理现实不存在的场景的,比如“小男孩突然化身大橘猫”。
提示词:
宫崎骏画风,一个可爱的小男孩正在跑步,跑着跑着突然变身成一只可爱的大橘猫
有一说一, Vidu 的效果确实震撼到是世超了,抛开画质这个老毛病,整段视频基本看不出什么破绽,变身的过程也无比丝滑。
至于可灵 AI 嘛,可能类似的场景是真撞到它的枪口上了,看生成的视频,可能它连提示词本身都没太理解。
而且,世超在试的时候发现,这次的 Vidu 还有市面上能用视频 AI ,都有一个通病,那就是不能理解物理世界规律。
像是世超让 Vidu 和可灵生成一段“两只猫咪打乒乓球”的视频,那球可以说是满天乱飞,而且看球也都不像是乒乓球的样子。。。
有意思的是,世超还用 Vidu 之前宣传里的提示词,原封不动地喂给了它,结果出来的视频,看得人背后是直冒冷气。
不过整体来看, Vidu 的效果还算是可圈可点,最起码在动漫,还有一些涉及到想象力的画面中,表现得还算不错。
除了能文生视频外, Vidu 这波也还新增了图生视频的功能,世超发现,这简直就是恶搞人士的福音( 手动狗头)。
随便上传一个表情包上去, Vidu 能立马让它动起来,看着效果也都还不错。
而且我们还可以自己选,是让上传的图片作为第一帧,还是只参考就行了。
就比如世超上传的一张扎克伯格的图片给 Vidu 参考,再补充点提示词,就可以假装小扎已经站在拳击台上,准备迎战马斯克了。
只不过这人脸有脸参考不到位,就只有上半张脸像小扎。。。
上传一张马斯克的照片,也能提前帮他实现太空梦。。。
总之, Vidu 就跟市面上一众能用的视频 AI 差不多,可以生成效果好的视频,有的视频不仔细看,几乎就看不出 AI 的痕迹。
但它的缺点也很明显,不够稳定,视频做不长,这也是这一类 AI 面临的通病了。像是 Vidu 免费用户只能体验到 4s 的视频,就算氪了每月 8 刀的金,最长也只有 8s 。
不过这也算是视频类AI的商业化初尝试了,毕竟训练和推理的成本就摆在那里,像是 Adobe 之前,买了 100个用来训练的视频片段,平均一分钟得花两美元。
而收钱,多少也能帮前期优化、提升模型,分担一点经济上的压力。。。
当然 Vidu 背后的公司生数科技,也不只把所有砝码都压在了视频 AI 上。他们旗下还有专门面向 B 端的各种多模态模型,涵盖了文字、图片和 3D 模型等,游戏制作、影视后期等都是未来的商业化场景。
之前他们就靠着图片和 3D 模型,攒了好几亿的家底,而且就在上个月月初,生数科技又完成了数亿元的 Pre-A 轮融资,百度也参与领投了。
总的来说,视频 AI 领域是越来越热闹,甚至已经有点当初百模大战的意味了。可以预见的是,未来这些厂商们还会在 AI 视频长度、质量上不断加码。
作为用户的世超,当然也希望厂商们都卷起来。