北小区-掏品新闻

出品 | 虎嗅科技组

作者 | 王沁

编辑 | 苗正卿

头图 | AI生成

在白天,Danny是一位白领,朝八晚五。他大学毕业后,就进了老家南昌的一家公司,一待就是七八年,如今30岁出头,住在公司大楼内的出租屋,是一位勤勤恳恳的UI设计师。

当夜晚降临,Danny回到独居的小屋,成为自己的造梦师——用AI把自己各种神奇的梦境变成短片。他是艺术生,高中时一直梦想去4A广告公司做创意片,但工作后从事的是没有那么热爱的UI设计师,在业余时间做电商产品创意带货短视频,来靠近职业梦想。

今年7月,看到一场AI短片的创作大赛通知后,Danny决定all in AIGC,“你不需要高昂的拍摄设备,不需要场地,不需要演员,甚至不需要配音,都可以用AI实现很多天马行空的创意。”

Danny本来打算年底离开南昌,去上海北京求职,但是AI让他看到机会:“不用离开自己的城市,也可以创作。”

自此,Danny每天晚上回到独居的小房间,熬夜到凌晨两三点,用可灵AI做短片。几秒钟的镜头,从Midjourney生图片再到可灵AI生视频,常常要抽卡十几、二十多次,直到满意。

他以西游记的白骨精为题材,做了两集AI短剧,为了调试不同镜头中白骨精的发型、头冠、衣服的统一性,每张图片都要重绘几十次,甚至上百次,“非常大的工作量,快做崩溃了。”

AI生成一组图片/视频的过程中,每个图片/视频的效果都不同,有些会变形扭曲,或者动作、表情和预期的不一致。创作者们只有不断调整提示词,生成多次,在一组图片/视频中挑选效果合适的,这个过程被称为“抽卡”。

为了制作白骨精的短片,Danny抽卡一共花了五六千元。Danny对画面细节要求高,花费也比其他创作者高,别人可能抽卡几遍,但他要几十遍,找到最满意的版本。他用自己的工资来支撑制作费用,“赌的成分很大,如果流量不好,就相当于打水漂了。”

《白骨精前传》截图。图片来源:受访者提供

后来Danny用名为“怪物集”的账号,发布了《白骨精前传》短片,最后在快手和抖音的播放量一共近2000万,他在快手可灵的AI短剧大赛中获得一等奖,拿到了5万元奖金,“我终于被大家看到了。”Danny说。

AI视频作为内容形态的“新物种”,来势汹汹。各家大模型厂商和互联网大厂纷纷发力AI视频生成。

今年8月,昆仑万维昆仑万维推出AI短剧平台SkyReels。9月,字节跳动发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型。到了11月,腾讯混元也开始内测视频生成模型,又在12月把视频模型开源。

快手在9月上线了可灵大模型的1.5版本,根据快手2024 Q3财报,可灵AI的月活跃用户在9月超过了150万。

如何烧钱,又如何省钱

谈起AI视频的制作,创作者们纷纷感叹烧钱,但烧钱也要冲,因为长远收益大,AI视频是他们的人生“第二增长曲线”和“第二春”。AI视频创作者们,大多是副业做AI,主业分布在各行各业,如设计师、游戏工程师、广告、电影导演、VR从业者等等。

对UI设计师Danny来说,AI圆了他的广告创意的梦。

对主业从事VR的葛老板来说,AI是事业的转机。今年40岁的葛老板在十年前从一家视频网站辞职,后来与人搭伙做VR公司,做了十年,经历了VR行业的潮涨潮落,“还在苦苦支撑”,又在当下发力AI视频。

AI的生意比VR好落地很多。”相比于VR内容需要Apple Vision Pro、XR眼镜等硬件终端作为载体,AI视频在手机上就可以大范围传播。

葛老板的AI动画短剧《胡相公》获得快手可灵AI短剧大赛的最佳创意奖,奖金两万。他的AI视频作品也给他带来了一些影视剧制作和AI文旅宣传片的商单。

AI视频的烧钱,都围绕一个核心:在AI生成的不确定内容中,为了保持人物角色的一致性和故事连贯,要不断抽卡。

可灵在10月底开始内测人脸模型,用户上传一些关于同一人物的动作/表情视频,每段视频10-15s左右,就能训练出这个人物的数字人,之后就可以生成这个数字人在不同角度、不同景别的视频,而不会发生人物的形变。

生(sheng)成(cheng)这(zhe)样(yang)一(yi)个(ge)人(ren)物(wu)模(mo)型(xing)需(xu)要(yao)2(2)000点(dian)数(shu)左(zuo)右(you)给(gei)超(chao)级(ji)创(chuang)作(zuo)者(zhe)打(da)完(wan)折(zhe)后(hou)需(xu)要(yao)1(1)000点(dian)数(shu)约(yue)合(he)人(ren)民(min)币(bi)1(1)00元(yuan)每(mei)次(ci)从(cong)人(ren)物(wu)模(mo)型(xing)生(sheng)成(cheng)一(yi)段(duan)视(shi)频(pin)需(xu)要(yao)消(xiao)耗(hao)3(3)5(5)点(dian)数(shu)左(zuo)右(you)约(yue)合(he)人(ren)民(min)币(bi)3(3)元(yuan)多(duo)

AI视频创作者葛老板在使用可灵的人脸模型后发现:“如果是简单的表情,比如微笑,用眼神看你一眼,是可以的。大笑、哭泣以及过于细腻的表情演绎,就会比较吃力,表情容易不自然,可能要多次抽卡才能效果满意。”

Danny表示,目前业内常用的Lora训练模型,可以大致解决人脸长相上的一致性,但对于更多细节例如发型、发饰、妆容、服装造型等,还无法完美还原。例如,Danny的《白骨精前传》中,白骨精头顶上银色金属的发冠,用AI生成图片后常常形态、大小不一致,“几乎每张图片都需要进行几十次甚至上百次的局部重绘。”

《白骨精前传》AI短剧截图,创作者Danny几乎每张图片都要几十次上百次重绘。图片来源:受访者提供

“一段5秒钟的片段,常常要抽十几二十次,花一两百块钱。要做两分钟的视频,就很费钱。我会执着一些细节,花费比别人高一些。”Danny 表示当时做白骨精短片花了五六千块,都用自己工资支撑。

虽然抽卡很烧钱,但是国产视频模型相比于国外模型,已经把价格打下来很多。

对于非会员,国产视频模型如可灵、即梦给用户每天赠送登录积分,有一定的免费生成视频的额度。

在基础包月会员价条件下,用提示词文生视频,生成一个5秒片段,Runway需要约1美元,Pika需要约0.25美元,即梦需要约0.4美元(约3元人民币),而可灵只要约0.1美元(约0.9元人民币)。在卷价格方面,可灵AI已经走在前面。

虽然AI视频要抽卡烧钱,但相比于传统影视制作,AI视频的性价比到底如何?

对于传统电影行业出身的青年导演朱智立来说,AI影像相比于电影实拍,已经大大降本。

朱智立的AI短片《新桃花源记》入选了“工业强国·工业与科幻影像展”,讲述了一位宇航员为地球寻找新家园的故事,影片海报的画面是一位宇航员走向桃花缤纷的山洞,原图是用文生图模型Midjourney制作的,片中镜头是再用AI工具图转视频。“(如果是电影实拍),要呈现这样质感的洞,还要有桃花,肯定要制景。还需要特别大功率的灯,以及一个非常好的灯光指导,才能打出这种有层次的光效。如果实景找不到这样的洞,就需要绿幕加特效或虚拟拍摄,成本比AI生成要高得多。”

朱智立的AI短片《新桃花源记》 海报,用AI工具做出堪比电影实拍的效果。图片来源:受访者提供

影片结尾使用的音乐是用音乐生成模型Suno制作,朱智立最开始以为AI音乐会非常机械,没想到AI生成的配乐展现出非常复杂的情感,“有一段是十分纠结的旋律,完全能够体现出这个人物最后离开桃花星时,居民告诉他‘不足为外人道也’,但他又想把这个地方公之于众的复杂心理状态。”

令朱智立惊讶的是,AI不仅能很精微地表达出他的创意,还会自己产生新的创意,“AI还会自己加戏。”比如,他用图生视频生成一个镜头,表现有一群外星居民围住宇航员,宇航员跟外星居民讲自己是从地球来的。结果AI不仅生成了这个画面,还充当了半个导演,加了戏——有个外星居民竟然自己拿出手机拍宇航员,然后宇航员讲完后还跟外星居民里的一个小朋友击掌,这些都是意料之外的。“AI很聪明,会帮你加一些创意,至于适不适合,你可以自己选择。”

AI短片《新桃花源记》中的镜头,AI视频模型自己“加戏”。图片来源:受访者提供

狂奔的技术,如何影响叙事

AI视频生成模型们,在技术迭代的路上,一路狂奔。

针对人物一致性的痛点,各家纷纷出招:

10月底,可灵1.5版本开始内测人脸模型。

11月,生数科技Vidu 1.5推出了多主体一致性功能,依靠通用模型能力的提升,而非业界常用的LoRA 微调方案,宣称用三张图就能实现主体在不同场景下的一致性。

R(R)u(u)n(n)w(w)a(a)y(y)也(ye)在(zai)1(1)0月(yue)底(di)上(shang)线(xian)了(le)A(A)c(c)t(t)O(O)n(n)e(e)功(gong)能(neng)在(zai)从(cong)真(zhen)人(ren)表(biao)情(qing)迁(qian)移(yi)到(dao)A(A)I(I)人(ren)物(wu)表(biao)情(qing)时(shi)原(yuan)始(shi)图(tu)像(xiang)的(de)外(wai)观(guan)特(te)征(zheng)得(de)以(yi)保(bao)留(liu)表(biao)情(qing)变(bian)化(hua)不(bu)会(hui)让(rang)人(ren)脸(lian)形(xing)变(bian)

不断迭代的技术,也在影响创作者们的叙事方式。

每个创作者都有自己保持人物一致性的方法。一个讨巧的方法是,从一开始的角色形象设计上,就避开细节复杂的形象,而选择形状简洁的角色形象。例如Sora在一个demo片段中展现的气球人,头顶一个气球,即使发生些许形变,观众也不大看得出来。因此,朱智立在短片《桃花源记》中选择了身穿宇航服、头戴面罩的人物形象。

葛老板的AI短剧《胡相公》采用动画形象。图片来源:受访者提供山脉中,远远望去有一团柔和的光隐现,在这黑暗无尽的夜幕下与万山间犹如一点烛火在摇曳,随时会熄灭。

动画也是保持人物一致性的捷径。人类天然地对人脸更敏锐、更容易挑刺,而动画形象即使发生些许形变,观众的容忍度也更高。2024北京国际电影节AIGC短片单元中,最佳影片《致亲爱的自己》、最佳美术设计《达芬奇计划:新文艺复兴》以及近半的优秀奖短片如《AI升职记》《老鼠嫁女》等等都采用动画角色。

在故事题材选择上,一种方法是选择大众熟悉的故事原型加以改编,这样即使AI短片本身的叙事不足,观众能够自行脑补剧情。葛老板的AI短剧《胡相公》获得了可灵AI短剧创作大赛的最佳创意奖,讲述了狐狸与书生的爱情故事,全程没有解说词,“观众一看到狐狸和书生,脑海里面自然会有一个画面,很多东西(剧情)就不用介绍……尽量写100 字以内就能讲明白的故事,如果讲一个300字以上的故事,用AI表现就难了。”

葛老板的AI短剧《胡相公》选择了狐狸与书生的故事原型。图片来源:受访者提供

这种方法是不用解说词,另一种相反的方式是——完全依赖解说词来叙事,这在AI短片中也非常常见,例如朱智立的短片《新桃花源记》中采用古文《桃花源记》的改写版作为全片的旁白,Runway获奖影片《My Mom》全片以口述信件作为旁白。

“故事依赖解说词”的现象,背后原因是节约成本,因为AI视频还hold不住长镜头复杂叙事。要推动剧情和人物,就需要大量有效的分镜头,而不是一些MV式空镜过场画面。

如果不依赖旁白与解说词,而靠人物对话,首先要解决的是配音。AI视频创作者葛老板表示,“找一个好的配音演员其实很花时间,在短时间内做到是很难的”。其次,即使找到好的配音演员,如何把配音与AI角色的嘴型同步,也是个难题。一张张稚嫩的小脸满是认真之色,大一些的孩子虎虎生风,小一些的也比划的有模有样。

针对这种问题,视频模型的技术也在飞快进化。今年10月,可灵新增“对口型”功能,生成人物的口型与上传配音同步。

AI角色对嘴型的问题,对于Danny也是一个难点。在制作《白骨精前传》时,Danny找了全球十几个专门给角色对嘴型的网站,效果都不太好。此外,为了给AI角色配音,Danny也尝试了全球十几个AI语音合成的网站,发现AI配音仍然比不上真人说话的质感,就去找真人配音。为了在短时间内低成本完成比赛作品,他在抖音上找1万-10万粉丝量的配音博主,花几百块钱完成了2分钟AI短片的配音。

但AI技术不断狂奔,谁也说不上AI语音何时会超过真人配音的质感。Danny近期在用AI语音合成软件“Dubbing X”,该软件在发布的全AI生成台词演绎的《十二公民》中,角色台词的音色、情绪都展现出复杂层次。

最近视频模型厂商们开始卷的“多主体一致性”功能,也给AI短片的叙事带来突破。

生数科技在11月推出Vidu 1.5版本,主打多主体一致性功能,可以让人物在环境中大幅度移动,而不出现人物和环境的形变。

目(mu)前(qian)多(duo)主(zhu)体(ti)一(yi)致(zhi)性(xing)的(de)功(gong)能(neng)效(xiao)果(guo)还(hai)有(you)局(ju)限(xian)葛(ge)老(lao)板(ban)在(zai)尝(chang)试(shi)使(shi)用(yong)时(shi)比(bi)如(ru)我(wo)把(ba)一(yi)个(ge)人(ren)放(fang)到(dao)卧(wo)室(shi)背(bei)景(jing)的(de)床(chuang)上(shang)再(zai)让(rang)他(ta)抱(bao)着(zhe)一(yi)只(zhi)公(gong)仔(zai)小(xiao)熊(xiong)他(ta)的(de)脸(lian)会(hui)有(you)点(dian)变(bian)化(hua)抱(bao)熊(xiong)的(de)姿(zi)势(shi)会(hui)很(hen)怪(guai)但(dan)是(shi)整(zheng)体(ti)上(shang)画(hua)面(mian)可(ke)用(yong)

但这相比于之前,已经给叙事带来很大自由度。在此之前,葛老板很难制作有两个主体同时在运动的画面,如果想让两个角色同时出现在画面中且有运动,就需要把两个角色各自抠像,先各自生成视频,再放到背景上。

可以预见,飞奔猛进的视频模型,会让AI视频的叙事自由度继续提升。

发布于:北京市
意见反馈 合作

Copyright © 2024 Sohu All Rights Reserved

搜狐公司 版权所有