中国vs美国-掏品新闻

出品 | 虎嗅科技组

作者 | 王沁

编辑 | 苗正卿

头图 | AI生成

在白天,Danny是一位白领,朝八晚五。他大学毕业后,就进了老家南昌的一家公司,一待就是七八年,如今30岁出头,住在公司大楼内的出租屋,是一位勤勤恳恳的UI设计师。

当夜晚降临,Danny回到独居的小屋,成为自己的造梦师——用AI把自己各种神奇的梦境变成短片。他是艺术生,高中时一直梦想去4A广告公司做创意片,但工作后从事的是没有那么热爱的UI设计师,在业余时间做电商产品创意带货短视频,来靠近职业梦想。村头是老族长石云峰的院落,由巨石堆砌而成,紧挨着焦黑而巨大的柳木。

今年7月,看到一场AI短片的创作大赛通知后,Danny决定all in AIGC,“你不需要高昂的拍摄设备,不需要场地,不需要演员,甚至不需要配音,都可以用AI实现很多天马行空的创意。”

Danny本来打算年底离开南昌,去上海北京求职,但是AI让他看到机会:“不用离开自己的城市,也可以创作。”

自此,Danny每天晚上回到独居的小房间,熬夜到凌晨两三点,用可灵AI做短片。几秒钟的镜头,从Midjourney生图片再到可灵AI生视频,常常要抽卡十几、二十多次,直到满意。

他以西游记的白骨精为题材,做了两集AI短剧,为了调试不同镜头中白骨精的发型、头冠、衣服的统一性,每张图片都要重绘几十次,甚至上百次,“非常大的工作量,快做崩溃了。”

AI生成一组图片/视频的过程中,每个图片/视频的效果都不同,有些会变形扭曲,或者动作、表情和预期的不一致。创作者们只有不断调整提示词,生成多次,在一组图片/视频中挑选效果合适的,这个过程被称为“抽卡”。

为了制作白骨精的短片,Danny抽卡一共花了五六千元。Danny对画面细节要求高,花费也比其他创作者高,别人可能抽卡几遍,但他要几十遍,找到最满意的版本。他用自己的工资来支撑制作费用,“赌的成分很大,如果流量不好,就相当于打水漂了。”

《白骨精前传》截图。图片来源:受访者提供

后来Danny用名为“怪物集”的账号,发布了《白骨精前传》短片,最后在快手和抖音的播放量一共近2000万,他在快手可灵的AI短剧大赛中获得一等奖,拿到了5万元奖金,“我终于被大家看到了。”Danny说。

AI视频作为内容形态的“新物种”,来势汹汹。各家大模型厂商和互联网大厂纷纷发力AI视频生成。

今年8月,昆仑万维昆仑万维推出AI短剧平台SkyReels。9月,字节跳动发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型。到了11月,腾讯混元也开始内测视频生成模型,又在12月把视频模型开源。

快手在9月上线了可灵大模型的1.5版本,根据快手2024 Q3财报,可灵AI的月活跃用户在9月超过了150万。

如何烧钱,又如何省钱

谈起AI视频的制作,创作者们纷纷感叹烧钱,但烧钱也要冲,因为长远收益大,AI视频是他们的人生“第二增长曲线”和“第二春”。AI视频创作者们,大多是副业做AI,主业分布在各行各业,如设计师、游戏工程师、广告、电影导演、VR从业者等等。

对UI设计师Danny来说,AI圆了他的广告创意的梦。

对主业从事VR的葛老板来说,AI是事业的转机。今年40岁的葛老板在十年前从一家视频网站辞职,后来与人搭伙做VR公司,做了十年,经历了VR行业的潮涨潮落,“还在苦苦支撑”,又在当下发力AI视频。

AI的生意比VR好落地很多。”相比于VR内容需要Apple Vision Pro、XR眼镜等硬件终端作为载体,AI视频在手机上就可以大范围传播。

葛老板的AI动画短剧《胡相公》获得快手可灵AI短剧大赛的最佳创意奖,奖金两万。他的AI视频作品也给他带来了一些影视剧制作和AI文旅宣传片的商单。

AI视频的烧钱,都围绕一个核心:在AI生成的不确定内容中,为了保持人物角色的一致性和故事连贯,要不断抽卡。

可灵在10月底开始内测人脸模型,用户上传一些关于同一人物的动作/表情视频,每段视频10-15s左右,就能训练出这个人物的数字人,之后就可以生成这个数字人在不同角度、不同景别的视频,而不会发生人物的形变。

生成这样一个人物模型,需要2000点数左右(给超级创作者打完折后需要1000点数,约合人民币100元),每次从人物模型生成一段视频,需要消耗35点数左右(约合人民币3元多)。

AI视频创作者葛老板在使用可灵的人脸模型后发现:“如果是简单的表情,比如微笑,用眼神看你一眼,是可以的。大笑、哭泣以及过于细腻的表情演绎,就会比较吃力,表情容易不自然,可能要多次抽卡才能效果满意。”

Danny表示,目前业内常用的Lora训练模型,可以大致解决人脸长相上的一致性,但对于更多细节例如发型、发饰、妆容、服装造型等,还无法完美还原。例如,Danny的《白骨精前传》中,白骨精头顶上银色金属的发冠,用AI生成图片后常常形态、大小不一致,“几乎每张图片都需要进行几十次甚至上百次的局部重绘。”

《白骨精前传》AI短剧截图,创作者Danny几乎每张图片都要几十次上百次重绘。图片来源:受访者提供

“一段5秒钟的片段,常常要抽十几二十次,花一两百块钱。要做两分钟的视频,就很费钱。我会执着一些细节,花费比别人高一些。”Danny 表示当时做白骨精短片花了五六千块,都用自己工资支撑。

虽然抽卡很烧钱,但是国产视频模型相比于国外模型,已经把价格打下来很多。

对于非会员,国产视频模型如可灵、即梦给用户每天赠送登录积分,有一定的免费生成视频的额度。

在基础包月会员价条件下,用提示词文生视频,生成一个5秒片段,Runway需要约1美元,Pika需要约0.25美元,即梦需要约0.4美元(约3元人民币),而可灵只要约0.1美元(约0.9元人民币)。在卷价格方面,可灵AI已经走在前面。

虽(sui)然(ran)A(A)I(I)视(shi)频(pin)要(yao)抽(chou)卡(ka)烧(shao)钱(qian)但(dan)相(xiang)比(bi)于(yu)传(chuan)统(tong)影(ying)视(shi)制(zhi)作(zuo)A(A)I(I)视(shi)频(pin)的(de)性(xing)价(jia)比(bi)到(dao)底(di)如(ru)何(he)

对于传统电影行业出身的青年导演朱智立来说,AI影像相比于电影实拍,已经大大降本。

朱智立的AI短片《新桃花源记》入选了“工业强国·工业与科幻影像展”,讲述了一位宇航员为地球寻找新家园的故事,影片海报的画面是一位宇航员走向桃花缤纷的山洞,原图是用文生图模型Midjourney制作的,片中镜头是再用AI工具图转视频。“(如果是电影实拍),要呈现这样质感的洞,还要有桃花,肯定要制景。还需要特别大功率的灯,以及一个非常好的灯光指导,才能打出这种有层次的光效。如果实景找不到这样的洞,就需要绿幕加特效或虚拟拍摄,成本比AI生成要高得多。”

朱智立的AI短片《新桃花源记》 海报,用AI工具做出堪比电影实拍的效果。图片来源:受访者提供

影(ying)片(pian)结(jie)尾(wei)使(shi)用(yong)的(de)音(yin)乐(le)是(shi)用(yong)音(yin)乐(le)生(sheng)成(cheng)模(mo)型(xing)S(S)u(u)n(n)o(o)制(zhi)作(zuo)朱(zhu)智(zhi)立(li)最(zui)开(kai)始(shi)以(yi)为(wei)A(A)I(I)音(yin)乐(le)会(hui)非(fei)常(chang)机(ji)械(xie)没(mei)想(xiang)到(dao)A(A)I(I)生(sheng)成(cheng)的(de)配(pei)乐(le)展(zhan)现(xian)出(chu)非(fei)常(chang)复(fu)杂(za)的(de)情(qing)感(gan)有(you)一(yi)段(duan)是(shi)十(shi)分(fen)纠(jiu)结(jie)的(de)旋(xuan)律(lv)完(wan)全(quan)能(neng)够(gou)体(ti)现(xian)出(chu)这(zhe)个(ge)人(ren)物(wu)最(zui)后(hou)离(li)开(kai)桃(tao)花(hua)星(xing)时(shi)居(ju)民(min)告(gao)诉(su)他(ta)不(bu)足(zu)为(wei)外(wai)人(ren)道(dao)也(ye)但(dan)他(ta)又(you)想(xiang)把(ba)这(zhe)个(ge)地(di)方(fang)公(gong)之(zhi)于(yu)众(zhong)的(de)复(fu)杂(za)心(xin)理(li)状(zhuang)态(tai)

令朱智立惊讶的是,AI不仅能很精微地表达出他的创意,还会自己产生新的创意,“AI还会自己加戏。”比如,他用图生视频生成一个镜头,表现有一群外星居民围住宇航员,宇航员跟外星居民讲自己是从地球来的。结果AI不仅生成了这个画面,还充当了半个导演,加了戏——有个外星居民竟然自己拿出手机拍宇航员,然后宇航员讲完后还跟外星居民里的一个小朋友击掌,这些都是意料之外的。“AI很聪明,会帮你加一些创意,至于适不适合,你可以自己选择。”

AI短片《新桃花源记》中的镜头,AI视频模型自己“加戏”。图片来源:受访者提供

狂奔的技术,如何影响叙事

AI视频生成模型们,在技术迭代的路上,一路狂奔。

针对人物一致性的痛点,各家纷纷出招:

10月底,可灵1.5版本开始内测人脸模型。

11月,生数科技Vidu 1.5推出了多主体一致性功能,依靠通用模型能力的提升,而非业界常用的LoRA 微调方案,宣称用三张图就能实现主体在不同场景下的一致性。

Runway也在10月底上线了Act-One功能,在从真人表情迁移到AI人物表情时,原始图像的外观特征得以保留,表情变化不会让人脸形变。

不断迭代的技术,也在影响创作者们的叙事方式。

每个创作者都有自己保持人物一致性的方法。一个讨巧的方法是,从一开始的角色形象设计上,就避开细节复杂的形象,而选择形状简洁的角色形象。例如Sora在一个demo片段中展现的气球人,头顶一个气球,即使发生些许形变,观众也不大看得出来。因此,朱智立在短片《桃花源记》中选择了身穿宇航服、头戴面罩的人物形象。

葛老板的AI短剧《胡相公》采用动画形象。图片来源:受访者提供石村周围草木丰茂,猛兽众多,可守着大山,村人的食物相对来说却算不上丰盛,只是一些粗麦饼、野果以及孩子们碗中少量的肉食。

动画也是保持人物一致性的捷径。人类天然地对人脸更敏锐、更容易挑刺,而动画形象即使发生些许形变,观众的容忍度也更高。2024北京国际电影节AIGC短片单元中,最佳影片《致亲爱的自己》、最佳美术设计《达芬奇计划:新文艺复兴》以及近半的优秀奖短片如《AI升职记》《老鼠嫁女》等等都采用动画角色。

在故事题材选择上,一种方法是选择大众熟悉的故事原型加以改编,这样即使AI短片本身的叙事不足,观众能够自行脑补剧情。葛老板的AI短剧《胡相公》获得了可灵AI短剧创作大赛的最佳创意奖,讲述了狐狸与书生的爱情故事,全程没有解说词,“观众一看到狐狸和书生,脑海里面自然会有一个画面,很多东西(剧情)就不用介绍……尽量写100 字以内就能讲明白的故事,如果讲一个300字以上的故事,用AI表现就难了。”

葛老板的AI短剧《胡相公》选择了狐狸与书生的故事原型。图片来源:受访者提供

这种方法是不用解说词,另一种相反的方式是——完全依赖解说词来叙事,这在AI短片中也非常常见,例如朱智立的短片《新桃花源记》中采用古文《桃花源记》的改写版作为全片的旁白,Runway获奖影片《My Mom》全片以口述信件作为旁白。

“故事依赖解说词”的现象,背后原因是节约成本,因为AI视频还hold不住长镜头复杂叙事。要推动剧情和人物,就需要大量有效的分镜头,而不是一些MV式空镜过场画面。

如果不依赖旁白与解说词,而靠人物对话,首先要解决的是配音。AI视频创作者葛老板表示,“找一个好的配音演员其实很花时间,在短时间内做到是很难的”。其次,即使找到好的配音演员,如何把配音与AI角色的嘴型同步,也是个难题。

针(zhen)对(dui)这(zhe)种(zhong)问(wen)题(ti)视(shi)频(pin)模(mo)型(xing)的(de)技(ji)术(shu)也(ye)在(zai)飞(fei)快(kuai)进(jin)化(hua)今(jin)年(nian)1(1)0月(yue)可(ke)灵(ling)新(xin)增(zeng)对(dui)口(kou)型(xing)功(gong)能(neng)生(sheng)成(cheng)人(ren)物(wu)的(de)口(kou)型(xing)与(yu)上(shang)传(chuan)配(pei)音(yin)同(tong)步(bu)

AI角色对嘴型的问题,对于Danny也是一个难点。在制作《白骨精前传》时,Danny找了全球十几个专门给角色对嘴型的网站,效果都不太好。此外,为了给AI角色配音,Danny也尝试了全球十几个AI语音合成的网站,发现AI配音仍然比不上真人说话的质感,就去找真人配音。为了在短时间内低成本完成比赛作品,他在抖音上找1万-10万粉丝量的配音博主,花几百块钱完成了2分钟AI短片的配音。

但AI技术不断狂奔,谁也说不上AI语音何时会超过真人配音的质感。Danny近期在用AI语音合成软件“Dubbing X”,该软件在发布的全AI生成台词演绎的《十二公民》中,角色台词的音色、情绪都展现出复杂层次。

最近视频模型厂商们开始卷的“多主体一致性”功能,也给AI短片的叙事带来突破。

生数科技在11月推出Vidu 1.5版本,主打多主体一致性功能,可以让人物在环境中大幅度移动,而不出现人物和环境的形变。

目前,多主体一致性的功能效果还有局限。葛老板在尝试使用时,“比如我把一个人放到卧室背景的床上,再让他抱着一只公仔小熊,他的脸会有点变化,抱熊的姿势会很怪,但是整体上画面可用。”

但这相比于之前,已经给叙事带来很大自由度。在此之前,葛老板很难制作有两个主体同时在运动的画面,如果想让两个角色同时出现在画面中且有运动,就需要把两个角色各自抠像,先各自生成视频,再放到背景上。

可以预见,飞奔猛进的视频模型,会让AI视频的叙事自由度继续提升。

发布于:北京市
意见反馈 合作

Copyright © 2024 Sohu All Rights Reserved

搜狐公司 版权所有