近日,国盛证券发布AI文生视频深度研究报告。报告显示,市场层面上AI应用已经逐渐步入成熟期,但未见“杀手级应用”。

报告认为,文生视频是多模态AIGC的“圣杯”,其优化迭代速度慢。视频是多帧图像的组合,然而文生视频在文生图的基础上增加了时间维度,技术实现更困难。即便是Meta和Google这样的硅谷人工智能巨头,在文生视频上也进展缓慢,它们分别推出的Make-A-Video和Phenaki均尚未公测。

现阶段,文生视频底层模型及技术仍在优化,未筛选出最优模型。文生视频技术主要发展过程经历了基于GAN和VAE、基于Transformer模型、基于扩散模型三个阶段。目前主流的文生视频模型主要依托Transformer模型和扩散模型。一是基于Transformer的代表Phenaki突破了视频生成时长限制,但效果相对粗糙缺少细节。二是基于扩散模型的代表Make-A-Video重在提升视频质量,但其视频时长均在4秒以内。

文生视频效果各异,总体质量较低。当前文生视频可公测应用较少,仅有RunwayGen-2、ZeroScope及PikaLabs等少数几个,它们有如下共同问题:一是复杂人物动作生成帧连续效果较差;二是非日常场景的视频架构能力、连续能力一般;三是多主体视频生成缺乏逻辑连续性等。

报告认为,文生视频当前商用化程度较低,可从图片生成看其商业前景。其一,根据七麦数据的分析,图片生成类应用在多模态大模型中表现出较强的收费能力,应用数量上占比最高。其二,当前唯一收费的文生视频应用(Runway Gen-2),商业模式与图片生成趋同,即主要按照生成量定价。

报告看好人像生成细分领域,但认为营收持续增长能力仍待验证。这出于以下几点考虑:一方面是Lensa AI推出人像生成功能后,2022年12月前12日内创收2930万美元,但2023年7月全球收入已回落至100万美元。另一方面是妙鸭相机上线即火爆,半月营收估计超过29万美元,后续须上线新模板、新玩法维持营收增长。

报告同时看好算力储备大厂在多模态生成领域的发展。一方面是文生图应用Midjourney日活跃用户达1500万,年收入超1亿美元,它推出的多版无限量套餐、高速GPU服务反映出市场对算力的巨大需求。另一方面是目前国内文生图多为计次付费,尚未出现无限量套餐,或因算力受限,国盛证券认为,具有算力储备的云服务厂商在发展视频生成类应用上具有天然优势。

此外,报告看好业务协同发展,看好文生视频与文生图、图生视频的联动。这源于AI对产品价值的拉动表现。一是促活、拉新,Adobe、Microsoft 365 Copilot分别在软件原有基础上推出AI工具;二是提升产品价格,Office Copilot是基于GPT-4API的应用,Copilot加入后Office当前4种商业版整体订阅价格涨幅达53%~240%。因而国盛证券看好文生视频能与原有产品产生协同、降本增效的公司,例如游戏、影视制作等领域的公司。


来源:人民邮电报