国盛证券：AI文生视频或是多模态应用的下一站

12月

882 0 0

近日，国盛证券发布AI文生视频深度研究报告。报告显示，市场层面上AI应用已经逐渐步入成熟期，但未见“杀手级应用”。

报告认为，文生视频是多模态AIGC的“圣杯”，其优化迭代速度慢。视频是多帧图像的组合，然而文生视频在文生图的基础上增加了时间维度，技术实现更困难。即便是Meta和Google这样的硅谷人工智能巨头，在文生视频上也进展缓慢，它们分别推出的Make-A-Video和Phenaki均尚未公测。

现阶段，文生视频底层模型及技术仍在优化，未筛选出最优模型。文生视频技术主要发展过程经历了基于GAN和VAE、基于Transformer模型、基于扩散模型三个阶段。目前主流的文生视频模型主要依托Transformer模型和扩散模型。一是基于Transformer的代表Phenaki突破了视频生成时长限制，但效果相对粗糙缺少细节。二是基于扩散模型的代表Make-A-Video重在提升视频质量，但其视频时长均在4秒以内。

文生视频效果各异，总体质量较低。当前文生视频可公测应用较少，仅有RunwayGen-2、ZeroScope及PikaLabs等少数几个，它们有如下共同问题：一是复杂人物动作生成帧连续效果较差；二是非日常场景的视频架构能力、连续能力一般；三是多主体视频生成缺乏逻辑连续性等。

报告认为，文生视频当前商用化程度较低，可从图片生成看其商业前景。其一，根据七麦数据的分析，图片生成类应用在多模态大模型中表现出较强的收费能力，应用数量上占比最高。其二，当前唯一收费的文生视频应用（Runway Gen-2），商业模式与图片生成趋同，即主要按照生成量定价。

报告看好人像生成细分领域，但认为营收持续增长能力仍待验证。这出于以下几点考虑：一方面是Lensa AI推出人像生成功能后，2022年12月前12日内创收2930万美元，但2023年7月全球收入已回落至100万美元。另一方面是妙鸭相机上线即火爆，半月营收估计超过29万美元，后续须上线新模板、新玩法维持营收增长。

报告同时看好算力储备大厂在多模态生成领域的发展。一方面是文生图应用Midjourney日活跃用户达1500万，年收入超1亿美元，它推出的多版无限量套餐、高速GPU服务反映出市场对算力的巨大需求。另一方面是目前国内文生图多为计次付费，尚未出现无限量套餐，或因算力受限，国盛证券认为，具有算力储备的云服务厂商在发展视频生成类应用上具有天然优势。

此外，报告看好业务协同发展，看好文生视频与文生图、图生视频的联动。这源于AI对产品价值的拉动表现。一是促活、拉新，Adobe、Microsoft 365 Copilot分别在软件原有基础上推出AI工具；二是提升产品价格，Office Copilot是基于GPT-4API的应用，Copilot加入后Office当前4种商业版整体订阅价格涨幅达53％～240％。因而国盛证券看好文生视频能与原有产品产生协同、降本增效的公司，例如游戏、影视制作等领域的公司。

来源：人民邮电报

来源网址：https://www.cnii.com.cn/gxxww/rmydb/202310/t20231024_515661.html