用户付费在大语言模型中尚未跑通,但正悄然在AI视频生成赛道中生根发芽。
今年6月,AI视频生成初创公司Runway的年化营收超过9000万美元(约合人民币6.4亿元);同年第二季度,快手(1024.HK)旗下的AI视频生成应用“可灵”创收超过2.5亿元。
国内初创公司纷纷涌上牌桌。
北京生数科技有限公司(下称“生数科技”)的“Vidu”、北京爱诗科技有限公司(下称“爱诗科技”)的“拍我”用户数均已突破千万;作为“杭州AI六小龙”首个IPO,Manycore Tech Inc.(下称“群核科技”)年内亦计划发布针对C端消费者的AI视频生成产品。
市场对于AI视频的商业化前景不仅是局限于个人创作者生成一段短视频,还有影视创作、具身智能等更多领域。
但由于空间一致性、内容拼接的崩坏等问题的存在,亦让AI视频生成模型陷入“卖家秀”和“买家秀”的争议中。
尽管属于AI视频生成行业的DeepSeek时刻尚未到来,但在各家大厂的加码下,市场有理由相信未来的发展路径会愈发清晰。
拼时长
2024年2月,OpenAI推出了Sora 1.0,较此前Runway只能生成3-4秒的视频来说实现了突破性的进展,成为全球首个支持生成长达60秒的AI视频生成模型。
此后国产模型也逐渐对此实现追赶。
目前国内既有字节、快手、百度等互联网大厂,也有生数科技、爱诗科技等初创公司正在探索AI视频生成应用领域。
南方一家科技公司产品经理告诉信风,今年以来AI视频生成领域最大的变化主要体现在时长,即可以通过AI生成更长的视频。
虽然当前AI视频生成模型公司一次生成的视频时长基本在5秒-10秒,但通过一个个镜头的生成已经可以组合形成一段连贯的视频。
影视行业便是第一批尝鲜者。
今年8月上线的50集动漫短剧《明日周一》,便是通过生数科技的Vidu AI视频模型生成。
实操方面,《明日周一》制作团队采取原画师手绘核心角色设定,再通过Vidu的图生视频及参考生功能进行动画延展。
生数科技告诉信风,《明日周一》80%左右内容由Vidu Q1的图生视频功能和参考生视频生成,深度贯穿了从美术设定到动画成片的多个核心环节。这也使得不到10人的制作团队45天内就完成了《明日周一》第一季50集的所有内容制作,平均不到一天产出1集,而传统2分钟漫剧制作周期长达一周,制作效率提升至少7倍。
快手旗下的“可灵”重要场景之一亦是影视制作。
据快手管理层在业绩电话会透露,目前“可灵”客户群体涵盖了包括专业人士在内的大众创作者、电商及广告行业从业者和影视制作工作室等。
长度的限制仍在被进一步打破。
日前,百度对旗下AI视频生成模型“百度蒸汽机”进行升级,支持用户生成无限长度的AI视频,一举打破了此前AI仅能生成5-10秒短视频,或依赖首尾帧控制续写时长的局限。
使用中,用户只需输入图像和提示词,就能生成任意时长的视频。
前述南方科技公司产品经理认为,视频时长的突破背后不只是“堆算力”带来的结果,更关键的动力源自算法的优化和数据量的增加。
据百度介绍,长视频生成技术方案上主要引入自回归扩散模型,结合自回归的长序列能力和扩散一致性强的优势,能够准确生成符合世界物理规律且高一致性的长视频。
信风参与百度蒸汽机的内测,以人物作为首图和“1-5s镜头跟随,⼈物快速向⾛。6-10s镜头跟随,⼈物向前⾛向楼梯。11-15s⼈物向前⾛,镜头跟随,右摇。16-20s⼈物向前⾛,镜头跟随,右摇,环绕到⼈物正⾯。”为提示词结合的方式,生成了一段20秒的短视频。(见 「百度蒸汽机」AI视频⽣成模型)
在视频中可以看到,虽然人物表情变化衔接宛如换了一张脸,且物体出现凭空消失的情况,但人物运动轨迹自然,背景也没有出现崩坏的情况。
价格战硝烟
尽管国内的大语言模型尚未能走通向C端用户收费的路径,但AI视频生成模型公司已经在探索商业化模式。
从收费情况来看,各家差异较大。
仅以标准版为例,可灵、生数科技的Vidu分别为66元、59元;爱诗科技的拍我、字节跳动的即梦则均为79元。
不过Vidu、即梦属于“加量不加价“,分别可生成200个/月、216个/月的视频。相比之下,可灵、拍我则只能生成数十个视频。
各家的商业化均已取得一定的成果。
目前快手是为数不多披露AI视频生成应用商业化成果的大厂,2025年第二季度“可灵”的收入已超2.5亿元。
不过大厂之间为了吸引专业创作者使用,已经悄然打起了价格战。
据百度透露,百度蒸汽机已经在搜索、营销等多个场景落地应用,且定价低至行业70%;日前,可灵推出2.5 Turbo模型时,核心卖点之一便是“相比2.1模型同档位便宜近30%,性价比方面优势更加凸显。”
价格战的另一面,是不少公司在跃跃欲试。
信风获悉,正在冲刺港交所IPO的群核科技亦在研发一款基于3D技术的AI视频生成产品,有望在年内发布。
群核科技内部人士向信风透露,该AI视频生成产品未来将面向C端用户开放。
群核科技的重要优势在于,庞大且物理正确的室内空间数据集。
“我们在开发(家装设计软件酷家乐等)工具的过程当中,积累了海量的数据,这些海量数据与AI直接生成的三维模型不一样,包括有物理正确可交互的模型,材质也都是物理正确的,表面的物理系数都有,里边有结构化的信息,也就有结构化标注。”群核科技董事长黄晓煌指出。
今年8月,群核科技的数据集InteriorGS还曾一度登上全球最大AI开源社区Hugging Face趋势榜的榜首,成为全球首个适用于智能体自由运动的大规模3D数据集。
这或许都给不少公司带来更多压力,要求各方进一步拓宽商业化边界。
目前市场对该行业的想象空间并不止于影视广告行业,还有机器人训练等场景。
一直以来,机器人训练面临训练数据的稀缺性、场景覆盖局限性、采集成本高等痛点,但AI视频生成应用可以为机器人提供虚拟场景进行训练,进而更好地了解真实世界的运行规律。
部分机器人公司正在自研算法。例如今年3月具机器人公司逐际动力发布的具身智能操作算法LimX VGM,正是利用视频生成技术推动具身大脑突破。
一名参与该项目人士向信风坦承,受限于数据量的问题,目前视频生成大模型的泛化程度有限。
但该人士持乐观态度,颇为看好AI视频生成模型用于机器人虚拟环境训练的行业趋势。
此前业绩会上,快手管理层则表示计划扩大“可灵”在游戏制作、专业电影以及视觉制作中的应用。
买家秀VS卖家秀
尽管当前各家AI视频生成公司均表示提升了空间一致性,但信风实测来看主体运动过程中脸部表情崩坏、背景出现清晰模糊交织的问题层出不穷。
以拍我为例,信风使用图生视频的方式生成了一段人物跳舞的短视频,但出现人物表情变形、物体凭空消失等问题。(见 「拍我」AI视频模型⽣成)
杭州一位行业人士告诉信风,复杂运动场景下偶现的面部细节与背景一致性问题,是行业共同面临的技术挑战,核心难点在于模型对长时序运动轨迹与多尺度语义连贯性的精准建模。
群核科技产品经理龙天泽认为这与训练的数据来源有关。
“核心在于现在的AI视频算法是基于2D图像序列去学习,所以不可能真正理解3D空间和规则,它学会了如何让上一帧图像在视觉上变的更像下一帧图像,但是它并不理解真正的3D空间关系,不理解所谓的物理世界运行的基本逻辑。”龙天泽指出。
目前各方主要从优化算法、构建数据集的角度解决空间一致性问题。
生数科技告诉信风,目前主要通过三大路径进行优化:一是基于自研U-ViT架构的时空联合注意力机制优化,增强模型对主体运动轨迹与背景关联性的预测能力;二是构建超大规模高质量视频训练数据集,针对性强化复杂运动模式的语义理解;三是引入动态遮罩与一致性补偿算法,在后期生成环节实时修复帧间异常。
“目前我们的参考生视频功能已实现从人脸到主体多层次的一致性提升,后续将重点突破大幅度运动下的稳定性边界。”生数科技表示。
群核科技方面则是在推进3D视频生成的工作流研发,有望在变化的运境下降低明显的穿模和畸变的反应。
不过这类方式的挑战在于,使用者需要掌握视频生成的数据输入等。
隐私的边界
高质量的数据集是当前不少AI视频生成模型公司渴求的训练素材。
部分国外大厂为了提升对AI视频生成模型的人物主体一致性的训练,甚至不惜通过下载成人电影作为训练素材。
Meta便遭受如此质疑。
今年7月,两家美国成人电影公司Strike 3 Holdings和Counterlife Media,便以Meta偷偷下载2396部成人电影训练自家的AI模型为由,将其推向了被告席。
“确实是个很新的案件,涉及版权侵权,估计Meta还是会主张fair use(合理使用)。”一位在美执业的知识产权律师告诉信风,“现在对于这些训练素材也没有什么统一的规则,只能是争议中前行。”(华尔街见闻)