大洋彼岸,视频生成大模型Sora的到来,展现了大模型理解世界、模拟世界的科技力量。Sora之后,挑战者前赴后继。
6月,这一赛道热闹似“过年”,国内外迎来一轮新品爆发。快手“可灵”、Luma AI以及Runway迭代更新后的Gen-3 Alpha等爆品涌现。其中,讨论度最高的是国内短视频巨头快手自研的“可灵”。
“可灵”生成的熊猫湖边弹吉他形象
在先推出文生视频功能后,6月21日,“可灵”又正式推出图生视频功能,支持用任意静态图像生成5s视频,可搭配不同的文本内容。同时,还为已生成的视频提供一键续写和连续多次续写功能,将视频最长可延伸至约3分钟。
社交平台上,已有不少博主、创作者分享使用“可灵”的体验,连国外的创作者也是各种“求内测”。6月25日下午5点,记者看到有21万多人申请测试。到了6月26日0点,已有超22万人申请。
“可灵”的文生视频、图生视频能力表现如何?国产视频生成大模型玩家涌入未来如何?
图生视频、文生视频,看看“可灵”的表现
就文生视频和图生视频两大功能,记者测试了可灵”与国外Runway的Gen-2。
首先,看一下文生视频两大模型生成的结果情况。
记者以“一个美女在吃苹果”为关键词,让两大模型生成了视频。从生成时间上来看,两者相差不多,在3分钟左右。
“可灵”生成的5秒视频,一位身穿白色上衣的女子坐在沙发上大口吃着苹果。动态、时效、场景,都精准按照关键词实现了。但嘴部动作以及左手大拇指等细节,仍可进一步优化。
“可灵”根据关键词生成的视频
考虑到测试Gen-2为国外大模型,记者分别用“一个美女在吃苹果”和“A beautiful girl is eating an apple”进行测试。
其中,中文关键词下,Gen-2生成的视频只有女子没有苹果要素,画风偏动漫风。在英文关键词下,生成的视频有了苹果,但是没有吃的动作,嘴部和手部包括苹果都变形明显。相较之下,“可灵”更胜一筹。
Gen-2根据关键词生成的视频
此外,记者在体验时发现,在给出一些关键词进行视频生成时,“可灵”也会“失灵”。例如,“西湖断桥上游客很多”,视频中呈现的并不是断桥,游客也不是摩肩接踵的景象。同时,有多个主体时,有时也会出现一些元素无法完全呈现的情况。
其次,在图生视频方面,记者以一张男子拉着风筝在山路上奔跑的照片进行了测试。
用于测试图生视频的照片
“可灵”生成的5秒视频,风筝飘动和人物奔跑看起来比较自然,除了人物头部的细节有些失真,画面整体看起来流畅生动。
“可灵”根据图片生成的视频
Gen-2生成的4秒视频,风筝的飘动幅度小,人物形象则出现了比较大的失真,衣服和人体都有比较明显的“变形”。
Gen-2根据图片生成的视频
记者又输入了两张漫画风格的图片,对两个模型进行了测试,表现上各有千秋,Gen-2在画面整体动感上更强,“可灵”的部分动态细节比较精准。
美国《麻省理工科技评论》近日发表了一篇对可灵文生视频的评测,主要对比了Sora当时发布的演示视频和形象,如东京街头景象、猫迅速穿过花园以及宇航员骑马等场景。从可灵生成的结果来看,基本没有偏离提示文字,镜头的平移、树叶颤动,以及马和宇航员的转动,视频画面的物理特性表现可以。
文章也指出,生成的视频看起来模糊,有时会忽略提示中的请求,加上5秒的时长,导致画面的动态或复杂性大幅降低。但毕竟对标的是Sora精心挑选后发布的视频,刚发布的可灵表现仍旧亮眼。
国内玩家纷纷入场,未来如何?
今年以来,国内视频生成大模型有更多玩家加入。
在“可灵”发布前,3月,字节跳动旗下Dreamina(即梦)内测视频生成功能;4月底,生数科技首个文生视频模型Vidu发布;5月,腾讯也开源了DiT架构的混元文生图模型。
快手方面此前表示,可灵采用类Sora的技术路线并结合多项自研创新技术,具备诸多优势:一是能够生成大幅度的合理运动;二是能够模拟物理世界特性;三是具备强大的概念组合能力和想象力;四是生成的视频分辨率高达1080p,最长可达2分钟(帧率30fps),且支持自由的宽高比。
记者采访了两位杭州从业多年的设计师,在他们看来,国产的视频生成大模型未来可期。
“可灵的表现非常好,超出预期。将来就算收费使用,我也能接受。”金先生一直关注国内外大模型的发展,在体验完“可灵”后,他表示效果不输甚至超过了一些国外同类大模型。设计师龚先生表示,国产大模型的进步颠覆了部分内容创作场景,例如影视和广告领域,文生视频能快速生成特效、场景设计,游戏开发上也能用于生成角色动画等。
快手剪辑软件“快影”中的AI创作专区,可进行文生视频和图生视频等。
两位设计师表示,一方面,“可灵”上线就开展公测,先声夺人,关注度和影响力更大,已快速积累了用户。另外一方面,快手拥有庞大的视频平台和数亿用户,通过大量的上传结果,可以进一步丰富和优化可灵的海量视频数据,带动可灵大模型的迭代。
相关研报指出,目前,国内大语言及多模态大模型正持续追赶海外主流大模型,模型能力逐步提升,带动下游应用发展。过去几个月,国内头部应用总访问量与海外头部应用总访问量差距逐渐缩小,并看好未来国内应用快速增长的趋势。
业内人士指出,如今对大模型的关注正转向具有明确市场需求和实际应用场景的垂直模型。随着国产视频生成大模型玩家涌入,市场竞争更加激烈,相关大模型研发企业,产品更新迭代上需持续投入,实现成熟的商业化将是一个长期的考验。
“转载请注明出处”