智谱AI公布清影新升级:视频生成步入“有声”时代
创始人
2024-11-09 02:40:51
0

新京报贝壳财经讯(记者罗亦丹)今年以来,Sora带火的AI生成视频吸引了许多人的关注,年内各式各样的AI视频大模型层出不穷,但有一点是一致的:所有AI生成的视频都是一段无声的“默片”。不过这一点即将迎来改变。

11月8日,“新AI六小龙”之一的北京AI大模型公司智谱宣布,其视频生成工具清影进行了重要升级,新清影在以下5个方面实现了提升:模型能力上,在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强;支持生成 10s、4K、60 帧超高清视频;支持任意比例的图像生成视频,包括超宽画幅;新增同一指令/图片可以一次性生成4个视频的多通道生成能力;以及最重要的——新清影可以生成与画面匹配的音效,其音效功能将在本月上线公测。

根据智谱AI展示的视频,新清影生成的视频有着各式各样的音效,如出现赛车视频时的引擎轰鸣声,主角飞到空中时风刮过衣领猎猎作响的声音,以及拉小提琴时可以贴合手部动作的琴声等。

智谱AI演示视频截图,图中拉小提琴的视频为AI生成,且有声音。

智谱披露的技术博客文档显示,为视频增添声音的是其开发的多模态模型家族音效模型 CogSound,基于GLM-4V的视频理解能力,CogSound 能够准确识别并理解视频背后的语义和情感,并为无声视频添加与之相匹配的音频内容,甚至可以生成更加复杂的音效,如爆炸、水流、乐器、动物叫声、交通工具声等。

具体来看,CogSound 的音效生成能力主要得益于采用潜空间扩散模型(Latent Diffusion Model),将音频生成过程从高维的原始空间转移到低维潜空间,降低了计算复杂度,同时保持了生成音频的高质量和高效率;引入分块时序对齐交叉注意力(Block-wise Temporal Alignment Cross-attention)机制,优化了视频长序列与音频特征之间的特征匹配;整合了旋转位置编码技术,通过为序列中的每个位置提供唯一标识并捕捉位置间的相对关系,让每个视频帧的位置都拥有独特的“坐标”,在音频生成中有效提升了时序一致性,确保音频序列的连贯性和过渡自然性。

“当前,AI生成视频用于影视创作仍需要多种不同的创作工具串联使用,但基于我们多模态的最新成果,实现这种一站式原生多模态工作流,这样的前景无疑是激动人心的。”智谱方面表示。

校对 吴兴发

相关内容

热门资讯

辅助了解!西兵辅助器(辅助)迷... 辅助了解!西兵辅助器(辅助)迷失之都果然真的是有辅助软件(哔哩哔哩)1)西兵辅助器有没有挂:进一步探...
揭露了解!台州哈狗有辅助软件吗... 揭露了解!台州哈狗有辅助软件吗(辅助)乐乐真是是真的辅助插件(哔哩哔哩)1、下载好台州哈狗有辅助软件...
解迷了解!hhpoker辅助器... 解迷了解!hhpoker辅助器(辅助)来几局app果然真的是有辅助神器(哔哩哔哩)hhpoker辅助...
透视了解!潮友会插件(辅助)圣... 透视了解!潮友会插件(辅助)圣盛晃晃麻将一贯存在有辅助下载(哔哩哔哩)1、潮友会插件公共底牌简单,潮...
解谜了解!福建兄弟13水插件(... 解谜了解!福建兄弟13水插件(辅助)东阳四副牌一直真的有辅助器(哔哩哔哩)所有人都在同一条线上,像星...
教你了解!衢州都莱有没有内部号... 教你了解!衢州都莱有没有内部号(辅助)天天江湖好像真的是有辅助修改器(哔哩哔哩)1、在衢州都莱有没有...
解迷了解!茶馆游戏辅助(辅助)... 解迷了解!茶馆游戏辅助(辅助)非常牛x确实是有辅助软件(哔哩哔哩)1、许多玩家不知道茶馆游戏辅助辅助...
有挂了解!威信茶馆辅助器下载(... 有挂了解!威信茶馆辅助器下载(辅助)欢乐茶坊切实真的有辅助平台(哔哩哔哩)1、威信茶馆辅助器下载破解...
关于了解!八大碗辅助器(辅助)... 关于了解!八大碗辅助器(辅助)悟空你别跑原来存在有辅助修改器(哔哩哔哩)1、起透看视 八大碗辅助器辅...
科普了解!衢州都莱辅助器下载(... 科普了解!衢州都莱辅助器下载(辅助)OB棋牌其实真的有辅助器(哔哩哔哩)1、首先打开衢州都莱辅助器下...