智谱AI公布清影新升级:视频生成步入“有声”时代
创始人
2024-11-09 02:40:51
0

新京报贝壳财经讯(记者罗亦丹)今年以来,Sora带火的AI生成视频吸引了许多人的关注,年内各式各样的AI视频大模型层出不穷,但有一点是一致的:所有AI生成的视频都是一段无声的“默片”。不过这一点即将迎来改变。

11月8日,“新AI六小龙”之一的北京AI大模型公司智谱宣布,其视频生成工具清影进行了重要升级,新清影在以下5个方面实现了提升:模型能力上,在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强;支持生成 10s、4K、60 帧超高清视频;支持任意比例的图像生成视频,包括超宽画幅;新增同一指令/图片可以一次性生成4个视频的多通道生成能力;以及最重要的——新清影可以生成与画面匹配的音效,其音效功能将在本月上线公测。

根据智谱AI展示的视频,新清影生成的视频有着各式各样的音效,如出现赛车视频时的引擎轰鸣声,主角飞到空中时风刮过衣领猎猎作响的声音,以及拉小提琴时可以贴合手部动作的琴声等。

智谱AI演示视频截图,图中拉小提琴的视频为AI生成,且有声音。

智谱披露的技术博客文档显示,为视频增添声音的是其开发的多模态模型家族音效模型 CogSound,基于GLM-4V的视频理解能力,CogSound 能够准确识别并理解视频背后的语义和情感,并为无声视频添加与之相匹配的音频内容,甚至可以生成更加复杂的音效,如爆炸、水流、乐器、动物叫声、交通工具声等。

具体来看,CogSound 的音效生成能力主要得益于采用潜空间扩散模型(Latent Diffusion Model),将音频生成过程从高维的原始空间转移到低维潜空间,降低了计算复杂度,同时保持了生成音频的高质量和高效率;引入分块时序对齐交叉注意力(Block-wise Temporal Alignment Cross-attention)机制,优化了视频长序列与音频特征之间的特征匹配;整合了旋转位置编码技术,通过为序列中的每个位置提供唯一标识并捕捉位置间的相对关系,让每个视频帧的位置都拥有独特的“坐标”,在音频生成中有效提升了时序一致性,确保音频序列的连贯性和过渡自然性。

“当前,AI生成视频用于影视创作仍需要多种不同的创作工具串联使用,但基于我们多模态的最新成果,实现这种一站式原生多模态工作流,这样的前景无疑是激动人心的。”智谱方面表示。

校对 吴兴发

相关内容

热门资讯

18岁女孩发现男友已婚跳桥身亡 近日,媒体公布一起案例:18岁的阿粥高中毕业后与阿力谈恋爱,得知男友阿力已婚且育子后情绪崩溃,与朋友...
人工智能成为第22届东博会亮眼... 新华社南宁9月20日电 题:人工智能成为第22届东博会亮眼元素 新华社记者武思宇、黄庆刚 朱槿花开,...
中国科学家获联合国教科文组织“... 联合国教科文组织19日在巴黎总部举行联合国教科文组织-阿勒福赞科学、技术、工程、数学领域杰出青年科学...
“怀柔一号”卫星再立功:首次发... 我国科研团队利用“怀柔一号”卫星对一例特殊伽马暴的观测数据,发现驱动该伽马暴的可能是一颗自转周期仅1...
京津冀产业协作正由“施工图”变... 转自:北京日报客户端 北京输出津冀技术合同成交额年均增长25% 产业协作“施工图”变为“实景图” 金...
新赛道!大连用AI检测脑健康 用一款VR游戏、一套AI算法 即完成阿尔茨海默等疾病的 早期筛查 在大连 一个个“沉睡”的AI专利 ...
从单点采样到立体监测!“极目一... 新华社拉萨9月20日电(记者刘祯)中国科学院青藏高原研究所联合空天信息创新研究院20日宣布,近日在西...
注意!非法转播软件“分享影视资... 转自:央视网 央视网消息:据国家安全部消息,当前,互联网技术飞速发展,各类音视频平台层出不穷。但在这...
善水科技获得发明专利授权:“一... 证券之星消息,根据天眼查APP数据显示善水科技(301190)新获得一项发明专利授权,专利名为“一种...
IPO雷达|正导技术回复北交所... 深圳商报·读创客户端记者 马强 据北交所官网,2025年9月19日,浙江正导技术股份有限公司(以下简...