值得买与中国人民大学高瓴人工智能学院联合取得AIGC研究成果
创始人
2025-06-12 16:22:08
0

本报讯 (记者桂小笋)6月11日至6月15日,2025国际计算机视觉与模式识别会议(CVPR2025)召开。北京值得买科技股份有限公司(以下简称“值得买”)与中国人民大学高瓴人工智能学院在多模态领域的最新联合研究成果《图像转有声视频》(《Animate and Sound an Image》)成功入选。

该成果首次提出了一种从静态图像直接生成同步音视频内容的生成框架JointDiT(Joint Diffusion Transformer),实现了从图像到“动态视频+声音”的高质量联合生成。这不仅展现了双方在AIGC领域的技术创新突破,也为AI多模态的高质量发展提供了新的思路与启发。

据介绍,《图像转有声视频》首次提出并系统定义了图像到有声视频生成(Image-to-Sounding-Video,I2SV)这一新任务:让静态图像“动”起来的同时,生成与之语义匹配、时间同步的音频内容。同时还提出了一种新颖的内容生成框架JointDiT(Joint Diffusion Transformer),并具体阐述了如何利用两个强大的单模态预训练扩散模型(一个视频生成器,一个音频生成器),构建统一的联合生成框架,实现多模态协同生成。

人大高瓴人工智能学院长聘副教授宋睿华表示:“接下来,研究团队计划将JointDiT扩展至图像、文本、音频、视频四模态的联合建模,为构建更通用、更智能的多模态生成系统奠定基础。”

(编辑 何成浩 郭之宸)

相关内容

热门资讯

智库思享丨顶尖科学家成长有迹可... 智库思享 ——读《勇攀巅峰——国家最高科学技术奖获得者的故事》有感 ■孙飞 《勇攀巅峰——国家最高...
SU7为何卖爆?专家:小米非简... 6月13日消息,造车经验才几年的小米,推出SU7后迅速卖爆,对于它的成功也是众说纷纭。 在雷军看来,...
光网络中的AI算法研究与应用场... 通信世界网消息(CWW)光网络承担着海量信息传输任务,是支撑经济社会数字 化转型的重要基础设施。随着...
第二届“一带一路”科技创新部长... 成都6月12日电 (记者 孙自法 王利文)作为第二届“一带一路”科技交流大会的重要活动之一,第二届“...
两天大订突破2100台,岚图梦... 近期,岚图梦想家以两天突破2100台大订的销售成绩引发市场关注,放眼当前国内的高端MPV市场,各个车...
红蝶实业取得井下矿用无人探测自... 金融界2025年6月13日消息,国家知识产权局信息显示,镇宁县红蝶实业有限责任公司取得一项名为“一种...
破圈,让我们更懂彼此 潮新闻客户端 评论员 张萍 Labubu破圈让年长者更理解年轻人,韦东奕开号让普通人更理解科学家...
沈阳飞驰电气取得预制舱用二次电... 金融界2025年6月13日消息,国家知识产权局信息显示,沈阳飞驰电气设备有限公司取得一项名为“一种预...
中能拾贝:廿载匠心筑梦,以“拾... 2005 年 4 月,中能拾贝(原广州健新科技)在广州扬帆起航,开启工业智能化探索征程。二十载风雨兼...
字节面试作弊,被识破了。。。 图解学习网站: 大家好,我是小林。 AI 工具盛行之后,面试作弊不要太简单了。 面试的时候,面试官一...