在操纵视频可传播虚假信息、实施霸凌和煽动伤害的时代,加州大学河滨分校(UC Riverside)的研究人员开发了一种强大的新系统来揭露这类伪造内容。
该校工程学院教授Amit Roy-Chowdhury与博士生Rohit Kundu,联合谷歌科学家开发了一种人工智能模型,能够检测视频篡改——即使操纵手段远超换脸和语音修改。(Roy-Chowdhury同时担任UCR人工智能研究与教育研究所联合主任,该研究所是UCR新成立的跨学科研究中心。)
他们的新系统名为“通用篡改与合成视频识别网络”(UNITE),通过分析完整视频帧(包括背景和运动模式)而非仅关注面部来识别伪造。这使其成为首批能够识别不依赖面部内容的合成或篡改视频的工具之一。
“深度伪造技术已进化,”Kundu表示,“不再局限于换脸,人们现在使用强大的生成模型创建从面部到背景的完全虚假视频。我们的系统旨在捕捉所有这些伪造。”
UNITE的开发正值文本转视频和图像转视频技术在网上广泛普及之际。这些AI平台使几乎任何人都能制作高度逼真的视频,对个人、机构乃至民主制度构成严重风险。
“这些工具的可及性令人担忧,”Kundu指出,“具备中等技能的人就能绕过安全过滤器,生成公众人物‘说从未说过的话’的逼真视频。”
Kundu解释,早期深度伪造检测器几乎完全依赖面部线索。“如果帧中没有面部,许多检测器就会失效,”他说,“但虚假信息可以有多种形式——篡改场景背景同样能扭曲事实。”
为解决这一问题,UNITE采用基于Transformer的深度学习模型分析视频片段,检测传统系统常忽略的细微空间和时间不一致性。该模型借鉴了名为SigLIP的基础AI框架,可提取不绑定特定人物或物体的特征。其创新的“注意力多样性损失”训练方法,促使系统监控每一帧的多个视觉区域,避免仅聚焦面部。
这一设计使UNITE成为“通用检测器”,能够标记从简单面部交换到完全无真实素材的复杂合成视频等各类伪造。
研究成果已在2025年计算机视觉与模式识别会议(CVPR)上发表,该会议由IEEE计算机学会与计算机视觉基金会联合主办,是全球影响力最高的学术会议之一。论文题为《迈向通用合成视频检测器:从面部/背景操纵到全AI生成内容》,由Kundu牵头,谷歌研究员Hao Xiong、Vishal Mohanty和Athula Balachandra共同撰写。
Kundu在谷歌实习期间促成了此次合作,获得了训练模型所需的海量数据集和计算资源,涵盖文本生成视频、图像生成视频等现有检测器常失效的格式。
尽管仍在开发中,UNITE有望成为防御视频虚假信息的关键工具。潜在用户包括社交媒体平台、事实核查机构和新闻编辑部,以防止操纵视频病毒式传播。
“人们有权知道所见内容是否真实,”Kundu强调,“随着AI伪造现实的能力增强,我们必须更擅长揭露真相。”