专访|以扩散模型“炼”码 中国电信驱动通信从“传数据”向“建体验”转型
创始人
2025-07-16 19:01:20
0

(记者 林碧涓)近日,中国电信在多媒体与人工智能交叉领域取得具有国际影响力的技术突破。中国电信云计算研究院常建慧博士的论文《Generative Image Coding with Diffusion Prior》在IEEE国际多媒体与博览会议(IEEE International Conference on Multimedia and Expo,ICME 2025)上荣获“最佳论文奖”(Best Paper Award)。该篇论文创新性地将扩散模型(Diffusion Model)引入生成式图像编码领域,有效突破传统方法在压缩效率与重建质量之间的权衡瓶颈。

(图片来源:摄图网)

“生成式图像和视频编码的突破,正在推动通信系统从‘传输数据’向‘重建体验’转型。它的意义不止在于压缩率的提升,更在于我们能够以极小的传输负载,还原出感知质量很高的视觉内容。”在本次采访中,中国电信云计算研究院常建慧博士深入解读了此次中国电信生成式图像编码技术突破的应用价值与前景。

痛点突围:图片“压缩”和“生成”关系的重构

想象一下,你在家戴着一副轻便的AR眼镜,和远在国外的家人“面对面”聊天,他们的表情、动作、甚至身后的环境,都在你眼前栩栩如生。这些高清画面并不是完整传过来的,而是眼镜收集了动作、语义、结构等关键信息,通过本地生成模型快速还原画面。这背后起关键作用的底层技术,就是生成式编码。

随着生成技术的进步,视觉内容已从自然图像为主,演变为自然图像与AI生成图像的复杂混合,这推动了对优先考虑感知质量的高效编码技术的需求。

早期生成式编码技术多基于 GAN(生成对抗网络)和 VAE(变分自编码器)模型,在控制力、稳定性及重建质量方面仍有一定限制。近年来在图像生成领域,扩散模型展现出了可控生成高质量图像的强大能力,为图像压缩任务带来了新的可能性。然而现有基于生成扩散模型的方法则多由文本引导,虽然能够生成高质量图像,但保真度有限,容易出现偏色、变形、语义偏移等问题,难以满足通信系统对“可控、稳定、可还原”的编码要求。

研究提出的基于扩散模型先验的生成式编码框架,核心突破在于:将“生成能力”转化为“可控的压缩系统”,使模型在低码率下依然能够传达明确而有效的控制信号,确保重建结果听从压缩器“指令”,该框架在低码率区间显著提升了感知保真度。

整体采用通用编码器与插件式适配器相结合的架构,引入变码率机制,以支持多码率压缩与灵活对接多种预训练扩散模型,从AIGC到自然图像再到垂类内容,适配性强,同时也降低了训练与迁移成本。

技术突破:“99次失败后的成功”

科研往往是在对的方向中,螺旋上升的一个过程。这项技术的萌芽,始于常建慧求学期间的思考与探索。“那时候就一直在探索‘能不能让生成模型参与图像压缩’,也做出过一些成果,但在细节保真和泛化能力上仍存在瓶颈。”扩散模型的发展为这一难题提供了新的解法。其在稀疏条件引导下所展现的高质量重建能力,使其成为构建新型编码系统的理想基座。

然而,从想法走向可用方案的过程中,仍面临诸多挑战。其中最核心的挑战,是如何同时解决压缩器的表达能力与生成器的可控性问题。一方面,压缩端需要在极低比特率下仍能提取出对生成过程有引导力的关键信息;另一方面,扩散模型本身的生成过程复杂,如何让其“听懂”来自编码器的控制信号,也需要精细设计结构与融合方式。早期的探索中,在编码结构、压缩粒度、控制接口等方面都经历了多轮尝试与调整。直到引入“变码率编码器+适配器+融合引导”的结构,才逐步建立起压缩–生成之间的协同机制。

去年7月加入中国电信云计算研究院之后,研究院提供了强大算力与实验条件支持。算力是AI生成研究的重要底座,持续的算力资源投入让复杂模型训练与海量实验成为可能。经过反复实验与模型优化,该方案逐步趋于稳定。“实验不是一蹴而就的,成功背后需要足够多的积累。”

“因为是框架性的工作,想要进一步提升并拓展到更多场景中,从而验证其可用性、可行性。”在有了会议版本后,常建慧开始思考如何进一步扩展这个工作。项目成员也从最初的“单打独斗”,发展到今年有实习生加入。为帮助新人快速上手,她整理了详尽的技术文档,常陪实习生一起调试代码、讨论方案。“有次他卡了一周没跑通实验,最后终于啃下来了,那一刻比自己成功还有成就感。”

这种“敢啃硬骨头”科研氛围,植根于研究院独特的土壤。“有空间、有活力”是常建慧对这里的评价,也是她选择加入的重要原因。“一个关键契机是吴杰院长的邀请。他作为资深教授,学术视野非常宽广,且一直保持着对科研的热情,对根技术的关注、对原理的执着,给我很大的感染。这次ICME的投稿能够脱颖而出,离不开他的强烈推荐与信任。”

该项技术在去年年底完成早期版本,今年年初投稿ICME2025,并从3737 篇论文中脱颖而出,成为本届大会唯一的最佳论文奖。

这不仅是常建慧个人的里程碑,更是研究院在图像编码这一传统而前沿的领域,探索出一条极具创新价值的新路径。“虽然目前技术还处在研究成果初步成型、持续工程验证的阶段,但我已经切实感受到了‘从想法走向成果’的路径正在打通。能在这样的平台上做研究,我感到很幸运,也很有动力把这项工作继续推进下去。”

未来已来:从图像到多模态,构筑通信新生态

从产业发展趋势上看,生成式压缩正好契合AI原生通信、AIGC存储优化、边端协同等新兴需求,是一个“技术领先+需求拉动”的方向。

当前,基于扩散模型的生成式编码新框架展现出广阔的应用前景,从能力特点来看,它适合应用在带宽敏感或存储成本高的场景。例如医疗影像等冷数据图像的长期备份,这类内容对访问频率要求不高,但对还原质量仍有基本保障需求,生成式编码可以在极低码率下保留结构与感知细节,有望大幅降低存储开销。

但要实现规模化落地,还需重点突破三大核心内容:一是提升推理效率,进一步优化扩散模型的采样流程与部署性能;二是提高系统集成能力,解决现有平台中生成式解码的接入问题;三是推进生态标准建设,推动上下游接口规范、格式统一等工作。

“我们认为,生成式编码是一项面向未来的‘通用视觉通信能力’,它将支撑泛在云向更智能、更高效、更感知驱动的方向演进,也是研究院接下来重点方向之一。”常建慧介绍道,在边缘端,生成式图像编码技术可以降低图像/视频的回传成本,提升算网协同效率;在中心云,能够支持大规模感知优先型视觉内容的托管、分发与归档,节省存储空间;在泛在场景中,可以构建出“生成驱动”的新型通信机制,兼顾质量与效率。下一步,中国电信云计算研究院计划将该技术拓展到视频编码中,并面向多模态任务、多模态模型进行探索。

中国电信董事长柯瑞文曾强调,“科技成果只有通过规模应用,才能促进技术不断迭代完善,形成成熟的商业模式,实现技术和市场双轮驱动产业发展,并进一步反哺科技创新。”

应用落地是检验技术创新的“验金石”。作为中国电信面向未来科技创新的核心力量之一,云计算研究院坚持“以科技驱动引领未来、以创新赋能产业升级”发展宗旨,深耕前沿技术研究;同时,与天翼云联系紧密,在实际运行中,其承接天翼云提出的实际业务痛点,攻关核心技术后再通过天翼云完成落地验证,实现产学研深度咬合闭环。基于此,“我们也将与天翼云公司探讨可能落地应用场景。针对落地应用需求,在目前基础上进一步迭代升级。在升级过程中,还可以应用一些新的技术去设计,降低推理实验。”据中国电信云计算研究院院长吴杰透露,当前,云计算研究院已与天翼云、天翼视联公司进行初步沟通,未来应用场景将不止于“云”,还将延伸至视联网领域。

当灵感遇见坚定支持,当个人探索汇入团队使命,那些曾经制约实践的“不可能”,终将被一一击破。在“AI+通信”的融合浪潮中,中国电信创新者正以扎实的根技术,实践着从“0”到“1”的突破。

相关内容

热门资讯

原创 1... 俄军夏季攻势的炮声未响,全球已闻到火药味。当普京的“60天最后通牒”与特朗普的“致命军援”针锋相对,...
10亿张高清图像将提供“人体健... 科技日报北京7月15日电 (记者张佳欣)当地时间14日,英国科学传媒中心发布消息称,英国生物银行已完...
心跳为何会乱了节奏?专家:心跳... 中新网上海7月16日电 (记者 陈静)最近,华语乐坛知名歌手在演唱会中自曝确诊心脏疾病,每日需药物控...
宗庆后百亿元家族信托迷局:资产... 本报(chinatimes.net.cn)记者刘佳 北京报道 在商业传奇宗庆后离世一年半后,娃哈哈集...
光伏电站的“智慧管家”:能环宝... 在全球能源转型的大潮中,光伏是清洁能源的重要组成部分之一。能环宝,作为一家深耕清洁能源领域的综合解决...
苻坚的大将吕光,是如何成为“西... 全文共3214字 | 阅读需7分钟 五胡十六国可以说是中国历史上最混乱的时期之一,先后十六个国家在北...
俄军官:无论过去还是现在,美国... 俄政治总局副局长阿劳迪诺夫中将,15日在前线接受凤凰卫视专访时表示,俄军已在或正在接触上建立至少八个...
城市更新如何重塑生活?中央城市... 时隔十年,中央城市工作会议再度召开,部署了七项城市工作的重点任务。这些工作,将如何具体影响城市发展和...
如何纠正孩子乱拿别人东西的行为... 孩子未经允许拿别人东西是一个需要耐心引导的行为问题。这种情况通常发生在孩子对物品归属概念还不够清晰的...
幼儿园到小学,如何科学衔接? 从幼儿园到小学是孩子成长的关键转折,科学衔接能助力孩子平稳过渡,以下从心理、习惯、知识三方面提供建议...