新智元报道
编辑:编辑部 YJK
【新智元导读】AI生图圈,迎来新王者!今天,LMArena最新榜单出炉,「混元图像3.0」霸气登顶文生图任务,C位出道。这波操作,直接把开源AI生图的天花板拉到全新高度。
一觉醒来,AI生图「王者」登场!
LMArena最新发布榜单:「混元图像3.0」在文生图任务中,一举夺魁,力压群雄。
它直接碾压了谷歌火遍全网Nano banana模型,以及字节Seedream 4。
对此,LMArena官方发帖表示祝贺。
不得不说,这一成绩太顶了,而且,「混元图像3.0」完全开源、免费。
9月28日,腾讯正式发布并开源了「混元图像3.0」——业界首个开源工业级原生多模态生图模型。
它的性能直接对标闭源模型,且刷新了开源AI生图模型的SOTA。
发布仅3天,「混元图像3.0」强势登顶Hugging Face热榜,蝉联一周第一,如今又在LMArena上斩获亮眼的战绩。
这一系列表现,让业界再次关注到腾讯混元模型的进展。
回望2023年到2024年,相较国内其他实力玩家,腾讯混元一度显得有些「低调」——其混元直到2023年9月才正式上线。彼时实测中规中矩。
2024年,混元陆续开始发力开源,5月开源首个中文原生DiT文生图模型HunyuanDiT,11月推出首个开源文本模型HunYuan-Large和3D生成模型,12月开源混元视频生成大模型HunyuanVideo。
这时混元在多模态开源领域的优势开始逐渐显现,其生图与生视频模型相当一段时间内是社区最受欢迎的开源模型。
而进入2025年,混元仿佛按下了加速键,开启了「狂飙式」的开源节奏,密集发布轮番轰炸。
生文领域,从HunYuan-A13B到一系列小模型,再到翻译模型Hunyuan-MT-7B,混元的开源势头紧追头部模型,质量更是稳步提升。
如果说图像、视频、文本模型的开源让混元崭露头角,那么3D系列模型直接让它站上了世界舞台聚光灯下,从其3D 2.1版本开源以来,混元的3D生成一直在霸榜,成为名副其实的全球最强;最近还发布了首个支持物理仿真的开源世界模型。
如今,图像领域,混元同样不遑多让。
我们已经看到,最新「混元图像3.0」连续两次霸榜,成为AI文生图最能打的模型。
但有一说一,目前图片领域都已经在卷图片编辑了,混元这里还是缺了的。
官方也表示,这个版本的后训练只完成了文生图能力,图像编辑、多轮交互等版本在研发中。
毕竟基座模型都原生多模态了,图片编辑肯定能支持。混元确实要加快了。
一手实测,属实惊艳到了
回到最新上线的「混元图像3.0」,不仅具备了强大的常识推理、精准的语义理解能力,生成的图像真实,更富有极致美感。
而且,它还能全面支持中英文及长文本渲染。
自亮相以来,已有不少网友抢先实测,结果纷纷被「混元图像3.0」的强大表现所折服。
左右
如今,所有人皆可通过腾讯混元官网和腾讯元宝,开启图像生成的畅玩体验。
传送门:https://hunyuan.tencent.com/modelSquare/home/play?from=modelSquare&modelId=289
展开来说,混元图像3.0(Hunyuan Image 3.0)具备了以下三大特点:
原生多模态模型支持利用世界知识进行推理,目前主要开放生图能力
精确文字生成,超长文本渲染
具有精确的语义理解能力,能够实现超长的文本语义理解,整体美学接近商业级模型
上知天文,下知地理
混元图像3.0支持世界知识推理,熟悉地理、数学、物理、历史、文学等常识,画图更懂提示词。
比如,地球四季的形成涉及到地球绕太阳公转地轴倾斜。
如果图像模型做不到「上知天文,下知地理」,那下列指令生成的结果可能完全错误。
但这次混元新模型生成的结果科学性完全有保证:
prompt:画图解释一下地球四季的形成。
中学物理,也不在话下:
prompt:四格动画,解释牛顿三大定律。
看看混元图像3.0眼中的「三打白骨精」:
极致美学:细节,细节,更多的细节
混元图像3.0可以理解很复杂的指令,最多支持1000 Token;而且开源模型做到了工业级别的美学输出。
换句话,这次可以支持更多的细节控制:风格、背景、基调、主题、色彩、动作、光线……想要什么效果,直接输入,混元图像3.0一键直出:
prompt:这是一幅极具视觉张力的祭志风海报。整体笼罩在暗黑幽灵般的神秘氛围中,背景采用简约高级的纯红色,干净纯粹却不显张扬。为画面奠定了沉稳而富有张力的基调,画面主体是古风汉服服饰的超级近距离特写,以暗黑橘色柔光为主光源,勾勒出人物清晰而细腻的轮廓,人物露着肩膀,姿态魅惑又带着一丝魅惑,眼神妩媚勾人。
在整体暗光环境中尤为突出,同时,人物周身装饰着暗黑低饱和的银辉光效果,如同月光般清冷朦胧,为这份妖娆增添了几分疏离的幽灵感,强化了暗黑风格的神秘气质,让特写画面更具超强的视觉冲击力。
混元一键生成高品质摄影、电影质感的图像:
prompt:电影感的城市街角场景:一栋暖橙色外墙、带横向白色条纹的建筑,底部是粗糙的石质基座;左侧有一扇带百叶的窗;窗旁用细绳悬着一盏黑色吊灯,在墙面投下清晰阴影。
左上方强烈阳光倾洒,使被照亮的橙色墙面与右侧深棕色阴影形成锐利对比。
画面下方的人形剪影沿人行道行走。整体为低饱和、写实风格,墙面肌理与石粒细节丰富,明暗对比强烈;色调以暖橙与深棕为主,营造静谧都市氛围;剪影姿态富有动感。
背景隐约可见另一栋建筑与光秃树木的轮廓。8K 分辨率,高品质摄影,自然光,黑色电影,还是专业摄影师的作品。
在人物生成方面,混元图像3.0在细节上把控也非常不错。
因为支持更长、更复杂的指令,利用混元图像3.0可以一次性生成九宫格。比如,可直接输出多个表情包:
左右
类似的,可以制作其他风格或类型的表情包:
得益于精确的语义理解能力,混元图像3.0可理解超长的文本,解放更多创意,可以更快完成原型设计:
左右
混元官方X账号还有各种创意图案的生成。
左右
下笔如有神:长文本渲染
文字生成、长文本渲染一直是图像生成模型的难点。
这次混元3.0实现了「精确文字生成、长文本渲染」,对于中文海报生成等场景更加友好。
比如,混元图像3.0对「图像生成,解放创意」的理解:
左右
prompt:生成一幅海报,宣传AI日新月异,进步神速,突出图像生成领域解放创意。
对于更长的文本,这次混元渲染也没问题:
prompt:一张空白的宣纸上,手写体写着李白的作品
第一行写着: “春夜宴从弟桃花园序”,"李白",;
第二行写:“夫天地者,万物之逆旅也;光阴者,百代之过客也。”
第三行写:“而浮生若梦,为欢几何?”
第四行写:“古人秉烛夜游,良有以也。况阳春召我以烟景,大块假我以文章。”
第五行写:“会桃花之芳园,序天伦之乐事。”
第六行写:“群季俊秀,皆为惠连;吾人咏歌,独惭康乐。幽赏未已,高谈转清。”
第七行写:“开琼筵以坐花,飞羽觞而醉月。”
第八行写:“不有佳咏,何伸雅怀?如诗不成,罚依金谷酒数。”
英文渲染也没问题:
核心技术揭秘
架构革命性创新
腾讯最新发布的混元图像3.0彻底颠覆了传统图像生成模型的架构,将语言、视觉和图像生成融为一体,仿佛赋予了AI一个「能画图的大脑」。
架构创新
不同于以往DiT系列(Diffusion Transformer)那种让大模型仅充当文本编码器的做法,混元图像3.0采用了80B参数规模的MoE架构,拥有64个专家网络,但每次推理时仅激活约13B的参数。
也就是说,它相当于汇聚了64位各有所长的绘画「大师」,但每次作画只让其中最相关的少数专家上场,各展所长。
这种门控机制使模型既享有了海量参数带来的知识容量,又避免了让所有专家同时运转的低效,在保证推理速度的同时极大提升了模型能力。
混元图像3.0由此做到了「模型大」「效率高」两不误,真正实现了智慧与效率兼备,颠覆了以往人们对大模型「笨重耗资」的刻板印象。
混元图像3.0在一个自回归Transformer中统一处理文本理解、视觉解析和高保真图像生成。
这种深度融合使模型天然继承了强大的语言理解和推理能力,能够像一位自带大脑的画家那样利用庞大的世界知识进行构思,其生成效果已可比肩业界顶尖的闭源模型,被誉为开源领域最强的图像大模型。
广义因果注意力机制
广义因果注意力机制是混元图像3.0的一大创新,它让模型在同一框架中既擅长「语言思考」,又具备「画面全局感」。
简单来说,文本Token仍遵循语言模型的因果(自回归)注意力,使模型保留链式逻辑推理能力;而图像Token则被赋予全局注意力,允许模型「眼观六路」,整体把握画面的空间信息。
这种广义因果注意力构建了兼顾「语言因果推理」和「图像全局建模」的注意力矩阵,在统一架构下真正实现了理解与生成的一体化融合。
换言之,模型在生成图像的过程中既不会丢失语言思维的连贯性,也能满足图像生成对全局一致性的需求,实现所「想」即所「画」的高度统一。
在模型设计上,混元图像3.0采用了VAE+ViT双编码器结构:通过变分自编码器(VAE)和视觉Transformer(ViT)的联合特征来处理图像信息,并将其与文本一并映射到统一的Token序列中。
生成端则借鉴了Transfusion架构思想,将扩散式图像生成过程无缝嵌入LLM架构里,实现了文本和图像信息的灵活交互。
通俗地说,过去模型往往先处理完文字再处理图像,而混元图像3.0则是让图文在同一「语句」中交织在一起处理。
模型能够一边「读懂」用户的指令,一边在「脑海」中勾勒画面细节,两种模态相辅相成,再也不需要割裂地分别对待。
这种统一序列的设计大大提升了语义对齐和细节控制的能力,即使是复杂场景也能创作得稳定连贯。
更令人称道的是,混元图像3.0在生成图像时展现出了近似CoT推理般的思维过程。
它内置了原生的图文交织推理机制,模型仿佛能在「动笔」前先经过一番缜密的思考:逐步推理出对指令的理解、分解复杂逻辑关系,乃至构想画面的布局和元素细节。
这种能力得益于训练中引入的大量CoT推理数据,让模型学会了自主规划从理解意图到最终「落笔」的全过程。
举例来说,用户让它「画出解方程的步骤图」或「制作四格科普漫画」,混元图像3.0都会先在脑海中演算出步骤或剧情,再将推理结果转换成一张张合乎逻辑、细节丰富的图像。
这意味着模型不再是收到指令就直接下笔的「机械手」,而更像是一个会三思而后行的AI艺术家——先「思考」清楚再「动笔」创作,因而生成的图像格外精细、贴合意图,让人直观感受到其理解力之强。
注意力掩码机制
混元图像3.0通过这样的「图文交织」训练范式,让模型习惯在长序列中同时处理多个图像和文本。
这样一来,一个提示词下多张图片前后呼应、风格统一、情节连贯成为可能。
然而,让AI同时绘制多幅图像也带来了潜在的问题:这些图像可能会互相「串台」,干扰彼此的内容。
为此,混元图像3.0引入了一种专门的注意力掩码机制,可以形象地理解为在AI大脑里拉起了隔离帘幕。
当模型正在专注「润色」一张尚处于生成过程中的画面时,它看不到旁边那些已经完成、干净的图像。
每幅图都在各自独立的创作空间中完成,不会被其他画面的内容所污染。
这样的隔离就像让每张画都有了自己的工作室,确保AI在多图场景下也能稳定发挥——生成的多个画面逻辑一致、互不矛盾。
二维位置编码
为了让AI更「懂」图像的内部结构,混元图像3.0还教会模型去感知画面的二维布局。
原本模型处理文本时,只能沿着一条直线(一维顺序)理解位置;
现在,它获得了二维的位置感知,就好比在每张图上铺了一层看不见的网格坐标。
模型为图像Token引入了二维位置编码,让每个视觉片段都带有原生的X-Y坐标定位。
通过这种扩展,每个图像Token都「知道」自己在画面中的横纵坐标,从而对图像的空间结构有了天然的直觉。
这意味着AI在理解和生成图像时,不再只是逐像素地盲画,而是仿佛真正明白了左上角在哪里、右下角有什么。
这就好比模型天生长了一双「画家的眼睛」,对画面中的上下左右有直觉般的感知,不会在生成过程中丢失空间关系。
同时,模型支持多分辨率自适应输出,可以根据提示内容自动预测最合适的图像尺寸和宽高比。
如果用户没有特别指明分辨率,混元图像3.0会智能分析场景:人像肖像可能选取竖幅比例(如3:4),风景宏图则偏好横幅长宽比(如16:9),并针对细节丰富的画面提高分辨率,以确保清晰度。
这种动态调整相当于模型会替用户选好「画板」——让每幅图都在最适合的尺寸上呈现最佳的构图和视觉效果,省去了繁琐的手动参数设定,体现出模型对视觉创作的专业理解。
渐进式训练范式
在训练策略上,混元图像3.0经历了精心设计的多阶段进化。
首先是渐进式的预训练:模型从低分辨率(如256px)的图像和粗粒度标注学起,随着训练推进逐步提升至512px乃至高清的1024px,并不断加入更复杂精细的图文数据。
在高分辨率阶段,研发团队额外融入了图像编辑、多图融合等任务数据,以及激发推理能力的CoT案例,让模型在理解和生成长篇幅、多回合内容上也驾轻就熟。
接着进入指令微调阶段,使用格式化的文本-图像指令数据强化模型对用户意图的遵循,使其更懂得听话照做。
最后,经过多轮人类偏好强化训练,模型的审美品味和创作水准被打磨得更为精湛:包括精选高质量样本的监督微调(SFT)、优劣对比的直接偏好优化(DPO),以及引入奖励模型信号的强化学习策略(如MixGRPO、SRPO等),都在持续优化生成结果的细腻度与美感。
通过由浅入深、循序渐进的训练流程,混元图像3.0不仅学会了画画,更学会了如何画得更好、更美,充分迎合人类审美和创作偏好。
原生多模态成绩亮眼
开源生态爆发
放眼全世界,OpenAI、谷歌如今开发大模型的重点,不再是单模态,比如语言、语音、视频等。
多模态早已成为业界共识。
作为国内头部科技巨头,腾讯也不例外。原生多模态不仅仅是为了顺应潮流,而是让AI具备真正「智能」的必经之路。
这一次,腾讯的成功并非偶然,是其在AI领域不断深耕、技术积累的结果。
混元系列,作为腾讯的核心AI大模型,已经在多模态领域展现出越来越丰富优势——
从3D生成持续领先,到图像生成逐渐赶超,腾讯正构建一个覆盖文本、图像、视频、3D生成的全链路AI体系。
在3D生成领域,混元3D已经是绝对的王者,不断迭代,目前最新3.0版本——Hunyuan3D 3.0,精度直接提升3倍,几何分辨率达到1536³,细节逼真到惊人。
在图像生成领域,此前的混元图像2.1 拿下开源最强,到这次的图像3.0直接跟闭源模型不分高下。
文生图阶跃式进化,赶超顶尖闭源模型,也让其接下来的图生图、图片编辑能力十分让人期待。
在视频生成领域,文生视频模型也在不断进化。最近开源的「视频音效生成模型」HunyuanVideo-Foley、视频-虚拟人模型HunyuanVideo-Avatar收获了一众好评。
开源,是腾讯的另一杀手锏。
「混元图像3.0」一发布就火热霸榜Hugging Face,背后离不开腾讯在开源社区的持续投入,推动全球开发者共建生态。
目前,这款文生图模型已在GitHub斩获1.7k星。
腾讯混元团队还透露,混元图像3.0图生图、图像编辑、多轮交互等版本将于后续上线。
项目地址:https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
生态赋能,无缝融入亿级场景
更让人无法忽视的是,腾讯拥有庞大的生态优势,旗下丰富的产品及场景,能将AI无缝集成到社交、游戏、广告等实际落地应用中。
2025年被视为AI「应用元年」,真正的挑战在于落地速度与迭代能力。
如今,混元正加速融入各类场景——推出AI播客并在ima、腾讯新闻上线,支持腾讯会议AI小助手、微信读书AI问书AI助手对会议内容、整本书籍的理解和处理。
同时,腾讯云的AI基础设施支持企业定制化部署混元模型,广泛覆盖教育、医疗、金融等行业。
混元正通过开源积累生态,场景与技术互相反哺,构建出腾讯特色的AI之路。
参考链接: