腾讯王者归来:混元图像3.0登顶LMArena!一手实测全球最强图像AI
创始人
2025-10-05 14:22:08
0

新智元报道

编辑:编辑部 YJK

【新智元导读】AI生图圈,迎来新王者!今天,LMArena最新榜单出炉,「混元图像3.0」霸气登顶文生图任务,C位出道。这波操作,直接把开源AI生图的天花板拉到全新高度。

一觉醒来,AI生图「王者」登场!

LMArena最新发布榜单:「混元图像3.0」在文生图任务中,一举夺魁,力压群雄。

它直接碾压了谷歌火遍全网Nano banana模型,以及字节Seedream 4。

对此,LMArena官方发帖表示祝贺。

不得不说,这一成绩太顶了,而且,「混元图像3.0」完全开源、免费。

9月28日,腾讯正式发布并开源了「混元图像3.0」——业界首个开源工业级原生多模态生图模型。

它的性能直接对标闭源模型,且刷新了开源AI生图模型的SOTA。

发布仅3天,「混元图像3.0」强势登顶Hugging Face热榜,蝉联一周第一,如今又在LMArena上斩获亮眼的战绩。

这一系列表现,让业界再次关注到腾讯混元模型的进展。

回望2023年到2024年,相较国内其他实力玩家,腾讯混元一度显得有些「低调」——其混元直到2023年9月才正式上线。彼时实测中规中矩。

2024年,混元陆续开始发力开源,5月开源首个中文原生DiT文生图模型HunyuanDiT,11月推出首个开源文本模型HunYuan-Large和3D生成模型,12月开源混元视频生成大模型HunyuanVideo。

这时混元在多模态开源领域的优势开始逐渐显现,其生图与生视频模型相当一段时间内是社区最受欢迎的开源模型。

而进入2025年,混元仿佛按下了加速键,开启了「狂飙式」的开源节奏,密集发布轮番轰炸。

生文领域,从HunYuan-A13B到一系列小模型,再到翻译模型Hunyuan-MT-7B,混元的开源势头紧追头部模型,质量更是稳步提升。

如果说图像、视频、文本模型的开源让混元崭露头角,那么3D系列模型直接让它站上了世界舞台聚光灯下,从其3D 2.1版本开源以来,混元的3D生成一直在霸榜,成为名副其实的全球最强;最近还发布了首个支持物理仿真的开源世界模型。

如今,图像领域,混元同样不遑多让。

我们已经看到,最新「混元图像3.0」连续两次霸榜,成为AI文生图最能打的模型。

但有一说一,目前图片领域都已经在卷图片编辑了,混元这里还是缺了的。

官方也表示,这个版本的后训练只完成了文生图能力,图像编辑、多轮交互等版本在研发中。

毕竟基座模型都原生多模态了,图片编辑肯定能支持。混元确实要加快了。

一手实测,属实惊艳到了

回到最新上线的「混元图像3.0」,不仅具备了强大的常识推理、精准的语义理解能力,生成的图像真实,更富有极致美感。

而且,它还能全面支持中英文及长文本渲染。

自亮相以来,已有不少网友抢先实测,结果纷纷被「混元图像3.0」的强大表现所折服。

左右

如今,所有人皆可通过腾讯混元官网和腾讯元宝,开启图像生成的畅玩体验。

传送门:https://hunyuan.tencent.com/modelSquare/home/play?from=modelSquare&modelId=289

展开来说,混元图像3.0(Hunyuan Image 3.0)具备了以下三大特点:

  • 原生多模态模型支持利用世界知识进行推理,目前主要开放生图能力

  • 精确文字生成,超长文本渲染

  • 具有精确的语义理解能力,能够实现超长的文本语义理解,整体美学接近商业级模型

上知天文,下知地理

混元图像3.0支持世界知识推理,熟悉地理、数学、物理、历史、文学等常识,画图更懂提示词。

比如,地球四季的形成涉及到地球绕太阳公转地轴倾斜。

如果图像模型做不到「上知天文,下知地理」,那下列指令生成的结果可能完全错误。

但这次混元新模型生成的结果科学性完全有保证:

prompt:画图解释一下地球四季的形成。

中学物理,也不在话下:

prompt:四格动画,解释牛顿三大定律。

看看混元图像3.0眼中的「三打白骨精」:

极致美学:细节,细节,更多的细节

混元图像3.0可以理解很复杂的指令,最多支持1000 Token;而且开源模型做到了工业级别的美学输出。

换句话,这次可以支持更多的细节控制:风格、背景、基调、主题、色彩、动作、光线……想要什么效果,直接输入,混元图像3.0一键直出:

prompt:这是一幅极具视觉张力的祭志风海报。整体笼罩在暗黑幽灵般的神秘氛围中,背景采用简约高级的纯红色,干净纯粹却不显张扬。为画面奠定了沉稳而富有张力的基调,画面主体是古风汉服服饰的超级近距离特写,以暗黑橘色柔光为主光源,勾勒出人物清晰而细腻的轮廓,人物露着肩膀,姿态魅惑又带着一丝魅惑,眼神妩媚勾人。

在整体暗光环境中尤为突出,同时,人物周身装饰着暗黑低饱和的银辉光效果,如同月光般清冷朦胧,为这份妖娆增添了几分疏离的幽灵感,强化了暗黑风格的神秘气质,让特写画面更具超强的视觉冲击力。

混元一键生成高品质摄影、电影质感的图像:

prompt:电影感的城市街角场景:一栋暖橙色外墙、带横向白色条纹的建筑,底部是粗糙的石质基座;左侧有一扇带百叶的窗;窗旁用细绳悬着一盏黑色吊灯,在墙面投下清晰阴影。

左上方强烈阳光倾洒,使被照亮的橙色墙面与右侧深棕色阴影形成锐利对比。

画面下方的人形剪影沿人行道行走。整体为低饱和、写实风格,墙面肌理与石粒细节丰富,明暗对比强烈;色调以暖橙与深棕为主,营造静谧都市氛围;剪影姿态富有动感。

背景隐约可见另一栋建筑与光秃树木的轮廓。8K 分辨率,高品质摄影,自然光,黑色电影,还是专业摄影师的作品。

在人物生成方面,混元图像3.0在细节上把控也非常不错。

因为支持更长、更复杂的指令,利用混元图像3.0可以一次性生成九宫格。比如,可直接输出多个表情包:

左右

类似的,可以制作其他风格或类型的表情包:

得益于精确的语义理解能力,混元图像3.0可理解超长的文本,解放更多创意,可以更快完成原型设计:

左右

混元官方X账号还有各种创意图案的生成。

左右

下笔如有神:长文本渲染

文字生成、长文本渲染一直是图像生成模型的难点。

这次混元3.0实现了「精确文字生成、长文本渲染」,对于中文海报生成等场景更加友好。

比如,混元图像3.0对「图像生成,解放创意」的理解:

左右

prompt:生成一幅海报,宣传AI日新月异,进步神速,突出图像生成领域解放创意。

对于更长的文本,这次混元渲染也没问题:

prompt:一张空白的宣纸上,手写体写着李白的作品

第一行写着: “春夜宴从弟桃花园序”,"李白",;

第二行写:“夫天地者,万物之逆旅也;光阴者,百代之过客也。”

第三行写:“而浮生若梦,为欢几何?”

第四行写:“古人秉烛夜游,良有以也。况阳春召我以烟景,大块假我以文章。”

第五行写:“会桃花之芳园,序天伦之乐事。”

第六行写:“群季俊秀,皆为惠连;吾人咏歌,独惭康乐。幽赏未已,高谈转清。”

第七行写:“开琼筵以坐花,飞羽觞而醉月。”

第八行写:“不有佳咏,何伸雅怀?如诗不成,罚依金谷酒数。”

英文渲染也没问题:

核心技术揭秘

架构革命性创新

腾讯最新发布的混元图像3.0彻底颠覆了传统图像生成模型的架构,将语言、视觉和图像生成融为一体,仿佛赋予了AI一个「能画图的大脑」。

架构创新

不同于以往DiT系列(Diffusion Transformer)那种让大模型仅充当文本编码器的做法,混元图像3.0采用了80B参数规模的MoE架构,拥有64个专家网络,但每次推理时仅激活约13B的参数

也就是说,它相当于汇聚了64位各有所长的绘画「大师」,但每次作画只让其中最相关的少数专家上场,各展所长。

这种门控机制使模型既享有了海量参数带来的知识容量,又避免了让所有专家同时运转的低效,在保证推理速度的同时极大提升了模型能力。

混元图像3.0由此做到了「模型大」「效率高」两不误,真正实现了智慧与效率兼备,颠覆了以往人们对大模型「笨重耗资」的刻板印象。

混元图像3.0在一个自回归Transformer中统一处理文本理解、视觉解析和高保真图像生成。

这种深度融合使模型天然继承了强大的语言理解和推理能力,能够像一位自带大脑的画家那样利用庞大的世界知识进行构思,其生成效果已可比肩业界顶尖的闭源模型,被誉为开源领域最强的图像大模型。

广义因果注意力机制

广义因果注意力机制是混元图像3.0的一大创新,它让模型在同一框架中既擅长「语言思考」,又具备「画面全局感」。

简单来说,文本Token仍遵循语言模型的因果(自回归)注意力,使模型保留链式逻辑推理能力;而图像Token则被赋予全局注意力,允许模型「眼观六路」,整体把握画面的空间信息。

这种广义因果注意力构建了兼顾「语言因果推理」和「图像全局建模」的注意力矩阵,在统一架构下真正实现了理解与生成的一体化融合。

换言之,模型在生成图像的过程中既不会丢失语言思维的连贯性,也能满足图像生成对全局一致性的需求,实现所「想」即所「画」的高度统一。

在模型设计上,混元图像3.0采用了VAE+ViT双编码器结构:通过变分自编码器(VAE)和视觉Transformer(ViT)的联合特征来处理图像信息,并将其与文本一并映射到统一的Token序列中。

生成端则借鉴了Transfusion架构思想,将扩散式图像生成过程无缝嵌入LLM架构里,实现了文本和图像信息的灵活交互。

通俗地说,过去模型往往先处理完文字再处理图像,而混元图像3.0则是让图文在同一「语句」中交织在一起处理。

模型能够一边「读懂」用户的指令,一边在「脑海」中勾勒画面细节,两种模态相辅相成,再也不需要割裂地分别对待。

这种统一序列的设计大大提升了语义对齐和细节控制的能力,即使是复杂场景也能创作得稳定连贯。

更令人称道的是,混元图像3.0在生成图像时展现出了近似CoT推理般的思维过程。

它内置了原生的图文交织推理机制,模型仿佛能在「动笔」前先经过一番缜密的思考:逐步推理出对指令的理解、分解复杂逻辑关系,乃至构想画面的布局和元素细节。

这种能力得益于训练中引入的大量CoT推理数据,让模型学会了自主规划从理解意图到最终「落笔」的全过程。

举例来说,用户让它「画出解方程的步骤图」或「制作四格科普漫画」,混元图像3.0都会先在脑海中演算出步骤或剧情,再将推理结果转换成一张张合乎逻辑、细节丰富的图像。

这意味着模型不再是收到指令就直接下笔的「机械手」,而更像是一个会三思而后行的AI艺术家——先「思考」清楚再「动笔」创作,因而生成的图像格外精细、贴合意图,让人直观感受到其理解力之强。

注意力掩码机制

混元图像3.0通过这样的「图文交织」训练范式,让模型习惯在长序列中同时处理多个图像和文本。

这样一来,一个提示词下多张图片前后呼应、风格统一、情节连贯成为可能。

然而,让AI同时绘制多幅图像也带来了潜在的问题:这些图像可能会互相「串台」,干扰彼此的内容。

为此,混元图像3.0引入了一种专门的注意力掩码机制,可以形象地理解为在AI大脑里拉起了隔离帘幕。

当模型正在专注「润色」一张尚处于生成过程中的画面时,它看不到旁边那些已经完成、干净的图像。

每幅图都在各自独立的创作空间中完成,不会被其他画面的内容所污染。

这样的隔离就像让每张画都有了自己的工作室,确保AI在多图场景下也能稳定发挥——生成的多个画面逻辑一致、互不矛盾。

二维位置编码

为了让AI更「懂」图像的内部结构,混元图像3.0还教会模型去感知画面的二维布局。

原本模型处理文本时,只能沿着一条直线(一维顺序)理解位置;

现在,它获得了二维的位置感知,就好比在每张图上铺了一层看不见的网格坐标。

模型为图像Token引入了二维位置编码,让每个视觉片段都带有原生的X-Y坐标定位。

通过这种扩展,每个图像Token都「知道」自己在画面中的横纵坐标,从而对图像的空间结构有了天然的直觉。

这意味着AI在理解和生成图像时,不再只是逐像素地盲画,而是仿佛真正明白了左上角在哪里、右下角有什么。

这就好比模型天生长了一双「画家的眼睛」,对画面中的上下左右有直觉般的感知,不会在生成过程中丢失空间关系。

同时,模型支持多分辨率自适应输出,可以根据提示内容自动预测最合适的图像尺寸和宽高比。

如果用户没有特别指明分辨率,混元图像3.0会智能分析场景:人像肖像可能选取竖幅比例(如3:4),风景宏图则偏好横幅长宽比(如16:9),并针对细节丰富的画面提高分辨率,以确保清晰度。

这种动态调整相当于模型会替用户选好「画板」——让每幅图都在最适合的尺寸上呈现最佳的构图和视觉效果,省去了繁琐的手动参数设定,体现出模型对视觉创作的专业理解。

渐进式训练范式

在训练策略上,混元图像3.0经历了精心设计的多阶段进化。

首先是渐进式的预训练:模型从低分辨率(如256px)的图像和粗粒度标注学起,随着训练推进逐步提升至512px乃至高清的1024px,并不断加入更复杂精细的图文数据。

在高分辨率阶段,研发团队额外融入了图像编辑、多图融合等任务数据,以及激发推理能力的CoT案例,让模型在理解和生成长篇幅、多回合内容上也驾轻就熟。

接着进入指令微调阶段,使用格式化的文本-图像指令数据强化模型对用户意图的遵循,使其更懂得听话照做。

最后,经过多轮人类偏好强化训练,模型的审美品味和创作水准被打磨得更为精湛:包括精选高质量样本的监督微调(SFT)、优劣对比的直接偏好优化(DPO),以及引入奖励模型信号的强化学习策略(如MixGRPO、SRPO等),都在持续优化生成结果的细腻度与美感。

通过由浅入深、循序渐进的训练流程,混元图像3.0不仅学会了画画,更学会了如何画得更好、更美,充分迎合人类审美和创作偏好。

原生多模态成绩亮眼

开源生态爆发

放眼全世界,OpenAI、谷歌如今开发大模型的重点,不再是单模态,比如语言、语音、视频等。

多模态早已成为业界共识。

作为国内头部科技巨头,腾讯也不例外。原生多模态不仅仅是为了顺应潮流,而是让AI具备真正「智能」的必经之路。

这一次,腾讯的成功并非偶然,是其在AI领域不断深耕、技术积累的结果。

混元系列,作为腾讯的核心AI大模型,已经在多模态领域展现出越来越丰富优势——

从3D生成持续领先,到图像生成逐渐赶超,腾讯正构建一个覆盖文本、图像、视频、3D生成的全链路AI体系。

在3D生成领域,混元3D已经是绝对的王者,不断迭代,目前最新3.0版本——Hunyuan3D 3.0,精度直接提升3倍,几何分辨率达到1536³,细节逼真到惊人。

在图像生成领域,此前的混元图像2.1 拿下开源最强,到这次的图像3.0直接跟闭源模型不分高下。

文生图阶跃式进化,赶超顶尖闭源模型,也让其接下来的图生图、图片编辑能力十分让人期待。

在视频生成领域,文生视频模型也在不断进化。最近开源的「视频音效生成模型」HunyuanVideo-Foley、视频-虚拟人模型HunyuanVideo-Avatar收获了一众好评。

开源,是腾讯的另一杀手锏。

「混元图像3.0」一发布就火热霸榜Hugging Face,背后离不开腾讯在开源社区的持续投入,推动全球开发者共建生态。

目前,这款文生图模型已在GitHub斩获1.7k星。

腾讯混元团队还透露,混元图像3.0图生图、图像编辑、多轮交互等版本将于后续上线。

项目地址:https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

生态赋能,无缝融入亿级场景

更让人无法忽视的是,腾讯拥有庞大的生态优势,旗下丰富的产品及场景,能将AI无缝集成到社交、游戏、广告等实际落地应用中。

2025年被视为AI「应用元年」,真正的挑战在于落地速度与迭代能力。

如今,混元正加速融入各类场景——推出AI播客并在ima、腾讯新闻上线,支持腾讯会议AI小助手、微信读书AI问书AI助手对会议内容、整本书籍的理解和处理。

同时,腾讯云的AI基础设施支持企业定制化部署混元模型,广泛覆盖教育、医疗、金融等行业。

混元正通过开源积累生态,场景与技术互相反哺,构建出腾讯特色的AI之路。

参考链接:

相关内容

热门资讯

概率思维!wpk透视辅助可测试... 概率思维!wpk透视辅助可测试真的假的,wepOkE原来真的有挂;无聊就玩这款真的有辅助,无限炸弹无...
透视步骤!德普之星怎么设置埋牌... 透视步骤!德普之星怎么设置埋牌,德普之星透视辅助软件激活码(本来真的有挂)1、金币登录送、破产送、升...
透视资料(WEPOKER)we... 透视资料(WEPOKER)wepoker私人局透视教程(透视方法)有辅助(安装教程)wepoker私...
逻辑思维游戏!aapoker用... 1、逻辑思维游戏!aapoker用外 挂会被封号,fishpoker俱乐部就是真的有挂。2、透视辅助...
透视绝活!德普辅助器辅助器怎么... 透视绝活!德普辅助器辅助器怎么用,德普之星有透视辅助吗(切实是真的有挂);该软件可以轻松地帮助玩家将...
透视脚本!wepoker有辅助... 透视脚本!wepoker有辅助功能吗,wepoker买脚本靠谱吗,透视底牌(安装教程);1、用户打开...
德州扑克玩家心理!微扑克全自动... 德州扑克玩家心理!微扑克全自动机器人,智星德州其实真的有挂是一款可以让一直输的玩家,快速成为一个“必...
透视窍要!德普之星透视软件免费... 透视窍要!德普之星透视软件免费入口官网,德普之星透视免费(都是真的是有挂);1)德普之星透视软件免费...
透视脚本!wepoker好友助... 透视脚本!wepoker好友助力码,wepoker-h5下载,透视底牌(规律教程);1、wepoke...
概率学wpk!云扑克德州PK,... 概率学wpk!云扑克德州PK,德州wepower总是真的有挂1、金币登录送、破产送、升级送、活动送。...