腾讯王者归来：混元图像3.0登顶LMArena！一手实测全球最强图像AI_科技资讯

腾讯王者归来：混元图像3.0登顶LMArena！一手实测全球最强图像AI

创始人

2025-10-05 14:22:08

0次

新智元报道

编辑：编辑部 YJK

【新智元导读】AI生图圈，迎来新王者！今天，LMArena最新榜单出炉，「混元图像3.0」霸气登顶文生图任务，C位出道。这波操作，直接把开源AI生图的天花板拉到全新高度。

一觉醒来，AI生图「王者」登场！

LMArena最新发布榜单：「混元图像3.0」在文生图任务中，一举夺魁，力压群雄。

它直接碾压了谷歌火遍全网Nano banana模型，以及字节Seedream 4。

对此，LMArena官方发帖表示祝贺。

不得不说，这一成绩太顶了，而且，「混元图像3.0」完全开源、免费。

9月28日，腾讯正式发布并开源了「混元图像3.0」——业界首个开源工业级原生多模态生图模型。

它的性能直接对标闭源模型，且刷新了开源AI生图模型的SOTA。

发布仅3天，「混元图像3.0」强势登顶Hugging Face热榜，蝉联一周第一，如今又在LMArena上斩获亮眼的战绩。

这一系列表现，让业界再次关注到腾讯混元模型的进展。

回望2023年到2024年，相较国内其他实力玩家，腾讯混元一度显得有些「低调」——其混元直到2023年9月才正式上线。彼时实测中规中矩。

2024年，混元陆续开始发力开源，5月开源首个中文原生DiT文生图模型HunyuanDiT，11月推出首个开源文本模型HunYuan-Large和3D生成模型，12月开源混元视频生成大模型HunyuanVideo。

这时混元在多模态开源领域的优势开始逐渐显现，其生图与生视频模型相当一段时间内是社区最受欢迎的开源模型。

而进入2025年，混元仿佛按下了加速键，开启了「狂飙式」的开源节奏，密集发布轮番轰炸。

生文领域，从HunYuan-A13B到一系列小模型，再到翻译模型Hunyuan-MT-7B，混元的开源势头紧追头部模型，质量更是稳步提升。

如果说图像、视频、文本模型的开源让混元崭露头角，那么3D系列模型直接让它站上了世界舞台聚光灯下，从其3D 2.1版本开源以来，混元的3D生成一直在霸榜，成为名副其实的全球最强；最近还发布了首个支持物理仿真的开源世界模型。

如今，图像领域，混元同样不遑多让。

我们已经看到，最新「混元图像3.0」连续两次霸榜，成为AI文生图最能打的模型。

但有一说一，目前图片领域都已经在卷图片编辑了，混元这里还是缺了的。

官方也表示，这个版本的后训练只完成了文生图能力，图像编辑、多轮交互等版本在研发中。

毕竟基座模型都原生多模态了，图片编辑肯定能支持。混元确实要加快了。

一手实测，属实惊艳到了

回到最新上线的「混元图像3.0」，不仅具备了强大的常识推理、精准的语义理解能力，生成的图像真实，更富有极致美感。

而且，它还能全面支持中英文及长文本渲染。

自亮相以来，已有不少网友抢先实测，结果纷纷被「混元图像3.0」的强大表现所折服。

左右

如今，所有人皆可通过腾讯混元官网和腾讯元宝，开启图像生成的畅玩体验。

传送门：https://hunyuan.tencent.com/modelSquare/home/play?from=modelSquare&modelId=289

展开来说，混元图像3.0（Hunyuan Image 3.0）具备了以下三大特点：

原生多模态模型支持利用世界知识进行推理，目前主要开放生图能力
精确文字生成，超长文本渲染
具有精确的语义理解能力，能够实现超长的文本语义理解，整体美学接近商业级模型

上知天文，下知地理

混元图像3.0支持世界知识推理，熟悉地理、数学、物理、历史、文学等常识，画图更懂提示词。

比如，地球四季的形成涉及到地球绕太阳公转地轴倾斜。

如果图像模型做不到「上知天文，下知地理」，那下列指令生成的结果可能完全错误。

但这次混元新模型生成的结果科学性完全有保证：

prompt：画图解释一下地球四季的形成。

中学物理，也不在话下：

prompt：四格动画，解释牛顿三大定律。

看看混元图像3.0眼中的「三打白骨精」：

极致美学：细节，细节，更多的细节

混元图像3.0可以理解很复杂的指令，最多支持1000 Token；而且开源模型做到了工业级别的美学输出。

换句话，这次可以支持更多的细节控制：风格、背景、基调、主题、色彩、动作、光线……想要什么效果，直接输入，混元图像3.0一键直出：

prompt：这是一幅极具视觉张力的祭志风海报。整体笼罩在暗黑幽灵般的神秘氛围中，背景采用简约高级的纯红色，干净纯粹却不显张扬。为画面奠定了沉稳而富有张力的基调，画面主体是古风汉服服饰的超级近距离特写，以暗黑橘色柔光为主光源，勾勒出人物清晰而细腻的轮廓，人物露着肩膀，姿态魅惑又带着一丝魅惑，眼神妩媚勾人。

在整体暗光环境中尤为突出，同时，人物周身装饰着暗黑低饱和的银辉光效果，如同月光般清冷朦胧，为这份妖娆增添了几分疏离的幽灵感，强化了暗黑风格的神秘气质，让特写画面更具超强的视觉冲击力。

混元一键生成高品质摄影、电影质感的图像：

prompt：电影感的城市街角场景：一栋暖橙色外墙、带横向白色条纹的建筑，底部是粗糙的石质基座；左侧有一扇带百叶的窗；窗旁用细绳悬着一盏黑色吊灯，在墙面投下清晰阴影。

左上方强烈阳光倾洒，使被照亮的橙色墙面与右侧深棕色阴影形成锐利对比。

画面下方的人形剪影沿人行道行走。整体为低饱和、写实风格，墙面肌理与石粒细节丰富，明暗对比强烈；色调以暖橙与深棕为主，营造静谧都市氛围；剪影姿态富有动感。

背景隐约可见另一栋建筑与光秃树木的轮廓。8K 分辨率，高品质摄影，自然光，黑色电影，还是专业摄影师的作品。

在人物生成方面，混元图像3.0在细节上把控也非常不错。

因为支持更长、更复杂的指令，利用混元图像3.0可以一次性生成九宫格。比如，可直接输出多个表情包：

左右

类似的，可以制作其他风格或类型的表情包：

得益于精确的语义理解能力，混元图像3.0可理解超长的文本，解放更多创意，可以更快完成原型设计：

左右

混元官方X账号还有各种创意图案的生成。

左右

下笔如有神：长文本渲染

文字生成、长文本渲染一直是图像生成模型的难点。

这次混元3.0实现了「精确文字生成、长文本渲染」，对于中文海报生成等场景更加友好。

比如，混元图像3.0对「图像生成，解放创意」的理解：

左右

prompt：生成一幅海报，宣传AI日新月异，进步神速，突出图像生成领域解放创意。

对于更长的文本，这次混元渲染也没问题：

prompt：一张空白的宣纸上，手写体写着李白的作品

第一行写着: “春夜宴从弟桃花园序”，"李白"，；

第二行写：“夫天地者，万物之逆旅也；光阴者，百代之过客也。”

第三行写：“而浮生若梦，为欢几何？”

第四行写：“古人秉烛夜游，良有以也。况阳春召我以烟景，大块假我以文章。”

第五行写：“会桃花之芳园，序天伦之乐事。”

第六行写：“群季俊秀，皆为惠连；吾人咏歌，独惭康乐。幽赏未已，高谈转清。”

第七行写：“开琼筵以坐花，飞羽觞而醉月。”

第八行写：“不有佳咏，何伸雅怀？如诗不成，罚依金谷酒数。”

英文渲染也没问题：

核心技术揭秘

架构革命性创新

腾讯最新发布的混元图像3.0彻底颠覆了传统图像生成模型的架构，将语言、视觉和图像生成融为一体，仿佛赋予了AI一个「能画图的大脑」。

架构创新

不同于以往DiT系列（Diffusion Transformer）那种让大模型仅充当文本编码器的做法，混元图像3.0采用了80B参数规模的MoE架构，拥有64个专家网络，但每次推理时仅激活约13B的参数。

也就是说，它相当于汇聚了64位各有所长的绘画「大师」，但每次作画只让其中最相关的少数专家上场，各展所长。

这种门控机制使模型既享有了海量参数带来的知识容量，又避免了让所有专家同时运转的低效，在保证推理速度的同时极大提升了模型能力。

混元图像3.0由此做到了「模型大」「效率高」两不误，真正实现了智慧与效率兼备，颠覆了以往人们对大模型「笨重耗资」的刻板印象。

混元图像3.0在一个自回归Transformer中统一处理文本理解、视觉解析和高保真图像生成。

这种深度融合使模型天然继承了强大的语言理解和推理能力，能够像一位自带大脑的画家那样利用庞大的世界知识进行构思，其生成效果已可比肩业界顶尖的闭源模型，被誉为开源领域最强的图像大模型。

广义因果注意力机制

广义因果注意力机制是混元图像3.0的一大创新，它让模型在同一框架中既擅长「语言思考」，又具备「画面全局感」。

简单来说，文本Token仍遵循语言模型的因果（自回归）注意力，使模型保留链式逻辑推理能力；而图像Token则被赋予全局注意力，允许模型「眼观六路」，整体把握画面的空间信息。

这种广义因果注意力构建了兼顾「语言因果推理」和「图像全局建模」的注意力矩阵，在统一架构下真正实现了理解与生成的一体化融合。

换言之，模型在生成图像的过程中既不会丢失语言思维的连贯性，也能满足图像生成对全局一致性的需求，实现所「想」即所「画」的高度统一。

在模型设计上，混元图像3.0采用了VAE+ViT双编码器结构：通过变分自编码器（VAE）和视觉Transformer（ViT）的联合特征来处理图像信息，并将其与文本一并映射到统一的Token序列中。

生成端则借鉴了Transfusion架构思想，将扩散式图像生成过程无缝嵌入LLM架构里，实现了文本和图像信息的灵活交互。

通俗地说，过去模型往往先处理完文字再处理图像，而混元图像3.0则是让图文在同一「语句」中交织在一起处理。

模型能够一边「读懂」用户的指令，一边在「脑海」中勾勒画面细节，两种模态相辅相成，再也不需要割裂地分别对待。

这种统一序列的设计大大提升了语义对齐和细节控制的能力，即使是复杂场景也能创作得稳定连贯。

更令人称道的是，混元图像3.0在生成图像时展现出了近似CoT推理般的思维过程。

它内置了原生的图文交织推理机制，模型仿佛能在「动笔」前先经过一番缜密的思考：逐步推理出对指令的理解、分解复杂逻辑关系，乃至构想画面的布局和元素细节。

这种能力得益于训练中引入的大量CoT推理数据，让模型学会了自主规划从理解意图到最终「落笔」的全过程。

举例来说，用户让它「画出解方程的步骤图」或「制作四格科普漫画」，混元图像3.0都会先在脑海中演算出步骤或剧情，再将推理结果转换成一张张合乎逻辑、细节丰富的图像。

这意味着模型不再是收到指令就直接下笔的「机械手」，而更像是一个会三思而后行的AI艺术家——先「思考」清楚再「动笔」创作，因而生成的图像格外精细、贴合意图，让人直观感受到其理解力之强。

注意力掩码机制

混元图像3.0通过这样的「图文交织」训练范式，让模型习惯在长序列中同时处理多个图像和文本。

这样一来，一个提示词下多张图片前后呼应、风格统一、情节连贯成为可能。

然而，让AI同时绘制多幅图像也带来了潜在的问题：这些图像可能会互相「串台」，干扰彼此的内容。

为此，混元图像3.0引入了一种专门的注意力掩码机制，可以形象地理解为在AI大脑里拉起了隔离帘幕。

当模型正在专注「润色」一张尚处于生成过程中的画面时，它看不到旁边那些已经完成、干净的图像。

每幅图都在各自独立的创作空间中完成，不会被其他画面的内容所污染。

这样的隔离就像让每张画都有了自己的工作室，确保AI在多图场景下也能稳定发挥——生成的多个画面逻辑一致、互不矛盾。

二维位置编码

为了让AI更「懂」图像的内部结构，混元图像3.0还教会模型去感知画面的二维布局。

原本模型处理文本时，只能沿着一条直线（一维顺序）理解位置；

现在，它获得了二维的位置感知，就好比在每张图上铺了一层看不见的网格坐标。

模型为图像Token引入了二维位置编码，让每个视觉片段都带有原生的X-Y坐标定位。

通过这种扩展，每个图像Token都「知道」自己在画面中的横纵坐标，从而对图像的空间结构有了天然的直觉。

这意味着AI在理解和生成图像时，不再只是逐像素地盲画，而是仿佛真正明白了左上角在哪里、右下角有什么。

这就好比模型天生长了一双「画家的眼睛」，对画面中的上下左右有直觉般的感知，不会在生成过程中丢失空间关系。

同时，模型支持多分辨率自适应输出，可以根据提示内容自动预测最合适的图像尺寸和宽高比。

如果用户没有特别指明分辨率，混元图像3.0会智能分析场景：人像肖像可能选取竖幅比例（如3:4），风景宏图则偏好横幅长宽比（如16:9），并针对细节丰富的画面提高分辨率，以确保清晰度。

这种动态调整相当于模型会替用户选好「画板」——让每幅图都在最适合的尺寸上呈现最佳的构图和视觉效果，省去了繁琐的手动参数设定，体现出模型对视觉创作的专业理解。

渐进式训练范式

在训练策略上，混元图像3.0经历了精心设计的多阶段进化。

首先是渐进式的预训练：模型从低分辨率（如256px）的图像和粗粒度标注学起，随着训练推进逐步提升至512px乃至高清的1024px，并不断加入更复杂精细的图文数据。

在高分辨率阶段，研发团队额外融入了图像编辑、多图融合等任务数据，以及激发推理能力的CoT案例，让模型在理解和生成长篇幅、多回合内容上也驾轻就熟。

接着进入指令微调阶段，使用格式化的文本-图像指令数据强化模型对用户意图的遵循，使其更懂得听话照做。

最后，经过多轮人类偏好强化训练，模型的审美品味和创作水准被打磨得更为精湛：包括精选高质量样本的监督微调（SFT）、优劣对比的直接偏好优化（DPO），以及引入奖励模型信号的强化学习策略（如MixGRPO、SRPO等），都在持续优化生成结果的细腻度与美感。

通过由浅入深、循序渐进的训练流程，混元图像3.0不仅学会了画画，更学会了如何画得更好、更美，充分迎合人类审美和创作偏好。

原生多模态成绩亮眼

开源生态爆发

放眼全世界，OpenAI、谷歌如今开发大模型的重点，不再是单模态，比如语言、语音、视频等。

多模态早已成为业界共识。

作为国内头部科技巨头，腾讯也不例外。原生多模态不仅仅是为了顺应潮流，而是让AI具备真正「智能」的必经之路。

这一次，腾讯的成功并非偶然，是其在AI领域不断深耕、技术积累的结果。

混元系列，作为腾讯的核心AI大模型，已经在多模态领域展现出越来越丰富优势——

从3D生成持续领先，到图像生成逐渐赶超，腾讯正构建一个覆盖文本、图像、视频、3D生成的全链路AI体系。

在3D生成领域，混元3D已经是绝对的王者，不断迭代，目前最新3.0版本——Hunyuan3D 3.0，精度直接提升3倍，几何分辨率达到1536³，细节逼真到惊人。

在图像生成领域，此前的混元图像2.1 拿下开源最强，到这次的图像3.0直接跟闭源模型不分高下。

文生图阶跃式进化，赶超顶尖闭源模型，也让其接下来的图生图、图片编辑能力十分让人期待。

在视频生成领域，文生视频模型也在不断进化。最近开源的「视频音效生成模型」HunyuanVideo-Foley、视频-虚拟人模型HunyuanVideo-Avatar收获了一众好评。

开源，是腾讯的另一杀手锏。

「混元图像3.0」一发布就火热霸榜Hugging Face，背后离不开腾讯在开源社区的持续投入，推动全球开发者共建生态。

目前，这款文生图模型已在GitHub斩获1.7k星。

腾讯混元团队还透露，混元图像3.0图生图、图像编辑、多轮交互等版本将于后续上线。

项目地址：https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

生态赋能，无缝融入亿级场景

更让人无法忽视的是，腾讯拥有庞大的生态优势，旗下丰富的产品及场景，能将AI无缝集成到社交、游戏、广告等实际落地应用中。

2025年被视为AI「应用元年」，真正的挑战在于落地速度与迭代能力。

如今，混元正加速融入各类场景——推出AI播客并在ima、腾讯新闻上线，支持腾讯会议AI小助手、微信读书AI问书AI助手对会议内容、整本书籍的理解和处理。

同时，腾讯云的AI基础设施支持企业定制化部署混元模型，广泛覆盖教育、医疗、金融等行业。

混元正通过开源积累生态，场景与技术互相反哺，构建出腾讯特色的AI之路。

参考链接：

上一篇：透视方案(德普)德普之星有透视辅助吗(透视)透视辅助软件(其实方案)

下一篇：透视脚本！wepoker辅助器有哪些功能，wepoker永久免费脚本，透视底牌（攻略教程）

腾讯王者归来：混元图像3.0登顶LMArena！一手实测全球最强图像AI

相关内容

热门资讯