信息量很大:谷歌核心团队最新分享实录,揭秘Nano-Banana如何训练
创始人
2025-08-30 13:01:42
0

Datawhale干货

队:Google Gemini团队,编译:数字开物

前天,谷歌在最新直播中正式发布了代号为"Nano Banana"的Gemini 2.5 Flash图像生成模型,为用户带来了先进的图像生成和编辑能力。

"Nano Banana"在多个关键领域实现了显著提升:

视觉质量大幅改善:相比今年3月发布的2.0 Flash版本,新模型在图像质量上有了质的飞跃,达到了与谷歌Imagine模型相当的水准。

编辑能力更加自然:解决了此前版本中编辑效果"复制粘贴感"过强的问题,新模型能够更自然地融合编辑元素,如添加胡须、帽子等装饰时效果更加逼真。

人物一致性表现出色:模型能够基于单张原始图像生成多个不同风格的变体,同时保持人物特征的一致性,这在"穿越时代"应用中得到了完美体现。

指令遵循能力增强:模型对用户指令的理解和执行能力显著提升,能够更准确地实现用户的创意想法。

生成速度显著提升:Flash模型的核心优势在于快速迭代能力,用户可以在5-6秒内完成图像生成,大大提升了创作体验。

当天,Google DeepMind 最新一期的《Release Notes》播客节目中,来自 Google DeepMind 的主持人 Logan Kilpatrick 深度访谈了参与开发 nano-banana 的一些研究人员:Kaushik Shivakumar、Robert Riachi、Nicole Brichtova 与 Mostafa Dehghani。对话深度剖析了他们是如何达成如今的成果、构建该模型做了哪些努力,以及下一步的计划和方向。

以下是博客实录:

01 新模型能以极快的速度对图像进行多轮、富有创意的编辑,并保持核心元素的一致性

能否为大家介绍一下这次发布的重大更新,并直接演示一下新模型在图像生成与编辑方面的核心功能?例如,如何通过简单的自然语言指令,对一张现场拍摄的照片进行多轮、富有创意的修改,比如添加服装和改变风格,同时保持人脸的清晰可辨?此外,“把它 nano 化”这种模糊指令模型是如何理解和执行的?

Nicole Brichtova:我们为模型发布了一次图像生成与编辑能力的重大更新,其质量实现了巨大飞跃。这款模型达到了业界顶尖水平,我们对它的生成和编辑能力都感到非常兴奋。百闻不如一见,让我直接来演示模型的功能吧,这是最好的说明方式。

很好。我先给你拍张照片。我们就从这里开始,指令是:“把镜头拉远,让他穿上一件巨大的香蕉道具服,并保持面部清晰可辨”,因为我们想确保生成的人像看起来还是你本人。好的,生成过程需要几秒钟,但它的响应速度依旧非常快,我想你应该还记得,我们上一个版本的模型速度就已经很快了。

我把它点开。好了,请看。这就是 Logan,你的脸部特征被完整地保留了下来。这款模型最出色的一点在于,生成的人像看起来仍然是你本人。但实际上,你已经穿上了一件巨大的香蕉道具服,并且有了一个在城市街道漫步的漂亮背景。

这说明模型具备了世界知识。我们继续,现在输入指令:“把它 nano 化”。

让我们看看模型会怎么做。当初我们第一次在 LLM Arena 上发布它时,给它的代号就是“Nano Banana”。当时人们就开始猜测这是我们的一个新模型,事实也确实如此。看,效果出来了。现在,模型就为你创造了一个穿着巨大香蕉服的、可爱的 Q 版 (nano) 形象。

最出色的一点在于,这其实是一个非常模糊的提示。你刚才自己都不知道它是什么意思。但模型展现了足够的创造力去解读指令,并创造出一个既能实现你的意图、又符合当前上下文的场景,同时还保持了场景中所有其他元素的一致性。这真的非常激动人心,因为我们第一次看到大语言模型能够在连续多次的编辑中,真正地保持场景一致,并允许用户用纯粹的自然语言与模型互动。用户不再需要编写冗长的提示,只需给出简单的自然语言指令,就能与模型展开多轮有趣的对话。这太令人兴奋了。

新模型在文本渲染方面的表现如何?这对于像制作带有文字的广告牌图片来发布产品推文这样的场景至关重要,能否以“Gemini Nano”为例,在刚才生成的图片上直接进行测试?

Nicole Brichtova:你想让我在刚才的图片上添加些文字吗?你来给我个提示吧。我们试试。看,生成好了。这段文本相对简单,字母不多,单词也很容易,所以效果很好。我们在文本渲染方面确实还存在一些不足,这一点在发布说明中也有提及,我们正在努力解决。团队里的同事,比如 Kaushik,正在努力让我们的下一代模型在文本渲染方面做得更好,或许他可以聊聊这个。

02 为何文本渲染是衡量图像质量的“隐藏标尺”

在图像生成领域,评测很大程度上依赖主观的人类偏好,你们在这次发布以及日常模型训练中,是如何看待和解决这一挑战的?特别地,为什么文本渲染能力会成为一个核心关注指标,这一最初的信念是源于大量研究实验的偶然发现,还是基于某种特定的理论洞察?

Robert Riachi:我认为通常对于像图像和视频这样的多模态内容,你很难找到一个明确的优化方向。历史上的做法一直是利用大量的人类偏好数据来指导优化。很显然,图像具有极强的主观性,所以你实际上是从大量人群中获取信号,这需要时间。它不是最快的评估指标,获得任何反馈都需要花费真实的时间。因此,我们一直非常努力地寻找其他可以在训练过程中用来优化的指标。

我觉得文本渲染就是一个非常有趣的故事。Kaushik 很早就开始讨论它,是这个方向最主要的倡导者之一。在很长一段时间里,我们都对他不以为然,觉得这家伙有点疯狂,对文本渲染过于执着。但最终,它成为了我们关注的核心指标之一。你可以这样理解:当模型学会如何正确生成文本的结构时,它其实也学会了如何生成图像中的其他结构。在一张图像中,存在着不同频率的信息,你可以将其看作结构,但同时也有纹理等其他元素。所以,文本渲染能力为了解模型生成场景结构的优劣提供了非常重要的信号。我会让 Kaushik 再详细谈谈,因为他是这方面的主要负责人。

Kaushik Shivakumar:我想这始于我们试图找出这些模型的弱点。为了改进任何模型,你需要一个信号来告诉你哪里做得不好。然后你尝试各种想法,可能与模型架构、数据或其他方面有关。一旦有了明确的信号,你肯定能取得很大进展。回想几年前,几乎没有任何模型能够很好地处理像你刚才那个 “Gemini Nano” 这样的短提示词。

因此,随着我们花更多时间关注并持续追踪这个指标,现在我们运行的任何实验都会追踪它,我们就能确保不会在这方面出现倒退。仅仅因为有了这个信号,我们甚至可能发现一些我们意想不到的改动,实际上对文本渲染产生了积极影响。然后我们就可以确保随着时间的推移,不断改进这个指标。正如 Robert 所说,在缺乏其他有效的图像质量评估指标的情况下,因为很多指标很快就会饱和,文本渲染是一个衡量整体图像质量的绝佳方式。我曾经对使用人类评估员来进行图像生成评测的方法持怀疑态度。但随着时间的推移,我至少认识到,当你让足够多的人类,针对各种类别的足够多的提示词进行评估时,你确实能得到相当不错的信号。但显然,这种方法成本高昂。你不想总是让一大群人来给图片打分。因此,在模型训练过程中关注文本渲染这样的指标,能为你提供很好的信号,判断其表现是否符合预期。

03 理解与生成共生:视觉信号是通往世界知识的捷径

我很好奇原生图像生成能力与原生图像理解能力之间存在怎样的相互作用?随着我们的模型在图像理解上达到顶尖水平,这种理解能力是否可以正向迁移到生成任务中,反之亦然?这种跨模态的能力迁移对于模型学习世界知识有何深层意义?

Mostafa Dehghani:完全正确。基本上,我们希望最终能实现原生图像生成,或者说是原生的多模态理解与生成。在同一个模型、同一次训练中学习所有这些模态和不同能力的意义就在于,你希望在这些不同维度之间实现正向迁移。这不仅仅是关于单一模态的理解和生成,也关乎我们能否从图像、视频或音频中学到一些关于世界的知识,从而帮助我们更好地进行文本理解或文本生成。所以,图像理解和图像生成绝对是姐妹关系。我们确实看到,例如在交错生成中,它们是齐头并进的。但最终的目标是实现更深层次的迁移。我给你举个例子。

例如,在语言中,我们有一种现象叫做报告偏差。意思是,你去朋友家做客,回来后,你绝不会在对话中谈论他们家那个普通的沙发。但如果你给别人看一张那个房间的照片,沙发就在那里。所以,如果你想了解世界上的许多事物,图像和视频中包含了那些信息,而无需你明确地去索要。我想说的是,最终通过文本或其他模态,你当然可以学到很多东西,但这可能需要更多的 Token。而视觉信号绝对是学习世界知识的一条很好的捷径。回到理解和生成的问题上,正如我所说,这两者相辅相成。在交错生成中,你可以看到理解能力对生成能力的巨大帮助,反之亦然。就像你在白板上画图来解决一个问题一样,图像生成也许能帮你更好地理解一个以视觉图像形式呈现给你的问题。

能否展示一些交错生成的例子,来说明图像理解、生成与文本是如何协同工作的?例如,当模型被要求用多种不同方式改造一个人物形象时,它具体是如何处理的?这背后是多次独立的生成过程,还是在模型的单次处理和统一上下文中完成的?

Nicole Brichtova:也许我们可以展示一些交错生成的例子,这正体现了理解和生成与文本的协同工作。让我试试这个指令:“用五种不同的方式,将主体人物改造成 1980 年代美国购物中心时尚大片风格”。好了,祈祷它能成功。好的,看起来很有希望。这个过程显然要花更长一点时间,因为我们要生成多张图片,还要生成描述这些图片的文字。

Kaushik Shivakumar:关于原生图像生成,你会注意到的一点是,它是逐一生成这些图像的。所以模型可能会参考前一张生成的图像,然后选择生成一张风格迥异的图片,或者只是在前一张的基础上做一些微小的修改。它至少拥有已经生成内容的上下文信息。这就是我们所说的原生图像生成模型:它们能够利用多模态上下文,然后再生成图像。

Robert Riachi:这一切都在模型的上下文中完成。

Nicole Brichtova:这样做的好处是,图片的风格能够保持某种程度的相似性。而且,模型还做了件有趣的事,它在每一张图里都让你出现了两次。我来放大几张。这张是“街机之王 Logan”。我们往下看,这张是“激进小子”。看,这些配图的文字描述都不是我们想的。提示词仅仅是“1980 年代美国购物中心时尚大片风格的你”。“购物中心闲人”。你真应该考虑一下这些穿搭。“着装第四选项,冷静老兄”。看,你在每张图里的服装都不同,但看起来都像你本人。你在图片里出现两次可能算是一个小小的失效模式。但能看到模型自己构思出五个独立创意,给它们起不同的名字,为你设计不同的服装,同时还能保持角色的一致性,这真的很酷。

04 改变局部,守护整体:像素级精准编辑的现实应用

我曾用旧版模型为办公室可视化不同颜色的窗帘,但它有时会错误地改变窗帘以外的物品。新模型在保持场景其余部分一致性、实现所谓的“像素级精准编辑”方面有何改进?此外,像刚才那样生成多张图片和文本的复杂任务,整个过程的速度如何,耗时多久?

Nicole Brichtova:你应该试试新版本。新模型在保持场景其余部分一致性方面做得相当好。我们称之为像素级精准编辑。这一点非常重要,因为有时你只想编辑图像中的某一个东西,而希望其他所有东西都保持原样。或者,同样地,在角色创建时,你可能只想转动角色的头部,但他们穿的所有衣服在不同场景中都必须保持一致。新模型在这方面做得非常好。虽然不能保证百分之百成功,但它取得的进步已经让我们非常兴奋了。

关于耗时的问题,让我看看,这是 13 秒。这是累计时间。

Robert Riachi:我想说,一个非常酷的点是它的速度依然很快。我觉得最酷的一点是,即使在 2.0 版本刚出来的时候,我也会用它做类似的事情。比如我有一个书架,地上堆满了东西,我就会让它帮我装饰,问它这些东西应该以什么方式摆放在书架上。我女朋友可能不同意它的输出结果,所以我们有时需要在此基础上进行迭代。能够快速地重新运行并迭代就非常重要。所以即使它有时会失败,你只需微调一下提示词,重新运行,之后就能得到非常好的结果。我认为这种通过迭代进行创作的过程,正是其魔力所在。

05 像素空间的“逐步推理”:交错生成如何应对无限复杂的指令

对于熟悉旧版模型的用户而言,新版本在使用体验和提示策略上有什么不同?例如,过去我们建议最好一次只进行单一编辑,以避免模型混淆。面对包含六项甚至更多项要求的复杂提示时,新模型是否依然存在这类限制,或者我们应该采用怎样的新技巧来与它互动?

Mostafa Dehghani:这正是我想要提到的重点。交错生成的奇妙之处在于,它为图像生成提供了一种全新的范式。假设你有一个非常复杂的提示,比如包含六项不同的编辑要求,甚至可以设想包含五十项。现在,模型拥有一个非常出色的机制,能够以像素级精度从上下文中抓取信息,并应用在下一轮生成中。因此,你可以要求模型将一个复杂的提示——无论是用于图像编辑还是图像生成——分解为多个步骤,然后在不同步骤中逐一完成这些编辑。例如,第一步完成五项编辑,下一步再完成另外五项,以此类推。

这与我们在语言模型领域采用的逐步推理和计算模式非常相似。你投入更多算力,让模型在像素空间中进行一种“思考”,并把复杂任务分解成更小的部分,从而能够精准地完成每个特定阶段的任务。当这些步骤累积起来,你就能完成任何复杂的任务。我认为,这再次体现了交错生成的魅力所在:你可以通过增量的方式生成极其复杂的图像,这与传统方式截然不同。传统方式力求“一步到位”地生成最佳图像。但模型的单次处理能力终究有上限,当指令细节多达上百个时,模型可能就无法一次性完成了。然而,当你拥有了交错生成这种分步处理的机制,你便可以应对几乎任何量级、任何复杂度的生成需求。

06 Gemini 与 Imagen 的定位与抉择

对于开发者和了解所有模型的用户来说,应该如何看待和选择专用文生图模型 Imagen 与 Gemini 目前具备的原生图像生成能力?它们各自的优势和适用场景是什么?例如,当我需要生成一张带有特定公司设计风格的广告牌图片时,哪个模型可能是更好的选择,为什么?

Nicole Brichtova:我们的目标始终是围绕 Gemini 构建一个统一的模型。我们最终希望将所有模态都整合进 Gemini,这样就能受益于 Mostafa 提到的那种知识迁移,并最终迈向 AGI。不过在实现这一目标的道路上,专用模型依然具有巨大的价值,因为它们在某些你需要它们完成的特定任务上表现得非常出色。Imagen 就是一个非常优秀的文生图模型。我们还有许多支持图像编辑的 Imagen 衍生模型,这些都可以在 Vertex AI 平台上使用。它们都是为特定任务高度优化的。因此,如果你的需求仅仅是文生图,并且希望模型能生成一张具有极高视觉质量的图片,同时还要求成本效益高、生成速度快,那么 Imagen 就是理想的选择。

而如果你需要处理更复杂的工作流程,比如你希望在生成图像后,能在同一个流程里进行多轮编辑;或者你想要进行一些创意构思,就像我们之前演示的那样,问模型:“关于我的房间或这个图书馆,你有什么设计建议吗?”,那么 Gemini 则是更好的选择。它更像一个多模态的创意伙伴,既能输出图像,也能生成文本。你给 Gemini 的指令可以不必那么精确,因为它具备更广博的世界知识和理解能力。就像我们一开始说“把它变成纳米风格”,它能够更具创造性地解读你的指令。但总的来说,对于那些希望获得一个针对特定任务进行了高度优化的模型的开发者而言,Imagen 依然是一个非常出色的模型系列。

(关于特定公司设计风格的广告牌)利用 Gemini 的原生图像生成能力,如果你想模仿某家公司的风格,你可以直接将该公司的风格参考图输入给模型,让它作为参照。因此,能够输入图片作为参考,对模型理解提示非常有帮助,而且在 Gemini 中直接进行此操作要比在 Imagen 中容易得多。所以,我建议你试试看,然后告诉我们结果。我们应该把这个用例加到评测集里。

07 新版本背后的迭代故事

从 2.0 版本到新版本,团队是如何利用海量的社区用户反馈进行迭代的?有哪些具体的失败案例通过这种方式得到了解决?在整个模型构建过程中,有没有哪些内部的“必测用例”,或是让你们印象特别深刻的能力飞跃,比如从“不可能”到“轻松搞定”的转变?此外,旧版模型生成的叠加元素有时会显得不自然,像是后期PS上去的,这个问题在新版本中是如何通过团队合作,特别是融合不同团队的视角来解决的?

Robert Riachi:我们确实花了大量时间在 X (前 Twitter) 平台上,逐一查看用户的反馈。我记得很清楚,我和 Kaushik 还有团队里的其他人,一起收集了所有用户报告的失败案例,并基于这些案例构建了我们的评测集。所以,我们有一个专门的评测基准,完全来自于真实用户的反馈。用户会直接 @我们说:“嘿,这个功能出问题了。” 每当我们开发新模型时,都会用这个不断扩充的评测集进行测试。举个例子,我们发布 2.0 版本时,一个常见的失败案例就是,当你尝试编辑图片时,模型虽然应用了你的编辑,但编辑的内容与图片的其他部分并不协调。这就是我们当时评测集里的一项,也是我们重点进行迭代优化的问题之一。类似的例子还有很多,我们一直在持续地收集这类反馈。

Kaushik Shivakumar:在体验 2.5 模型的过程中,我确实特别注意到了一点。在 2.0 版本中,我们曾认为实现跨图像的一致性会是一个难题,特别是当你创作了一个物体或角色,并希望它在多张图片中保持一致时。我们后来发现,如果只是保持角色在输入图像中的原有位置不变,2.0 模型其实能做得相当不错。比如,它可以在保持角色姿势和场景结构大致不变的情况下,给角色加顶帽子或者改变表情。而 2.5 模型在 2.0 的能力之上实现了巨大的飞跃。现在,你可以要求模型从不同角度渲染同一个角色,比如生成它的侧面视图,看起来依然是完全相同的角色。或者,你可以拿一件家具的图片,让模型将它放置到一个完全不同的新场景里,调整它的朝向,并构建一个完整的画面。即使经过了这样大幅度的变换,那件家具依然能忠实于你上传的原图,而这绝非简单地将输入图像的像素复制粘贴到输出图像中。

(关于生成效果不自然的问题)这很大程度上要归功于我们团队的合作模式。对于之前的模型,我们 (Gemini 团队) 的思维模式有点像是:“好了,编辑功能实现了,任务完成,很成功。” 但当我们开始与 Imagen 团队进行更紧密的合作后,他们看到我们认为成功的同一个编辑效果时,会说:“这太糟糕了。你怎么能让模型生成这种东西?” 这就是一个很好的例子,说明了融合两个团队不同视角的重要性。Gemini 团队的强项在于指令遵循、世界知识等方面;而 Imagen 团队的专长在于确保生成的图像看起来自然、美观且真正实用。我认为,正是这两方面能力的结合,以及两个团队的通力合作,才使得 2.5 版本在你所描述的那些问题上表现得好得多。

Nicole Brichtova:关于这一点,我们团队里确实有一些主要来自 Imagen 团队的成员,他们拥有非常敏锐的审美能力。因此,很多时候我们进行模型评测时,他们会浏览成百上千张图片,然后能一针见血地指出:“不,这个模型比另一个更好。” 而团队里许多其他人可能看着同样的图片,觉得差别不大,只会说:“嗯,好吧。” 这种审美直觉是需要长年累月才能培养出来的。这些年我自己在这方面也进步了很多,但团队里确实有几位这方面的专家,每当我们需要在不同模型版本间做抉择时,我们总会去咨询他们的意见。

08 图像生成的下一站——“智能”与“精准”

新版本取得了巨大进步,那么下一步的计划是什么?在视觉质量之外,团队认为未来图像生成领域的核心发展方向是什么?有哪些令人兴奋的新功能或应用场景正在酝酿之中,例如在“智能性”和“事实性”方面,我们能有怎样的期待?

Mostafa Dehghani:在图像生成领域,我们当然非常关心视觉质量,但我认为有一个全新的方向,也是我们希望通过统一的全模态模型实现的,那就是“智能性”。我们希望图像生成模型能给人一种聪明的感觉。当用户与它互动时,他们不仅会为图像的质量感到惊叹,更会发自内心地觉得:“哇,这个模型真聪明。” 我脑海里有一个例子,并且我非常期待未来能看到它实现,这个想法甚至有点超前,因为我自己都无法完美地定义它:就是当我让模型做一件事时,它并没有完全遵循我的指令,但最终生成的结果却让我庆幸它没有“听话”,因为它比我最初描述的还要好。这就是一种独特的、超越期待的能力。根本原因在于,有时候用户给出的指令可能不够具体,甚至用户自己对某些现实情况的认知也可能存在偏差。然而,Gemini 所拥有的知识体系,让它眼中的“外部世界”与你的个人视角有所不同。所以我认为,这种超越并非模型“刻意”为之,而是基于其更优视角而自然涌现的结果。最终,你会感觉自己正在与一个比你更聪明的系统互动。

Nicole Brichtova:我个人非常期待模型在“事实性”方面的表现。这又回到了另一个应用场景:有时候你需要为工作演示制作一张简图或信息图。这种图表如果做得漂亮当然很好,但对于这个用例而言,美观是远远不够的,它还必须保证准确。图中不能出现任何多余的文字,必须兼具美观和实用性。我认为,我们目前对模型在这方面能力的探索才刚刚开始。我对未来即将发布的新版本感到非常兴奋,因为我们在处理这类用例上会做得越来越好。我的梦想是,总有一天,这些模型能真正为我制作出一整套既美观又专业的工作幻灯片。这绝对是每个项目经理的梦想!我正努力将我工作中的这一部分“外包”给 Gemini,而我们团队正在为实现这一目标发挥着关键作用。

相关内容

热门资讯

黑科技辅助挂!奇迹陕西棋牌外 ... 黑科技辅助挂!奇迹陕西棋牌外 挂,胡乐麻将神器免费下,雀神2024小程序辅助器1、下载好奇迹陕西棋牌...
一分钟揭秘!!乐逍遥跑胡子二人... 一分钟揭秘!!乐逍遥跑胡子二人麻将有挂吗,钱塘十三水其实真的有挂,科技教程(有挂教程)1、起透看视 ...
一分钟揭秘!!广丰510k有挂... 一分钟揭秘!!广丰510k有挂吗,七彩云南游戏辅助器,AI教程(有挂教程);一、七彩云南游戏辅助器软...
最新技巧!!欢喜广西麻将神器(... 最新技巧!!欢喜广西麻将神器(透视)透视辅助安装(2022已更新)(哔哩哔哩)1、欢喜广西麻将神器a...
黑科技辅助挂!旺旺南平麻将有挂... 黑科技辅助挂!旺旺南平麻将有挂吗,心悦麻将黑龙江有挂吗,雀神广东麻将神器软件要root吗;1、金币登...
玩家必看教程!!天天重庆麻将记... 玩家必看教程!!天天重庆麻将记牌器,天天摸麻将大菠萝一贯真的有挂,教你教程(有挂黑科技)1、每一步都...
实操分享!约战大同麻将有挂吗,... 实操分享!约战大同麻将有挂吗,雀神微信小程序免费辅助器,2025教程(有挂解说)1、起透看视 约战大...
一分钟教你!微信小游戏陕西麻将... 一分钟教你!微信小游戏陕西麻将有挂吗(辅助挂)外挂透明挂辅助插件(2022已更新)(知乎)1、不需要...
黑科技辅助挂!兴动互娱为什么老... 黑科技辅助挂!兴动互娱为什么老输,钱塘十三水怎么提升好牌率,广东雀神麻将插件免费版1、兴动互娱为什么...
实测教程!决战卡五星可以设置输... 实测教程!决战卡五星可以设置输赢吗,新蜜瓜拼三张都是真的有挂,必赢方法(有挂攻略)1)决战卡五星可以...