谷歌“最强图像模型”横扫一切！3毛钱P图打懵OpenAIPS要不存在了

时间：2025-09-01 11:54:34

　　【新智元导读】Gemini 2.5 Flash Image是谷歌最新发布的顶级图像生成与编辑模型，被网友誉为「最强图像模型」。其化身nano-banana在LMArena盲测中以历史最大优势夺冠，凭借角色一致性、提示编辑、原生世界知识和多图像融合四大能力，引发广泛关注。

　　盲测了500多万场，获得超250万选票，以171分优势领先第二名flux-1-knotext-max，可以说是遥遥领先。

　　不愧是谷歌，确实低调且实力强大，即使大概率是最强模型，也要等全球网友用过盖章定论后才正式发布！

　　我们「顺手」拿谷歌CEO劈柴和DeepMind的老大Demis做了一些测试，效果真的令人拍案叫绝。

　　也就是每张图片只需0.039美元，按照现在的费率，一张图也就是不到3毛钱！

　　可以将多张图像融合为一张图像，保持角色一致性以实现丰富的叙事效果，使用自然语言进行目标转换，并利用 Gemini的全球知识来生成和编辑图像。

　　现在，可以将同一个角色放置在不同的环境中，以新的设置从多个角度展示单一产品，或生成一致的品牌资产，同时保持主体的一致性。

　　谷歌已经提供了开发者探索的模板，诸如房地产列表卡片、统一的员工徽章或整个产品目录的动态产品效果图等场景。

　　Gemini 2.5 Flash Image 支持通过自然语言进行目标化转换和精确的局部编辑。

　　例如，模型可以模糊图像背景、去除T恤上的污渍、从照片中移除整个人物、更改主体姿势、为黑白照片上色，或者根据简单的提示实现您所能想象到的其他效果。

　　更绝的是，此次更新的nano-banana还具有出色的「原生世界知识」。

　　从历史上看，图像生成模型在生成美观的图像方面表现出色，但在对现实世界的深层语义理解方面有所欠缺。

　　在Google AI Studio中构建了一个模板应用，可将简单的画布转变为交互式教育导师。

　　它展示了该模型读取和理解手绘图、帮助解答现实世界问题，以及在单一步骤中遵循复杂编辑指令的能力。

　　可以将某个对象放入场景中，使用配色方案或纹理重新设计房间风格，并通过单个提示融合图像。

　　「从逼真的写实杰作到令人惊叹的幻想世界，现在可以原生地生成、编辑和优化图像，在推理、控制和创意方面达到全新水平。」

　　角色一致性方面，为模型提供参考图像，它便能生成新的视觉内容，在不同的姿势、光照、环境或风格中保持角色、主体或对象的相似性，从而帮助创作出更具吸引力、叙事性更强的作品。

　　新模型可以应用特定的艺术风格、设计或纹理，可以轻松地将这些从一张图像转移到另一张图像，同时保留原主体的形态和细节。

　　使用2.5 Flash，可以开始融合最多三个输入中的不同元素，从而创建出独特而统一的构图。

　　借助Gemini的底层逻辑，2.5 Flash可以推断出图像中某个时刻之前或之后发生的事情。

　　比如，生成一个气球飘向仙人掌的初始画面后，让它设想接下来可能出现的场景。

　　不过目前Nano-banana并不是完美的，比如在合并两张不同照片时，有时难以准确复制人脸。

　　原标题：《谷歌「最强图像模型」横扫一切！3毛钱P图打懵OpenAI，PS要不存在了》

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。