0898-88888888
您的当前位置: 首页 > 知识博客

谷歌“最强图像模型”横扫一切!3毛钱P图打懵OpenAIPS要不存在了

时间:2025-09-01 11:54:34

  【新智元导读】Gemini 2.5 Flash Image是谷歌最新发布的顶级图像生成与编辑模型,被网友誉为「最强图像模型」。其化身nano-banana在LMArena盲测中以历史最大优势夺冠,凭借角色一致性、提示编辑、原生世界知识和多图像融合四大能力,引发广泛关注。

  盲测了500多万场,获得超250万选票,以171分优势领先第二名flux-1-knotext-max,可以说是遥遥领先。

  不愧是谷歌,确实低调且实力强大,即使大概率是最强模型,也要等全球网友用过盖章定论后才正式发布!

  我们「顺手」拿谷歌CEO劈柴和DeepMind的老大Demis做了一些测试,效果真的令人拍案叫绝。

  也就是每张图片只需0.039美元,按照现在的费率,一张图也就是不到3毛钱!

  可以将多张图像融合为一张图像,保持角色一致性以实现丰富的叙事效果,使用自然语言进行目标转换,并利用 Gemini的全球知识来生成和编辑图像。

  现在,可以将同一个角色放置在不同的环境中,以新的设置从多个角度展示单一产品,或生成一致的品牌资产,同时保持主体的一致性。

  谷歌已经提供了开发者探索的模板,诸如房地产列表卡片、统一的员工徽章或整个产品目录的动态产品效果图等场景。

  Gemini 2.5 Flash Image 支持通过自然语言进行目标化转换和精确的局部编辑。

  例如,模型可以模糊图像背景、去除T恤上的污渍、从照片中移除整个人物、更改主体姿势、为黑白照片上色,或者根据简单的提示实现您所能想象到的其他效果。

  更绝的是,此次更新的nano-banana还具有出色的「原生世界知识」。

  从历史上看,图像生成模型在生成美观的图像方面表现出色,但在对现实世界的深层语义理解方面有所欠缺。

  在Google AI Studio中构建了一个模板应用,可将简单的画布转变为交互式教育导师。

  它展示了该模型读取和理解手绘图、帮助解答现实世界问题,以及在单一步骤中遵循复杂编辑指令的能力。

  可以将某个对象放入场景中,使用配色方案或纹理重新设计房间风格,并通过单个提示融合图像。

  「从逼真的写实杰作到令人惊叹的幻想世界,现在可以原生地生成、编辑和优化图像,在推理、控制和创意方面达到全新水平。」

  角色一致性方面,为模型提供参考图像,它便能生成新的视觉内容,在不同的姿势、光照、环境或风格中保持角色、主体或对象的相似性,从而帮助创作出更具吸引力、叙事性更强的作品。

  新模型可以应用特定的艺术风格、设计或纹理,可以轻松地将这些从一张图像转移到另一张图像,同时保留原主体的形态和细节。

  使用2.5 Flash,可以开始融合最多三个输入中的不同元素,从而创建出独特而统一的构图。

  借助Gemini的底层逻辑,2.5 Flash可以推断出图像中某个时刻之前或之后发生的事情。

  比如,生成一个气球飘向仙人掌的初始画面后,让它设想接下来可能出现的场景。

  不过目前Nano-banana并不是完美的,比如在合并两张不同照片时,有时难以准确复制人脸。

  原标题:《谷歌「最强图像模型」横扫一切!3毛钱P图打懵OpenAI,PS要不存在了》

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

关于我们
客户案例
知识博客
新闻动态
联系我们

电话:

0898-88888888

Copyright © 2012-2019 某某网络有限公司 版权所有 Powered by EyouCms备案号:琼ICP备88889999号