大家好,我是蓝戒,本篇我们来聊聊 ”OpenAI 最新图片模型 GPT-Image-2“ 。
4月21日,Image Arena排行榜被干崩了。
GPT-Image-2以史上最大Elo分差登顶,Arena创始人的原话是"literally broke the chart"。但这次真正有意思的不是OpenAI又拿了个第一,而是——它终于从谷歌Nano Banana Pro手里把王座抢回来了。
要知道,过去5个月,AI生图圈的格局一直很明确:谷歌的Nano Banana Pro是当之无愧的"生图之王"。文字渲染?它去年11月就已经做到了令人惊叹的水平,中文海报、菜单、信息图表,几乎可以直接交付。而OpenAI的GPT-Image-1.5呢?文字还是老样子,拼错、乱码、鬼画符。
所以当GPT-Image-2发布的时候,正确的叙事不是"AI终于学会写字了"——人家Nano Banana Pro早在半年前就把这课修完了。正确的叙事是:OpenAI这个"后来者",这次不仅追上了,还在某些维度上反超了。
这才是这场发布真正值得聊的地方。
一、先还原一下战场:过去半年发生了什么
2025年8月,谷歌推出Nano Banana(Gemini 2.5 Flash Image),代号"纳米香蕉",上线10天全球用户就生成了超2亿张图片,最火的用途是做公仔。这个名字太出圈了,以至于后来谷歌官方都直接在标题里叫它Nano Banana。
2025年11月,谷歌甩出Nano Banana Pro(Gemini 3 Pro Image),这可不是小升级——文字渲染从"还行"变成了"惊艳",中文从"鬼画符"变成了"几乎无瑕疵",还支持4K输出、14张参考图融合、5个人物一致性锁定。发布当天全网沸腾,有人直接喊"PS已死"。
而同一时期的OpenAI呢?GPT-Image-1.5还在跟文字较劲,准确率90-95%,看着Nano Banana Pro的中文输出流口水。
就这么过了5个月。OpenAI一直在憋大招。
4月初,三个代号"胶带兄弟"——maskingtape-alpha、gaffertape-alpha、packingtape-alpha——悄悄出现在LM Arena上,被社区扒出来是GPT-Image-2的灰度测试版。4月21日,正式发布。
榜单结果一出:GPT-Image-2全榜第一,领先第二名Nano Banana 2(注意,是Nano Banana 2,不是Pro)240分。这是Image Arena有史以来最大的分差。
二、核心参数:两代王者的硬碰硬
先看GPT-Image-2的硬指标:
| 维度 | GPT-Image-2 | Nano Banana Pro |
|---|---|---|
| 最高分辨率 | 4096×4096 | 4K |
| 文字渲染准确率 | 约99% | 极高,中文表现优异 |
| 架构基础 | 全新独立系统 | Gemini 3 Pro |
| 推理能力 | Thinking模式(规划+检查+修正) | 基于Gemini 3推理 |
| 参考图融合 | 未明确上限 | 最多14张,5人物一致性 |
| 联网搜索 | Thinking模式支持 | Search Grounding支持 |
| 生成速度 | 比前代快2倍 | 较慢(推理阶段耗时) |
| 长宽比 | 3:1到1:3 | 灵活比例 |
看得出来,两家走的是不同的技术路线。Nano Banana Pro在多图融合、人物一致性上依然有独到优势;GPT-Image-2则在文字精度、UI截图生成、构图逻辑上实现了突破。
GPT-Image-2同样有两种模式:
Instant模式——快速出图,所有ChatGPT用户可用。
Thinking模式——落笔前先规划构图,画完自己检查,发现错误还会迭代修正。还能在生成过程中联网搜索、把文档转成视觉图表、一次生成8张风格一致的图片。但只对Plus及以上付费用户开放——OpenAI:想让我多想一会儿?加钱。
三、实测对决:到底谁更强?
发布后,不少人直接拿之前测Nano Banana Pro的提示词扔给GPT-Image-2,搞起了正面PK。结果很有意思——不是一边倒,而是各有胜负。
文字排版与海报设计:GPT-Image-2胜出。 有人做了国潮茶饮海报对比测试,GPT-Image-2出的图更像真实品牌宣传物料,排版层级清晰,图标细节到位;Nano Banana Pro虽然文字也准,但整体AI感更重。
UI截图与界面生成:GPT-Image-2碾压。 生成macOS桌面、手机界面、对话截图,GPT-Image-2的还原度让人"恍惚"——连B站首页、影视飓风首页都能以假乱真。这是Nano Banana Pro不太擅长的领域。
照片真实感与光影:Nano Banana系列依然能打。 电影级光影、皮肤纹理、自然环境,Nano Banana 2/Pro的审美依然在线,尤其是速度优势明显——3-5秒出图 vs GPT-Image-2的更长时间。
角色一致性:各有千秋。 十六宫格表情图测试中,GPT-Image-2在表情多样性和分格形式上小胜;Nano Banana Pro在脸型和发型一致性上更稳。
产品场景与品牌海报:GPT-Image-2画面更丰富。 有人让两家用自家猫咪做肯德基联名海报,GPT-Image-2在画面丰富度和商业感上明显更强,还自动加了"联名限定"等文案。
总结一下:GPT-Image-2赢在结构控制、文字精度和UI还原;Nano Banana系列赢在光影审美、生成速度和多图融合。 选谁,取决于你要干什么活。
四、架构重写:OpenAI这次动了真格
GPT-Image-2不是在旧模型上打补丁,而是从根上重写了。研究负责人陈博远(Boyuan Chen)直接管它叫"GPT for images"——一个从头设计的独立系统。
核心变化用大白话说:
旧模型:先听你说话,再动手画画。 从"听懂"到"动笔"之间有一次信息压缩,文字信息在这个压缩过程中就丢了。
GPT-Image-2:边听边画。 语言理解和图像生成同时进行,生成每个像素的时候,模型还"记得"自己要写什么字。
三层能力叠加构成了技术护城河:
- 新架构让它能"读懂"文字——语言理解不再和图像生成脱节
- Thinking模式让它能"检查"文字——画完自己审一遍,错了就改
- 世界知识让它知道文字"该长什么样"——训练数据大量吸收了UI截图、店面招牌、界面布局等真实世界素材
这套组合拳打下来,GPT-Image-2的文字渲染准确率从前代的90-95%跳到了约99%。
五、提示词案例:拿来就能测
想自己试试GPT-Image-2的能耐?下面6个提示词覆盖不同场景,直接复制粘贴到ChatGPT里就能跑。每个都包含中文要求,专门测试中文文字渲染能力:
1. 文字渲染测试(海报/广告类)
请用中文生成一张复古风旅行海报,目的地为杭州西湖。要求:顶部使用优雅的书法字体书写标题"西湖等你来",中间副标题"2026烟雨江南",底部小字标注"断桥·雷峰塔·苏堤春晓"。整体色调温润,使用水墨青和淡金色点缀,所有文字必须使用中文且清晰可读。
2. UI截图生成测试
请用中文生成一张逼真的macOS桌面截图,至少打开6个窗口:一个ChatGPT对话窗口(讨论今天的菜谱)、一个网易云音乐播放列表、一个Figma设计文件、一个飞书工作群、一个日历(显示今天的日程安排)、一个备忘录应用。整体看起来像一位软件工程师忙碌的工作台,所有界面文字使用中文。
3. 中文排版深度测试(菜单类)
请用中文生成一块咖啡馆手写风格菜单黑板,店名为"云上咖啡"。包含至少8款饮品的中文名称、价格(人民币)和简短介绍,比如"桂花拿铁——秋天的第一口温柔"。风格为粉笔手写体,温暖简约,绿色和米白色调为主,所有文字必须使用中文且排版整齐。
4. 角色一致性测试(需Thinking模式)
请用中文生成4格漫画,讲述一个简短故事:一个短发蓝头发、戴圆眼镜的女孩在旧书店发现一把发光的钥匙,打开书架后的暗门,发现了一个小小的发光花园,最后被萤火虫环绕微笑。要求4格画面中角色外观保持一致,所有对话和旁白使用中文。
5. 信息图表测试
请用中文生成一张信息图海报,标题为"睡眠的科学"。要求包含:一个正在睡觉的人物中心插图、5个关于睡眠的关键事实及数据、一个简单柱状图展示不同年龄段的推荐睡眠时长、一个改善睡眠的小贴士板块。整体使用深蓝色和柔和黄色配色方案,所有文字使用中文。
6. 中文场景深度测试
请用中文生成一张中式餐厅的菜单海报,餐厅名叫"云上小馆",风格为水墨画与现代简约结合。要求:顶部有"云上小馆"书法字体标题,包含8道菜的菜名、价格和简短介绍(如"松茸炖鸡——山野珍鲜,文火慢炖"),底部标注地址"杭州市西湖区龙井路88号"和电话"0571-88886666",所有文字使用中文且清晰可读。
六、华人团队:又一群东方面孔站在奥特曼旁边
每次OpenAI发布新品,奥特曼身旁都会出现一排东方面孔,这次也不例外。
研究团队Leader是Gabriel Goh,加州大学戴维斯分校数学博士,2019年从苹果跳槽到OpenAI。
核心研究员陈博远(Boyuan Chen),江苏人,本科伯克利,博士MIT,OpenAI研究科学家,研究侧重世界模型和具身智能。他在个人主页上写了一句话:"我是为数不多的从事训练GPT图像生成模型的研究者之一。"——小团队,大突破。
七、说点严肃的:两位王者共同的隐忧
GPT-Image-2和Nano Banana Pro有一个共同的"副作用"——它们太擅长生成以假乱真的图片了。
Jake Handy在GPT-Image-2发布日写了当天最扎心的一段话:让这些模型成为最好生产力工具的那组能力——精确的文字渲染、可信的UI布局、真实世界的视觉词汇——恰好也是制造虚假信息的完美工具集。假UI截图、假法庭文件、假聊天记录……"每一个都是在已知视觉词汇之上叠加的密集文本,而这正是这些模型所优化的工作负载。"
过去的AI图因为文字太烂,反而自带"防伪标记"。现在两家都把这道屏障拆了。以后"有图有真相"这句话,得改写。
OpenAI的应对是C2PA元数据水印,但自家产品负责人都承认"不是银弹"——截图、裁剪、压缩,任何一步都能让水印失效。谷歌那边用SynthID不可见水印,但同样的,技术手段永远跟不上造假的想象力。
这不是某一家的问题,而是整个行业的结构性挑战。当两家的模型都能以99%的准确率在图片中渲染文字,当UI截图真假难辨,当品牌海报AI一键直出——我们需要的不只是更好的水印技术,而是整个社会对"图片不再可信"这件事的系统性认知升级。
八、普通人现在能做什么
如果你是ChatGPT用户: 打开ChatGPT就能体验Instant模式,直接输入提示词生成图片。
如果你是Plus及以上订阅用户: 解锁Thinking模式,包括推理、联网搜索和8张风格一致图片生成。上面第4个提示词案例建议用Thinking模式跑,效果差异很明显。
如果你更习惯谷歌生态: Nano Banana Pro在Gemini App、Google AI Studio、Google Workspace中都可以使用,中文能力依然一流。免费用户每日有少量额度,Pro订阅每日约100张。
如果你是开发者: 两家的API都已上线。建议把模型切换层设计成可替换架构,根据不同任务选用不同模型——需要文字精度和UI还原用GPT-Image-2,需要多图融合和光影审美用Nano Banana Pro。
写在最后
过去5个月,AI生图领域是"一超多强"——Nano Banana Pro独占鳌头。
现在,格局变成了"双雄争霸"。GPT-Image-2在文字精度、UI还原、构图逻辑上实现了对Nano Banana Pro的反超;但Nano Banana Pro在多图融合、人物一致性、光影审美上依然有独到优势。
对用户来说,这是最好的局面。两个顶级选手互相追赶,最终受益的是每一个用AI做图的人。
而对整个社会来说,两位王者共同的隐忧也不容忽视——当AI生图从"创意玩具"变成"生产力基础设施",当生成的图片不再有"AI味",我们需要学会的,不只是怎么写好提示词,更是如何在"有图也不一定有真相"的时代里,保持清醒。






文章评论