梦晨 发自 凹非寺量子位 | 公众号 QbitAIGPT Image2全网刷屏但效果究竟为什么这么好研究负责人陈博远揭秘底层架构已彻底重构。但他又拒绝回答是否采用扩散模型或自回归技术只是神秘的将其描述为“通用模型”或“图像领域的GPT”。陈博远的一条推文还透露从去年12月底的GPT Image 1.5算起只用了四个月就有如此大的改进。这样突破性的成果核心团队只有13人。整个团队的负责人Gabriel Goh晒出了的团队成员AI全家福。评论区有网友感叹怎么全是亚洲人陈博远从不懂Python到Research LeadGPT Image 2究竟是什么架构OpenAI恐怕很长一段时间都不会公布了但从核心团队成员的学术经历可以看出一些痕迹。陈博远是团队的Research Lead他和另一位成员Kiwhan Song在MIT读博时有同一位导师Vincent Sitzmann。他博士期间的代表作Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion入选了NeurIPS 2024。这项研究提出Diffusion Forcing这一全新序列生成训练范式将逐token独立噪声级扩散与因果下一个token预测结合融合自回归模型的可变长度生成与全序列扩散模型的长程引导优势。他在谷歌实习期间还以共同一作身份发表了SpatialVLM。通过过自动构建互联网规模的3D空间推理 VQA 数据集1000 万图像、20 亿 QA 对为视觉语言模型赋予定量 / 定性空间推理能力可从单张 2D 图像输出米制距离、尺寸、方位等精确数值。这项研究把思维链空间推理应用到了具身智能领域。在谷歌实习期间他开发的指令微调技术后续还被Gemini 2.0采用。他在高中参加科研夏令营时还不懂Python的基本语法那时结识的谷歌DeepMind资深研究员夏斐把他引入了AI世界。夏斐两次邀请他到DeepMind完成高质量实习这些经历使陈博远积累了大规模模型训练的工程经验也为他理解多模态系统的数据需求提供了宝贵视角。博士毕业后陈博远于2025年6月加入OpenAI迅速成为GPT图片生成五人核心成员之一负责GPT图像生成模型的所有训练同时也是Sora视频生成团队的一员。在演示中他给家乡无锡做了一张海报。然后为来自首尔的队友做韩文海报为来自Bangladesh的队友做孟加拉语海报。每一张中的文字渲染都精准无误。中科大Jianfeng Wang让生图AI理解世界知识中科大博士毕业的Jianfeng Wang在GPT Image 2团队负责的是另一个让人惊叹的能力指令遵循和理解世界。旧模型画的永远时钟永远指向10:10源于网络上的钟表广告图几乎清一色都是10:10。这是因为钟表厂商找心理学家做过实验认为这有助于刺激消费者买表的意愿。他让新模型画2:25、3:30、9:10、7:45基本精准。这只是开胃菜。更多复杂的空间布局苹果在中心、杯子在右边、书在上面、相机在左边、篮球在下面。模型全部精准执行。在加入OpenAI 之前他在微软工作近9年。在微软期间就与OpenAI团队在DALLE-3上有合作。他在计算机视觉领域发表了多篇学术论文研究内容可能涵盖 图像分类、目标检测、语义分割、以及视觉表征学习 等方向世界知识理解能力的大幅提升对象的语义内容和功能结构 有正确的理解JianFeng Wang在演示视频结尾说到GPT Image 2正在消除你的意图和模型产出之间的差距。真正做到你想要什么模型就给你什么。Yuguang Yang生成高精度复杂信息图表Yuguang Yang在GPT Image 2的发布活动中演示了生成信息图和PPT。整整75页的GPT-3论文拖进ChatGPT自动生成7张幻灯片。他的经历可以说是团队成员中最丰富的每换一个工作都是跨界但都聚焦机器学习。他本科在浙大竺可桢学院学的工程博士在约翰斯霍普金斯大学期间学的是计算化学物理与机器学习。他第一份全职工作是量化分析师在清华做访问研究员期间研究的是用于纳米机器人的强化学习和控制算法。后来他在亚马逊做过Alexa语音研究。又在微软做过Bing搜索的查询理解和检索、文档理解。2025年初加入OpenAI后除了图像生成还参与过ChatGPT智能体项目。他在个人账号上介绍GPT Image 2的信息图生成能力可以为科研人员节省大量时间。还反复提醒大家要做信息图不要忘记选择思考模式。从DALL-E到GPT Image 2.0从团队成员Kenji Hata的自我介绍中得知GPT Image 1.0也就是GPT-4o的图像生成部分。有一个人从DALL-E开始参与了OpenAI多模态系列研究的全程。他就是GPT Image 2.0团队负责人Gabriel Goh。从2019年加入OpenAI他的早期研究更篇理论专注于可解释性和凸优化等等。从DALL-E开始慢慢转向了图像生成。看到另一位团队成员Weixin Liang的研究履历GPT Image 2的技术底色又揭开了一角。他在Meta实习期间的代表作Mixture-of-Transformers引入模态解耦的MoE和解耦注意力显著降低多模态模型预训练的计算成本。他博士毕业自斯坦福本科也毕业自浙大竺可桢学院不过比Yuguang Yang要晚好几年。Weixin Liang与陈博远一样都是25年博士刚毕业就加入OpenAI迅速成为团队的核心成员。其他GPT Image 2.0团队成员还包括Ayaan Haque之前在Luma AI 工作参与过Luma的视频生成基础模型Dream Machine的训练。Bing Liang在Google干了5年多参与Imagen3、Veo、Gemini Multimodal2025年跳到OpenAI做图像生成研究。Mengchao Zhong本科上海交通大学校友硕士毕业于得克萨斯农工大学在Pinterest和Airtable做过软件工程师在OpenAI负责多模态产品的工程。Dibya Bhattacharjee耶鲁大学2015年IPhO铜牌CIE A-Level数学和生物全球最高分。Kiwhan Song是25年10月最晚加入的除了做研究之外他还是团队里的提示词大师大家看到的官方演示图很多都出自他手。……从最早的DALL-E到今天的GPT Image 2.0这只团团队先后解决了。画得出来、画得清楚、画得好看、画得准。尽管近年来OpenAI的人才流动很大但OpenAI还是那个能不断吸引各种有个性的人才不限制专业、欢迎跨界信奉自下而上涌现式研究的公司。从一个小团队开始有了突破后公司倾斜更多资源直到改变世界。One More Thing曾经GPT-4o图像生成模仿吉卜力风格生成的头像席卷了全世界。如今GPT Image 2.0的团队成员都把自己头像换成了这种奇脖子画风。那么这种画风的提示词是什么团队成员也公布了出来Use my photo only for identity. Redraw me as a very simple surreal Japanese sticker-style caricature: long thin neck, small deadpan face, minimal black outline, flat light coloring, almost no shading, very few facial details, simplified hair shape, lots of white space, plain white background, slightly awkward and funny. Ultratall 1:3 image.参考链接[1]https://x.com/gabeeegoooh/status/2046674385407512687?s20[2]https://venturebeat.com/technology/openais-chatgpt-images-2-0-is-here-and-it-does-multilingual-text-full-infographics-slides-maps-even-manga-seemingly-flawlessly一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完— 谁会代表2026年的AI龙虾爆火带动一波Agent与衍生产品浪潮。但真正值得长期关注的AI公司和产品或许不止于此。如果你正在做或见证着这些变化欢迎申报。让更多人看见你。 https://wj.qq.com/s2/25829730/09xz/一键关注 点亮星标科技前沿进展每日见