GPT Image 2 logo
text-to-imagetext + image -> image

GPT Image 2

OpenAI最先进的图像生成和编辑模型,可生成逼真的输出,具有近乎完美的文本渲染、多语言支持、精确遵循指令以及灵活的高分辨率能力,原生支持2K(可扩展至4K)。

提供方
OpenAI
输入
text + image
输出
image

GPT Image 2

概述

GPT Image 2(API 模型名称:gpt-image-2)是 OpenAI 于 2026 年 4 月发布的旗舰图像生成与编辑模型,作为 GPT Image 1.5 的继任者。它直接为 ChatGPT 中的图像创作提供支持(作为 ChatGPT Images 2.0),并通过 OpenAI API 向开发者开放。该模型在文本到图像生成和图像到图像编辑方面均表现出色,支持通过自然语言指令进行精确修改。

关键能力

  • 文本到图像生成:根据详细文本提示创建高保真图像。
  • 图像编辑:以现有图像为输入,通过文本指令应用针对性编辑。
  • 文本渲染:对嵌入文本(包括密集排版、小字体、多语言文字、标志和版式)实现近乎完美的准确性。
  • 逼真度与风格控制:生成真实、商业级的图像,没有早期模型那种常见的“AI 生成感”。
  • 分辨率与灵活性:原生支持高达 2K(2048px)的分辨率,在特定配置下通过 API 可扩展至 4K。灵活的宽高比和尺寸(16px 的倍数,宽高比 ≤ 3:1,最大约 830 万像素)。
  • 性能:最高质量等级,中等生成速度;支持一致的快照以获得可复现的结果。

优势

  • 出色的提示遵循能力和复杂场景构图。
  • 对文字密集型视觉内容(海报、包装、信息图、产品标签、广告)的处理能力优越。
  • 产品摄影、生活方式拍摄和营销素材方面逼真度强。
  • 在保留原始图像保真度的同时实现精确的编辑控制。
  • 支持多语言文字以及准确的排版/布局渲染。
  • 相比前代产品,生成速度更快,且采用质量优先架构。

局限性

  • 在处理极其复杂的自然场景(如茂密植被或有机纹理)时偶尔会出现不一致。
  • 受 OpenAI 内容安全过滤器的限制,可能会阻止或修改涉及受限主题的提示。
  • 不支持负面提示、视频、音频或流式输出。
  • 编辑结果可能因输入图像质量和提示的具体程度而有所不同。
  • 更高分辨率的输出(超过 2K)会增加 Token/成本,并且可能需要显式的 API 尺寸设置。

如何编写有效的提示词

GPT Image 2 能够极好地遵循自然语言提示词,但清晰的表达和合理的结构能最大化生成效果:

  1. 具体化与结构化:描述主体、风格、光线、构图、氛围和相机参数。示例:"一张照片级质感的商业产品图,拍摄对象为黑色无线耳机充电盒,置于极简白色大理石表面,柔和影棚灯光搭配细微反光,干净的商业摄影风格,高细节,2K分辨率。"

  2. 精确处理文字:明确引用所需文字、字体、大小和位置。示例:"在顶部居中位置添加加粗白色文字'SUMMER SALE 50% OFF',使用现代无衬线字体。"

  3. 编辑用途:清晰参考输入图像并描述修改内容。带图片的提示词示例:"将背景改为夜晚的未来赛博朋克城市,保持前景产品不变,在表面添加霓虹反光。"

  4. 宽高比与分辨率:在提示词中指定或使用 API 参数(例如:"宽幅横版比例,2048x1152 分辨率" 或 API 的 size 参数如 "2048x2048")。

  5. 风格参考:使用艺术家风格、媒介或美学描述:"采用 [品牌] 专业产品摄影风格,电影级布光。"

  6. 迭代优化:利用模型强大的指令遵循能力,在后续编辑中逐步改进。

API 使用说明

  • 接口地址:v1/images/generations(文本生成图像)和 v1/images/edits(图像编辑)。
  • 编辑时输入的图像需符合尺寸和分辨率要求。
  • 费用根据分辨率与复杂度递增(参考 OpenAI 定价计算器)。
  • 使用快照版本(如 gpt-image-2-2026-04-21)可确保版本一致性。

GPT Image 2 提示词

0 个示例

繼續探索

暫無提示詞

该模型的示例会显示在这里。

浏览提示词