
text-to-imagetext + image -> image
GPT Image 2
OpenAI 最先進的圖像生成與編輯模型,可產出照片級真實感的輸出,具備近乎完美的文字渲染、多語言支援、精確的指令遵循能力,以及彈性的高解析度功能,原生支援高達 2K(可擴展至 4K)。
提供方
OpenAI
输入
text + image
输出
image

概述
GPT Image 2(API 模型名稱:gpt-image-2)是 OpenAI 的旗艦級圖片生成與編輯模型,於 2026 年 4 月推出,作為 GPT Image 1.5 的後繼版本。它直接在 ChatGPT 中驅動圖片創作(即 ChatGPT Images 2.0),並透過 OpenAI API 提供給開發者使用。該模型在文字轉圖片生成與圖片轉圖片編輯方面均表現出色,可透過自然語言指令進行精確修改。
主要功能
- 文字轉圖片生成:根據詳細的文字提示,建立高保真度的圖片。
- 圖片編輯:以現有圖片作為輸入,並透過文字指令進行目標性修改。
- 文字渲染:對內嵌文字(包括密集排版、小字型、多語系文字、標誌及字型設計)達到近乎完美的準確度。
- 寫實風格與風格控制:能產出逼真、商業級別的圖像,擺脫早期模型常見的「AI 感」。
- 解析度與彈性:原生支援最高 2K(2048px)的解析度,API 在某些配置下可擴展至 4K。支援靈活的長寬比與尺寸(須為 16px 的倍數,長寬比 ≤ 3:1,最大約 830 萬像素)。
- 效能表現:品質最高階層,生成速度中上;支援一致的快照功能,確保結果可重現。
優勢
- 優異的提示遵循度與複雜場景構圖能力。
- 對富含文字的視覺內容(海報、包裝、資訊圖表、產品標籤、廣告)處理能力優越。
- 在產品攝影、生活風格照與行銷素材方面,寫實度極高。
- 精確的編輯控制,同時保留原始圖片的保真度。
- 支援多語系文字,並能準確渲染字型與版面。
- 生成速度優於前代模型,採用品質優先的架構。
限制
- 在極複雜的自然環境(例如茂密樹葉或有機紋理)中,偶爾會出現不一致的情況。
- 受 OpenAI 的內容安全過濾器限制,可能會阻擋或修改涉及受限主題的提示。
- 不原生支援負面提示、影片、音訊或串流輸出。
- 編輯結果可能因輸入圖片品質與提示的具體程度而有所差異。
- 超過 2K 的高解析度輸出會增加 token/使用成本,並可能需要明確指定 API 尺寸。
如何撰寫有效的提示詞
GPT Image 2 能出色地遵循自然語言提示詞,但清晰且有結構的內容能最大化成果:
-
明確具體且有條理:描述主體、風格、光線、構圖、氛圍及相機細節。例如:「一張寫實商品照,拍攝黑色光滑無線耳機充電盒置於極簡白色大理石檯面上,柔和棚燈帶有細微反光,乾淨的商品攝影風格,高細節,2K 解析度。」
-
精準處理文字:明確引用確切的文字、字體、大小及位置。例如:「在正上方以現代無襯線字體顯示粗體白色文字『夏季特賣 5 折優惠』。」
-
編輯用途:清楚參照輸入圖片並描述變更。範例提示詞(附圖):「將背景改為夜間未來感賽博龐克城市,前景商品保持不變,在表面加入霓虹反光。」
-
長寬比與解析度:在提示詞中加入或使用 API 參數(例如「寬幅風景橫式長寬比,2048x1152 解析度」或 API
size如「2048x2048」)。 -
風格參考:使用藝術家、媒介或美學風格:「以 [品牌] 專業商品攝影風格,電影級燈光。」
-
迭代調整:利用模型強大的指令遵循能力,在後續編輯中進行微調。
API 使用說明
- 端點:
v1/images/generations(文字轉圖片)及v1/images/edits(圖片編輯)。 - 用於編輯的輸入圖片必須符合尺寸/解析度規範。
- 費用隨解析度與複雜度增加(參閱 OpenAI 定價計算機)。
- 如
gpt-image-2-2026-04-21之類的快照可確保版本一致性。
GPT Image 2 提示词
3 个示例


