text-to-imagetext + image -> image

GPT Image 2

OpenAI 最先進的圖像生成與編輯模型，可產出照片級真實感的輸出，具備近乎完美的文字渲染、多語言支援、精確的指令遵循能力，以及彈性的高解析度功能，原生支援高達 2K（可擴展至 4K）。

提供方

OpenAI

输入

text + image

输出

image

GPT Image 2

概述

GPT Image 2（API 模型名稱：gpt-image-2）是 OpenAI 的旗艦級圖片生成與編輯模型，於 2026 年 4 月推出，作為 GPT Image 1.5 的後繼版本。它直接在 ChatGPT 中驅動圖片創作（即 ChatGPT Images 2.0），並透過 OpenAI API 提供給開發者使用。該模型在文字轉圖片生成與圖片轉圖片編輯方面均表現出色，可透過自然語言指令進行精確修改。

主要功能

文字轉圖片生成：根據詳細的文字提示，建立高保真度的圖片。
圖片編輯：以現有圖片作為輸入，並透過文字指令進行目標性修改。
文字渲染：對內嵌文字（包括密集排版、小字型、多語系文字、標誌及字型設計）達到近乎完美的準確度。
寫實風格與風格控制：能產出逼真、商業級別的圖像，擺脫早期模型常見的「AI 感」。
解析度與彈性：原生支援最高 2K（2048px）的解析度，API 在某些配置下可擴展至 4K。支援靈活的長寬比與尺寸（須為 16px 的倍數，長寬比 ≤ 3:1，最大約 830 萬像素）。
效能表現：品質最高階層，生成速度中上；支援一致的快照功能，確保結果可重現。

優勢

優異的提示遵循度與複雜場景構圖能力。
對富含文字的視覺內容（海報、包裝、資訊圖表、產品標籤、廣告）處理能力優越。
在產品攝影、生活風格照與行銷素材方面，寫實度極高。
精確的編輯控制，同時保留原始圖片的保真度。
支援多語系文字，並能準確渲染字型與版面。
生成速度優於前代模型，採用品質優先的架構。

限制

在極複雜的自然環境（例如茂密樹葉或有機紋理）中，偶爾會出現不一致的情況。
受 OpenAI 的內容安全過濾器限制，可能會阻擋或修改涉及受限主題的提示。
不原生支援負面提示、影片、音訊或串流輸出。
編輯結果可能因輸入圖片品質與提示的具體程度而有所差異。
超過 2K 的高解析度輸出會增加 token/使用成本，並可能需要明確指定 API 尺寸。

如何撰寫有效的提示詞

GPT Image 2 能出色地遵循自然語言提示詞，但清晰且有結構的內容能最大化成果：

明確具體且有條理：描述主體、風格、光線、構圖、氛圍及相機細節。例如：「一張寫實商品照，拍攝黑色光滑無線耳機充電盒置於極簡白色大理石檯面上，柔和棚燈帶有細微反光，乾淨的商品攝影風格，高細節，2K 解析度。」
精準處理文字：明確引用確切的文字、字體、大小及位置。例如：「在正上方以現代無襯線字體顯示粗體白色文字『夏季特賣 5 折優惠』。」
編輯用途：清楚參照輸入圖片並描述變更。範例提示詞（附圖）：「將背景改為夜間未來感賽博龐克城市，前景商品保持不變，在表面加入霓虹反光。」
長寬比與解析度：在提示詞中加入或使用 API 參數（例如「寬幅風景橫式長寬比，2048x1152 解析度」或 API size 如「2048x2048」）。
風格參考：使用藝術家、媒介或美學風格：「以 [品牌] 專業商品攝影風格，電影級燈光。」
迭代調整：利用模型強大的指令遵循能力，在後續編輯中進行微調。