人人都能擁有一位資深做圖、P 圖大師——ChatGPT 圖像 2.0 完整入門
設計師很貴。一位資深設計師更貴——貴到大部分人這輩子都不會擁有一位。
現在這位資深設計師就住在你的 ChatGPT 裡,三分鐘畫完過去要三天才能做完的圖。而且如果你 Canva 也有訂閱,這張圖還不再是死的——你可以拆開來繼續編輯,像在跟一位真人做圖師合作。
這篇我會講清楚:ChatGPT 圖像 2.0(OpenAI 內部代號 duct tape、API 模型 ID gpt-image-2)到底是什麼、它跟以前差在哪、八種職業可以怎麼用,以及一個被多數人忽略的下游工作流:把它跟 Canva 串起來,等於人人都能擁有一條設計產線。
讓我們開始吧。

1. 「資深做圖大師」是什麼意思?
先把話講清楚:ChatGPT 圖像 2.0 不是來取代設計師的。它是另一種職業。
| Figma / Photoshop 設計師 | ChatGPT 圖像 2.0 | |
|---|---|---|
| 工作方式 | 從零做、像素級控制、自己排版 | 你描述,他畫 |
| 適合場景 | 品牌系統、產品介面、深度精修 | 草稿、提案、配圖、海報初稿、商品場景 |
| 時間 | 一張海報三天 | 一張海報三分鐘 |
| 成本 | 月薪 5–20 萬請一位 | 包在你 $20 的 ChatGPT Plus 裡 |
設計師像「會操作 Figma 的人」;ChatGPT 圖像 2.0 像「一位你描述需求他就能交出成品的資深做圖師」。兩個是合作關係不是競爭。
差別在哪?你以前要請設計師才能做出來的圖,現在可以自己一個人做完。 不是說以後不用設計師了——而是過去你連門檻都跨不過去的事,現在能跨進去了。
它具備極強的文字邏輯理解能力。我自己實測下來幾個重點:
- 講得出來,它就畫得出來——你描述得越具體,他越能精確還原
- 成品精確、強大,有時直接驚豔
- 要求創新時也能跳脫想像——不是只會給你「安全版本」的工具
我會稱它為大師而不是助手,是因為它的成品真的能用,不是「AI 味很重那種尷尬產出」。這是個邊界轉變:圖像生成從「能看但不能用」進化到「能直接交差」。

2. 它跟以前差在哪?五大跳躍
對照前代 GPT Image 1.5,這次不是小修小補,是五個方向的跳躍:
跳躍 1:字終於寫對了
「AI 畫圖會把字寫錯」是這個領域最老的笑話。前代海報標題經常糊掉、字母拼錯、漢字變成抽象藝術。實際上前代正確率大概 90% 多一點,乍看可用、認真看處處 bug。
這代逼近 99%。能畫出密集排版的學術海報、能畫出每根針都對時的時鐘、能畫出整頁文字全對的落地頁。對你的意義:以前生圖完還要進 Photoshop 把字一個個修正,現在這道工序直接砍掉。
跳躍 2:白終於是白,黑終於是黑
用過前代的人都會記得這個體感——它輸出的圖總是帶一層奶油色。白牆不是真的白、白襯衫泛黃、產品照拍出來像加了暖光濾鏡。對純粹試玩沒差,但凡是要做商業用途的圖,都得拉進修圖軟體校色。
這代直接修掉了。色彩中性、乾淨,該白就白、該黑就黑。電商商品圖、品牌素材、產品攝影直接省掉校色工序。
跳躍 3:解析度拉到 2000 寬,而且可以批次出 10 張
前代寬度只到 1536 px,而且一次只吐一張。這代寬度拉到 2000 px,更實用的升級是一個 prompt 可以一次給你 10 張版型一致、構圖變化的成品。
跑廣告 A/B 測試、電商 SKU 批量、IG 輪播這類「同一個調性多個變體」的場景特別舒服。以前要送 10 次 prompt 等 10 次,現在一次到位。
跳躍 4:中文不再亂碼
這對中文市場是最重要的一條。
以前你用 OpenAI 生圖,只要句子裡有中文,跑出來大概率是斷掉的筆畫、錯位的部首、自己發明的怪字。這個痛點逼出一條台灣設計圈很常見的兩段式工作流:OpenAI 出主體 → 切到 Google 的 Nano Banana 補中文 → Photoshop 拼。
這代把中文、日文、韓文、印地文、孟加拉文這些非拉丁語系全部認真處理過。筆畫穩定、字形不再亂猜。兩段式工作流終於可以縮回一段。
跳躍 5:Thinking Mode——圖像模型也學會了「想一下再動筆」
文字模型早就有 reasoning,但圖像模型一直都是「你按下送出,他直接畫」。這代把 reasoning 帶進來了,多了一個新模式:
- Instant Mode:預設,按了就畫。免費用戶就有
- Thinking Mode:付費用戶獨享,會先規劃版面、角色設定、光線邏輯,再逐張生圖
Thinking Mode 真正解的痛點是跨多張圖的一致性。畫漫畫分鏡、IP 角色連載、品牌素材組——以前最大的失敗模式就是「同一個角色第二張就變另一個人」。現在可以在一個對話裡產出整組畫面,角色臉型、服裝、光線都對得起來。
對漫畫、Vtuber、IP 經營者、品牌人設來說,這條解鎖的是一整個過去做不到的內容類型。

3. Instant 還是 Thinking?一段話講完
| Instant Mode | Thinking Mode | |
|---|---|---|
| 速度 | 快(10–20 秒) | 慢(30 秒–2 分鐘) |
| 適合 | 單張圖、創意發想、海報、商品圖 | 連載內容、跨多圖角色一致、複雜版面 |
| 誰能用 | 免費 + 付費 | Plus / Pro / Business 才有 |
簡單判斷:單張圖 → Instant;連續多張要角色一致 → Thinking。
預設先 Instant,發現走樣再切 Thinking。不要一開始就 Thinking,會慢、會貴、會等到不耐煩。
4. 八種職業可以怎麼用
來到最實際的部分。我把它拆成八種職業——你大概會在其中一兩個位置看到自己。
設計師:草稿、多版本、補位
不是替代你,是讓你前置 brainstorm 速度乘 10 倍。客戶說「我想要一個有溫度但又科技感的 hero banner」,以前你要先沉澱、畫個 mood board、做兩三版才能跟客戶對焦。現在你打個 prompt 給五版讓客戶先挑方向,你再進 Figma 把選中那版做到 production-ready。
Thinking Mode 還能解一個更難的問題:做整套 brand assets 的時候,跨素材保持調性。
廣告設計師 / 行銷:一句話生整組 IG 輪播
我自己親手試過。原本只是想試打一句「介紹一下 ChatGPT 圖像 2.0」,不小心按到送出——結果整組 IG 輪播貼文直接生出來了。沒給資料、沒描述風格、沒說規格。
以專業設計師標準看,那組頂多 60 分。但重點不是 60 分,是一句話就到 60 分。認真寫需求、微調 prompt,能做到什麼程度難以想像。
對跑廣告 A/B 測試的人來說,「一個 prompt 出 10 張版型一致但構圖變化的素材」這條規格,就是直接把素材成本壓到接近零。
工程師:把 codebase 變成一張看得懂的架構圖
這是被工程師低估、又被非工程師完全忽略的金礦。
過去看一個陌生的開源專案,你要 git clone、慢慢 trace function call、畫 mind map,兩天才能弄懂。配上 Codex CLI 調用 image_gen,幾分鐘就能生出整個專案的架構圖、資料流程圖、模組關係圖。
讀懂一個專案的時間從兩天壓到兩小時。
自媒體 / Threads 經營者:封面、配圖、社群素材
你不用每次都打開 Canva 拚拚拼拼。部落格封面、Threads 配圖、IG 圖文、YouTube 縮圖——一個 prompt 對應一個產出。
我自己經營 Threads,過去最大的卡點之一是「今天有想法但沒時間做圖」。現在這個瓶頸不存在了。
講師 / 線上課程:教材插圖、概念視覺化
教抽象概念最怕學生只看到文字。以前你要請設計師畫教材插圖、或者自己土法煉鋼用簡報軟體拼。
現在你寫一個 prompt,配上你要解釋的概念——一張圖就能讓學生秒懂你講十分鐘的內容。
電商賣家:商品場景圖、SKU 變體、中文促銷海報
以前商品圖只能拍真實場景。現在你可以把同一個商品放進 10 種不同生活情境,全部用同一個 prompt 變體生出來:客廳、戶外、辦公桌、廚房、車內。
中文促銷海報這條也是這代解鎖的——以前要切去 Nano Banana 補字,現在 ChatGPT 圖像 2.0 一次生完。
中小企業老闆:LOGO 草稿、招牌、Menu、名片
不一定要終稿,但「先有個能拿給人看的草稿」這件事的成本被壓到趨近零。你跟設計師溝通會輕鬆 5 倍,因為你不再是用嘴描述模糊概念,而是直接拿著一張接近你想要的圖開會。
漫畫家 / 創作者:IP 角色多場景連載
Thinking Mode 的殺手鐧場景。
以前做角色設定、分鏡、IP 周邊,最痛的是「第二張圖的角色跟第一張不像」。現在 Thinking Mode 可以在同一個對話裡產出跨多張圖的連貫敘事:角色外型、光線、場景風格全保持一致。
漫畫家、Vtuber、IP 創作者、品牌人設經營者——這條解鎖的是一整個過去做不到的內容類型。

5. 真正的主軸:把一切變成圖,加速理解
跳出職業清單,往上抽一層。
ChatGPT 圖像 2.0 真正改變的是一件事:「把資訊變成圖」這件事的成本,從幾天壓到幾分鐘。
以前資訊變圖很貴,所以大部分東西就停留在文字。報告是文字、SOP 是文字、會議記錄是文字、員工任務是文字。我們明知道圖比文字快十倍進腦,但我們做不出來、做出來也很醜。
現在不一樣了:
對老闆來說:你可以一瞬間看到公司整體發展。把所有專案、員工、進度、KPI 丟給 AI,他生出一張「公司全景圖」——比看 10 份報表快。要看哪個團隊在做什麼?再生一張。要看哪個產品的流量漏斗?再生一張。「整體感」這個過去最難視覺化的東西,現在能秒得到。
對設計師來說:客戶在會議室講需求講了半小時,你以前要回家沉澱再來提案。現在你當場把他的需求丟給 ChatGPT 變成知識圖解,客戶看著圖跟你對焦——而不是看著空氣。提案速度、修改速度、共識成本全部下降。
對工程師來說:上面講過的 codebase 視覺化。看一個陌生專案從兩天壓到兩小時。
對任何知識工作者來說:你正在學一個新領域、讀一本書、研究一個議題——把你正在理解的東西丟給 AI 變成圖,你的理解速度會直接加倍。
這不是「多了一個工具」這麼簡單。這是「圖」這個媒介的成本被壓到接近零之後,每個人腦袋裡能容納的東西會多一個數量級。

6. 中文市場的轉折:兩段式工作流終於可以合併
把這條獨立講,因為對中文市場太關鍵。
過去半年,凡是要做中文海報、中文版品牌素材、中文社群圖,幾乎都得走兩段:
OpenAI 畫主體(構圖好但中文字會壞)
↓
切到 Google Nano Banana 補中文字(中文準但構圖能力差)
↓
Photoshop 拼起來
這條鏈很煩。每多一步就多 30 分鐘、多一次風格不一致的風險。
ChatGPT 圖像 2.0 的 CJK 渲染穩定之後,這條鏈砍到只剩一步。
中文海報、中文版產品圖、含中文標籤的 infographic——以前是「能做但很慢」,現在是「直接生」。
如果你之前因為「OpenAI 中文字會壞」這個原因放棄它,現在是回來看的時候。
7. 不再是死圖:Canva 拆圖層的下游工作流
這條是 ChatGPT 圖像 2.0 之外的延伸,但我必須講——因為它改變了整個下游編輯流程。
過去 AI 生圖最大的限制不是品質,是生完就死掉。一張 PNG 攤在那裡,要改個字、要換個物件、要動個版面,都得重生整張(然後其他細節又會走樣)。
Canva 最近上線了一個功能:你可以把 AI 生的圖丟進去,系統會自動拆解圖層。文字一層、圖片一層、背景一層。每一層都可以單獨編輯。
我親自試過,效果出乎意料地好。
這意味著什麼? 你的工作流變成這樣:
ChatGPT 圖像 2.0 出大圖(架構、構圖、整體調性都對)
↓
Canva 拆圖層
↓
你改文字、換物件、調版面(不影響其他細節)
↓
匯出,上架
這條流程完全繞過 Photoshop。對沒有設計背景的人來說,門檻被打到地板。
設計師也別覺得這威脅你——你大量的時間其實花在客戶反覆改文字、換配色、調圖文比例這些瑣事。這條流程把那些瑣事交給客戶自己改,你專心做真的需要設計判斷的事。

8. 怎麼開始?免費版就能用
好消息:不用準備、不用申請、不用付錢,現在就能用。
| 你的方案 | 你拿到什麼 |
|---|---|
| ChatGPT 免費 | Instant Mode、沒字數限制 |
| ChatGPT Plus / Pro / Business | Instant + Thinking + 整合網路搜尋(先找資料再生圖) |
| 開發者 API | 兩種模式都開放、gpt-image-2 端點與前代相容 |
最快路徑:打開 ChatGPT,直接打一個 prompt 試試看。不用看十段教學,按一次送出比較快。
API 定價改採 token 計算(跟文字 API 同邏輯):
- 輸入文字 token:$5 / M
- 輸出文字 token:$10 / M
- 輸入圖像 token:$8 / M
- 輸出圖像 token:$30 / M
一張 1024×1024 的 Instant 圖大約 $0.03–0.05。批次生 10 張不會破產,跑廣告素材矩陣的人會感覺很合理。
還有一個截止點要記住:DALL·E 的 API 將在 5/12 永久關閉。如果你的 App、工具、自動化流程還有依賴 dall-e-3 或 dall-e-2,在那之前要遷移到 gpt-image-2。
9. Prompt 怎麼寫?三個社群庫直接抄
你不用從零學。社群已經把好用的 prompt 全整理好了。三個我會推薦:
YouMind 的 GPT Image 2 提示詞集合:560+ 組 X 社群上傳的結構化提示詞。從產品海報、UI 設計系統、美食地圖到廣告橫幅都有。它的核心是用 JSON 把版面拆成 type / style / layout / sections 欄位,再用 {argument name="..." default="..."} 語法包裝可替換變數——同一個模板能換題材重複產出。
GitHub 上的 awesome-gpt-image-2-prompts(EvoLinkAI 維護):CC BY 4.0 授權、375+ 星、11 種語言 README(含繁體中文)。跟 YouMind 最大的差別是它依類別分章,而且完整附原始 prompt 與作者連結,對要逐句學寫法的人特別友善。分五大類:肖像攝影、海報插畫、角色設計、UI 樣機、比較與社群實驗(這類專門收集對 Nano Banana 的對戰實測)。
Morphic 的 how-to 文章(morphic.com/resources/how-to/chatgpt-images-2.0-prompts):實戰 prompt 寫法的拆解,配範例。
怎麼用這些庫? 不要從零寫 prompt。先去找一個結構接近你要的範例,複製過來、把關鍵詞換成你的場景。這跟工程師抄 Stack Overflow 同理——抄結構,改內容。
10. 跟 Nano Banana Pro 怎麼選?
這不再是「誰最強」的單一比較,是「根據任務挑模型」的多元市場。OpenAI 一家獨大的時代沒回來;目前是 OpenAI 跟 Google 各擅一塊的局面。
| 任務 | 推薦模型 |
|---|---|
| 文字密集、中文海報、UI 樣機、產品圖、世界知識相關 | ChatGPT 圖像 2.0 |
| 信息圖、出版級長文排版、多欄雜誌風格 | Nano Banana Pro(仍 LM Arena 第一) |
| 極大批量(數百張 SKU)、追求成本與速度 | Nano Banana 2(輕量版、API 便宜) |
簡單版的選法:
- 一般人、自媒體、行銷 → ChatGPT 圖像 2.0(已經包在你 Plus 裡,不用多付)
- 要做雜誌風 infographic → Nano Banana Pro
- 跑電商商品圖批量幾百張 → Nano Banana 2
專業用戶通常三個都裝,看任務派人。
11. 看完這篇,今天就動手的三個小實驗
不要把這篇收藏完就關掉。挑一個你今天就能做的小實驗——15 分鐘以內、不用準備。
實驗 A:把一個你以前做失敗的中文 prompt 重新丟一次
如果你曾經因為「OpenAI 中文會壞」放棄過某張海報、某張封面、某張產品圖,今天把同一個 prompt 原封不動再丟一次。你會看到差距有多大。這比看十段升級說明都直觀。
實驗 B:把你最近想搞懂的一件事丟給它畫成圖
你最近在學的新領域、在追的議題、在弄的專案——隨便挑一個概念,叫它畫成「能一秒看懂的圖」。不用 prompt 寫得多漂亮,先感受「資訊變成圖」這件事的成本到底降到哪裡了。我自己第一次這樣用,發現比讀三份報告還快進腦。
實驗 C:跑一組八張的角色連載(限 Plus 以上)
開 Thinking Mode,挑一個角色——可以是你的 IP、你的 mascot、你公司吉祥物,甚至你自己。叫它畫八張不同場景的圖,每張角色都要一致。這以前是付費請插畫家才能做的事,現在你一個人一個下午搞得定。
不是要你變設計師、變插畫家。是讓你親手摸一次邊界,知道現在「一個人能做出來的視覺內容上限」拉到哪了。
12. 收尾
ChatGPT 圖像 2.0 對我來說的意義不是「畫圖變強了」這件事。
是**「人人都能擁有一位資深做圖師」這件事第一次成真**。
以前資深做圖師很貴,貴到大部分人這輩子不會擁有一位。所以大部分人的視覺輸出能力,停在「能用簡報軟體拼一張過得去的圖」。
現在這位做圖師包在 $20 的 ChatGPT Plus 裡,免費版也能用基本模式。配上 Canva 拆圖層的下游編輯,這條產線從草稿到成品完全打通。
「能畫出來的東西」 = 「能想出來的東西」這個等號,第一次成立。剩下的限制是你的想像力。
現在就去 ChatGPT 打一句 prompt 試試。不是看十段文字比較快,按一次送出比較快。
常見問題
Q:免費版能用嗎?跟付費版差多少?
A:免費版直接給你 Instant Mode,沒字數限制。畫質跟前代相比已經明顯升級,一般使用完全夠。Plus / Pro / Business 解鎖的是 Thinking Mode(跨多圖一致)跟整合網路搜尋(先找資料再生圖)。如果你只是偶爾配圖,免費版就夠;如果你要做連載內容、品牌素材組,Plus 划算。
Q:產出的圖能商用嗎?版權歸誰?
A:根據 OpenAI 條款,你產出的圖歸你,可以商用。但兩個提醒:一是不要叫它複製已知品牌或藝術家風格(那是侵權,跟模型本身無關);二是商業重要素材建議自己留紀錄(prompt + 產出日期),萬一有糾紛能舉證創作流程。
Q:跟 Canva 是什麼關係?要替代 Canva 嗎?
A:不是替代,是搭檔。ChatGPT 圖像 2.0 負責生圖、Canva 負責拆圖層精修。最佳工作流是 ChatGPT 出構圖完整的大圖 → Canva 拆層改文字/換物件/調版面 → 匯出。對一般人來說,這套組合的產出品質已經接近過去要請設計師才能做到的水準。
Q:中文支援度如何?
A:這代是中文使用者等了一年的更新。CJK 字形(中文、日文、韓文)渲染穩定,筆畫清晰、字形正確。過去切到 Nano Banana 補中文的兩段流程可以合併。但極端精準的長文(比如完整法律文件、密集表格)仍建議在後製階段用設計工具補上。
Q:手機可以用嗎?
A:可以。ChatGPT App 直接支援。但介面比較陽春,調 prompt 不順手,建議發想階段用手機、認真生圖用電腦。
Q:Thinking Mode 真的有差嗎?貴不貴?
A:Thinking 的價值場景就一條:跨多圖要一致時。單張圖用 Instant 就好,硬切 Thinking 是浪費時間。費用上 Thinking 會消耗較多 token,但對連載內容、IP 角色、品牌素材組來說,這成本遠遠值得——以前這類任務根本做不到。
延伸資源
- OpenAI 官方|Introducing ChatGPT Images 2.0(4/21 中文官方發布頁)
- YouMind GPT Image 2 提示詞集合(560+ 組社群結構化 prompt)
- GitHub|awesome-gpt-image-2-prompts(五大類 case,CC BY 4.0)
- Morphic|ChatGPT Images 2.0 Prompts 寫法拆解
- Code Gardan | 個實戰案例:GPT-Image-2 的典型玩法