最新 AI 應用攻略

人人都能擁有一位資深做圖、P 圖大師——ChatGPT 圖像 2.0 完整入門

Ray 貓

23 May 2026 • 21 min read

設計師很貴。一位資深設計師更貴——貴到大部分人這輩子都不會擁有一位。

現在這位資深設計師就住在你的 ChatGPT 裡，三分鐘畫完過去要三天才能做完的圖。而且如果你 Canva 也有訂閱，這張圖還不再是死的——你可以拆開來繼續編輯，像在跟一位真人做圖師合作。

來跟大家分享 ChatGPT 圖像 2.0 到底是什麼、它跟以前差在哪、八種職業可以怎麼用，以及一個不錯的工作流結合。

讓我們開始吧。

住在 ChatGPT 對話框裡的資深做圖大師，三分鐘交出一張完成的圖

1. 「資深做圖大師」是什麼意思？

先把話講清楚：ChatGPT 圖像 2.0 不是來取代設計師的。它是另一種職業。

	Figma / Photoshop 設計師	ChatGPT 圖像 2.0
工作方式	從零做、像素級控制、自己排版	你描述，他畫
適合場景	品牌系統、產品介面、深度精修	草稿、提案、配圖、海報初稿、商品場景
時間	一張海報三天	一張海報三分鐘
成本	月薪 5–20 萬請一位	包在你 $20 的 ChatGPT Plus 裡

設計師像「會操作 Figma 的人」；ChatGPT 圖像 2.0 像「一位你描述需求他就能交出成品的資深做圖師」。兩個是合作關係不是競爭。

差別在哪？你以前要請設計師才能做出來的圖，現在可以自己一個人做完。 不是說以後不用設計師了——而是過去你連門檻都跨不過去的事，現在能跨進去了。

它具備極強的文字邏輯理解能力。我自己實測下來幾個重點：

講得出來，它就畫得出來——你描述得越具體，他越能精確還原
成品精確、強大，有時直接驚豔
要求創新時也能跳脫想像——不是只會給你「安全版本」的工具

我會稱它為大師而不是助手，是因為它的成品真的能用，不是「AI 味很重那種尷尬產出」。這是個邊界轉變：圖像生成從「能看但不能用」進化到「能直接交差」。

ChatGPT Image 繪圖展示

2. 它跟以前差在哪？五大跳躍

對照過去的 AI 繪圖，這次不是小修小補，是五個方向的跳躍：

跳躍 1：字終於寫對了

以前 AI 繪圖基本上完全無法寫出正確的人類文字。

這代不只能能畫出密集排版的學術海報、能畫出每根針都對時的時鐘、能畫出整頁文字全對的落地頁。對你的意義：以前生圖完還要進 Photoshop 把字一個個修正，現在這道工序直接砍掉。

底下這張圖是 ChatGPT “繪製”出來的！當然，你可以叫他製作中文圖片也是完全沒問題。
這個是 ChatGPT 繪製複雜的資訊圖

跳躍 2：白終於是白，黑終於是黑

用過前代的人都會記得這個體感——它輸出的圖總是帶一層奶油色。白牆不是真的白、白襯衫泛黃、產品照拍出來像加了暖光濾鏡。對純粹試玩沒差，但凡是要做商業用途的圖，都得拉進修圖軟體校色。

這代直接修掉了。色彩中性、乾淨，該白就白、該黑就黑。電商商品圖、品牌素材、產品攝影直接省掉校色工序。

跳躍 3：解析度拉到 2000 寬，而且可以批次出 10 張

前代寬度只到 1536 px，而且一次只吐一張。這代寬度拉到 2000 px，更實用的升級是一個 prompt 可以一次給你 10 張版型一致、構圖變化的成品。

跑廣告 A/B 測試、電商 SKU 批量、IG 輪播這類「同一個調性多個變體」的場景特別舒服。以前要送 10 次 prompt 等 10 次，現在一次到位。

跳躍 4：中文不再亂碼

這對中文市場是最重要的一條。

以前你用 OpenAI 生圖，只要句子裡有中文，跑出來大概率是斷掉的筆畫、錯位的部首、自己發明的怪字。這個痛點逼出一條台灣設計圈很常見的兩段式工作流：OpenAI 出主體 → 切到 Google 的 Nano Banana 補中文 → Photoshop 拼。

這代把中文、日文、韓文、印地文、孟加拉文這些非拉丁語系全部認真處理過。筆畫穩定、字形不再亂猜。兩段式工作流終於可以縮回一段。

跳躍 5：Thinking Mode——圖像模型也學會了「想一下再動筆」

文字模型早就有 reasoning，但圖像模型一直都是「你按下送出，他直接畫」。這代把 reasoning 帶進來了，多了一個新模式：

Instant Mode：預設，按了就畫。免費用戶就有
Thinking Mode：付費用戶獨享，會先規劃版面、角色設定、光線邏輯，再逐張生圖

Thinking Mode 真正解的痛點是跨多張圖的一致性。畫漫畫分鏡、IP 角色連載、品牌素材組——以前最大的失敗模式就是「同一個角色第二張就變另一個人」。現在可以在一個對話裡產出整組畫面，角色臉型、服裝、光線都對得起來。

對漫畫、Vtuber、IP 經營者、品牌人設來說，這條解鎖的是一整個過去做不到的內容類型。

五大跳躍：字終於對、白終於白、2K 批次、中文不亂碼、Thinking Mode

3. Instant 還是 Thinking？一段話講完

	Instant Mode	Thinking Mode
速度	快（10–20 秒）	慢（30 秒–2 分鐘）
適合	單張圖、創意發想、海報、商品圖	連載內容、跨多圖角色一致、複雜版面
誰能用	免費 + 付費	Plus / Pro / Business 才有

簡單判斷：單張圖 → Instant；連續多張要角色一致 → Thinking。

預設先 Instant，發現走樣再切 Thinking。不要一開始就 Thinking，會慢、會貴、會等到不耐煩。

4. 八種職業可以怎麼用

來到最實際的部分。我把它拆成八種職業——你大概會在其中一兩個位置看到自己。

設計師：草圖發想、多版本提案、快速補位

這不是要取代你，而是讓你的前期發想速度翻十倍。客戶說「我想要一張有溫度又有科技感的網站主視覺」，以前你得先消化、找圖做情緒板，熬出兩三版才能跟客戶對焦。現在，輸入幾句提示詞，直接生出五個版本讓客戶挑方向，你再進 Figma 把選中的那版做到正式完稿。

如果開啟「思考模式（Thinking Mode）」，還能解決一個更致命的問題：在設計整套品牌視覺資產時，確保所有素材的調性與風格不跑偏。

廣告設計師 / 行銷：一句話生整組 IG 輪播圖

只需要打一句「介紹一下 ChatGPT 圖像 2.0」，以及送出一張參考圖片、風格
一組可以給到 60 分的廣告圖就出來了

以專業標準來看或許只有 60 分及格，但重點在於「一句話就能拿到 60 分」。如果認真寫好需求、微調指令，能做到什麼程度不言而喻。對於需要頻繁做廣告 A/B 測試的人來說，「用一句指令產出 10 張版型一致但構圖不同的素材」，等於直接把製圖成本壓縮到極限。

工程師：把整坨程式碼變成一看就懂的架構圖

這是工程師最容易低估、外行人又完全看不懂的金礦。

過去接手一個陌生的開源專案，你得把程式碼抓下來、慢慢追蹤函式的呼叫流程、手畫心智圖，搞個兩天才能摸透。

現在，打開 Codex，叫他分析整個專案並用 image_gen 工具繪製為流程圖
讀懂一份專案的時間，直接從兩天濃縮成兩小時。

自媒體 / Threads 經營者：高轉換封面、社群配圖

你再也不用每次都開 Canva 辛苦拼貼。部落格文章封面、Threads 爆款配圖、IG 圖文、YouTube 影片縮圖——一句提示詞，換一張成品。

我自己平時經營 Threads，過去最常卡在「今天有點子，但實在沒時間做圖」，現在這個發文阻礙已經徹底消失。

講師 / 線上課程：教材插圖、抽象概念視覺化

講授抽象的系統概念時，最怕學生只看到滿滿的文字。以前你得花錢請人畫教材插圖，或是自己土法煉鋼用簡報軟體慢慢拉圖形。

現在，只要把你想解釋的概念寫成提示詞——一張精準的圖表，就能讓學生瞬間秒懂你原本要講十分鐘的課。

電商賣家：商品情境圖、大量款式替換、中文促銷海報

以前賣東西只能老老實實拍實境照。現在你可以把同一個商品，放進 10 種不同的生活情境裡，全部用同一組指令變化出來：客廳、戶外、辦公桌、廚房、車內，一次搞定。

加上這代全面解鎖了中文渲染能力，以前做中文促銷海報還要換別的軟體去補字，現在 ChatGPT 一次幫你連字帶圖完整出貨。

中小企業老闆：商標草圖、招牌、菜單、名片

產出的東西不一定要當作最終定案，但「先弄出一個能拿給別人看的草圖」這件事，成本已經逼近於零。

未來跟設計團隊溝通會輕鬆五倍，因為你不再需要用嘴巴乾描述模糊的感覺，而是可以直接拿著一張八九不離十的參考圖去開會。

漫畫家 / 創作者：角色多場景連載

這是「思考模式」真正的殺手級應用。

以前做角色設定、分鏡或周邊商品，最痛的點就是「第二張圖的角色長得跟第一張完全不一樣」。現在開啟思考模式後，可以在同一個對話中，產出跨越多張圖的連貫敘事：角色的臉型外貌、光影邏輯、場景風格全都能保持高度一致。

對於漫畫家、Vtuber、角色創作者或品牌經營者來說，這等於直接解鎖了一整個過去根本做不到的內容產線。

八種職業圖鑑：設計師、廣告、工程師、自媒體、講師、電商、老闆、漫畫家

5. 真正的主軸：把一切變成圖，加速理解

跳出職業清單，往上抽一層。

ChatGPT 圖像 2.0 真正改變的是一件事：「把資訊變成圖」這件事的成本，從幾天壓到幾分鐘。

以前資訊變圖很貴，所以大部分東西就停留在文字。報告是文字、SOP 是文字、會議記錄是文字、員工任務是文字。我們明知道圖比文字快十倍進腦，但我們做不出來、做出來也很醜。

現在不一樣了：

對老闆來說：你可以一瞬間看到公司整體發展。把所有專案、員工、進度、KPI 丟給 AI，他生出一張「公司全景圖」——比看 10 份報表快。要看哪個團隊在做什麼？再生一張。要看哪個產品的流量漏斗？再生一張。「整體感」這個過去最難視覺化的東西，現在能秒得到。

對設計師來說：客戶在會議室講需求講了半小時，你以前要回家沉澱再來提案。現在你當場把他的需求丟給 ChatGPT 變成知識圖解，客戶看著圖跟你對焦——而不是看著空氣。提案速度、修改速度、共識成本全部下降。

對工程師來說：上面講過的 codebase 視覺化。看一個陌生專案從兩天壓到兩小時。

對任何知識工作者來說：你正在學一個新領域、讀一本書、研究一個議題——把你正在理解的東西丟給 AI 變成圖，你的理解速度會直接加倍。

這不是「多了一個工具」這麼簡單。這是「圖」這個媒介的成本被壓到接近零之後，每個人腦袋裡能容納的東西會多一個數量級。

文字到圖：清晰的知識結構從雜亂文字中浮現

6. 額外分享：Canva 拆圖層的下游工作流

這條是 ChatGPT 圖像 2.0 之外的延伸，但我覺得很直得一提——因為它改變了整個下游編輯流程。

過去 AI 生圖最大的限制不是品質，是生完就死掉。一張 PNG 攤在那裡，要改個字、要換個物件、要動個版面，都得重生整張（然後其他細節又會走樣）。

Canva 最近上線了一個功能：你可以把 AI 生的圖丟進去，系統會自動拆解圖層。文字一層、圖片一層、背景一層。每一層都可以單獨編輯。

我親自試過，效果出乎意料地好。

這意味著什麼？ 你的工作流變成這樣：

ChatGPT 圖像 2.0 出大圖（架構、構圖、整體調性都對）
   ↓
Canva 拆圖層
   ↓
你改文字、換物件、調版面（不影響其他細節）
   ↓
匯出，上架

這條流程完全繞過 Photoshop。對沒有設計背景的人來說，門檻被打到地板。

設計師也別覺得這威脅你——你大量的時間其實花在客戶反覆改文字、換配色、調圖文比例這些瑣事。這條流程把那些瑣事交給客戶自己改，你專心做真的需要設計判斷的事。

Canva 拆圖層工作流：出圖 → 拆層 → 編輯

7. 怎麼開始？免費版就能用

好消息：不用準備、不用申請、不用付錢，現在就能用。

你的方案	你拿到什麼
ChatGPT 免費	Instant Mode、沒字數限制
ChatGPT Plus / Pro / Business	Instant + Thinking + 整合網路搜尋（先找資料再生圖）
開發者 API	兩種模式都開放、`gpt-image-2` 端點與前代相容

最快路徑：打開 ChatGPT，直接打一個 prompt 試試看。不用看十段教學，按一次送出比較快。

API 定價改採 token 計算（跟文字 API 同邏輯）：

輸入文字 token：$5 / M
輸出文字 token：$10 / M
輸入圖像 token：$8 / M
輸出圖像 token：$30 / M

一張 1024×1024 的 Instant 圖大約 $0.03–0.05。批次生 10 張不會破產，跑廣告素材矩陣的人會感覺很合理。

還有一個截止點要記住：DALL·E 的 API 將在 5/12 永久關閉。如果你的 App、工具、自動化流程還有依賴 dall-e-3 或 dall-e-2，在那之前要遷移到 gpt-image-2。

8. Prompt 三大分享社群提示詞參考

你不用從零學。社群已經把好用的 prompt 全整理好了。三個我會推薦：

YouMind 的 GPT Image 2 提示詞集合：560+ 組 X 社群上傳的結構化提示詞。從產品海報、UI 設計系統、美食地圖到廣告橫幅都有。它的核心是用 JSON 把版面拆成 type / style / layout / sections 欄位，再用 {argument name="..." default="..."} 語法包裝可替換變數——同一個模板能換題材重複產出。

GitHub 上的 awesome-gpt-image-2-prompts（EvoLinkAI 維護）：CC BY 4.0 授權、375+ 星、11 種語言 README（含繁體中文）。跟 YouMind 最大的差別是它依類別分章，而且完整附原始 prompt 與作者連結，對要逐句學寫法的人特別友善。分五大類：肖像攝影、海報插畫、角色設計、UI 樣機、比較與社群實驗（這類專門收集對 Nano Banana 的對戰實測）。

Morphic 的 how-to 文章（morphic.com/resources/how-to/chatgpt-images-2.0-prompts）：實戰 prompt 寫法的拆解，配範例。

怎麼用這些庫？ 不要從零寫 prompt。先去找一個結構接近你要的範例，複製過來、把關鍵詞換成你的場景。這跟工程師抄 Stack Overflow 同理——抄結構，改內容。

9. 跟 Nano Banana Pro 怎麼選？

這不再是「誰最強」的單一比較，是「根據任務挑模型」的多元市場。OpenAI 一家獨大的時代沒回來；目前是 OpenAI 跟 Google 各擅一塊的局面。

任務	推薦模型
文字密集、中文海報、UI 樣機、產品圖、世界知識相關	ChatGPT 圖像 2.0
信息圖、出版級長文排版、多欄雜誌風格	Nano Banana Pro（仍 LM Arena 第一）
極大批量（數百張 SKU）、追求成本與速度	Nano Banana 2（輕量版、API 便宜）

簡單版的選法：

一般人、自媒體、行銷 → ChatGPT 圖像 2.0（已經包在你 Plus 裡，不用多付）
要做雜誌風 infographic → Nano Banana Pro
跑電商商品圖批量幾百張 → Nano Banana 2

專業用戶通常三個都裝，看任務派人。

10. 看完這篇，今天就動手的三個小實驗

不要把這篇收藏完就關掉。挑一個你今天就能做的小實驗——15 分鐘以內、不用準備。

實驗 A：把一個你以前做失敗的中文 prompt 重新丟一次

如果你曾經因為「OpenAI 中文會壞」放棄過某張海報、某張封面、某張產品圖，今天把同一個 prompt 原封不動再丟一次。你會看到差距有多大。這比看十段升級說明都直觀。

實驗 B：把你最近想搞懂的一件事丟給它畫成圖

你最近在學的新領域、在追的議題、在弄的專案——隨便挑一個概念，叫它畫成「能一秒看懂的圖」。不用 prompt 寫得多漂亮，先感受「資訊變成圖」這件事的成本到底降到哪裡了。我自己第一次這樣用，發現比讀三份報告還快進腦。

實驗 C：跑一組八張的角色連載（限 Plus 以上）

開 Thinking Mode，挑一個角色——可以是你的 IP、你的 mascot、你公司吉祥物，甚至你自己。叫它畫八張不同場景的圖，每張角色都要一致。這以前是付費請插畫家才能做的事，現在你一個人一個下午搞得定。

不是要你變設計師、變插畫家。是讓你親手摸一次邊界，知道現在「一個人能做出來的視覺內容上限」拉到哪了。

11. 收尾

ChatGPT 圖像 2.0 對我來說的意義不是「畫圖變強了」這件事。

是**「人人都能擁有一位資深做圖師」這件事第一次成真**。

以前資深做圖師很貴，貴到大部分人這輩子不會擁有一位。所以大部分人的視覺輸出能力，停在「能用簡報軟體拼一張過得去的圖」。

現在這位做圖師包在 $20 的 ChatGPT Plus 裡，免費版也能用基本模式。配上 Canva 拆圖層的下游編輯，這條產線從草稿到成品完全打通。

「能畫出來的東西」 = 「能想出來的東西」這個等號，第一次成立。剩下的限制是你的想像力。

現在就去 ChatGPT 打一句 prompt 試試。不是看十段文字比較快，按一次送出比較快。

常見問題

Q：免費版能用嗎？跟付費版差多少？

A：免費版直接給你 Instant Mode，沒字數限制。畫質跟前代相比已經明顯升級，一般使用完全夠。Plus / Pro / Business 解鎖的是 Thinking Mode（跨多圖一致）跟整合網路搜尋（先找資料再生圖）。如果你只是偶爾配圖，免費版就夠；如果你要做連載內容、品牌素材組，Plus 划算。

Q：產出的圖能商用嗎？版權歸誰？

A：根據 OpenAI 條款，你產出的圖歸你，可以商用。但兩個提醒：一是不要叫它複製已知品牌或藝術家風格（那是侵權，跟模型本身無關）；二是商業重要素材建議自己留紀錄（prompt + 產出日期），萬一有糾紛能舉證創作流程。

Q：跟 Canva 是什麼關係？要替代 Canva 嗎？

A：不是替代，是搭檔。ChatGPT 圖像 2.0 負責生圖、Canva 負責拆圖層精修。最佳工作流是 ChatGPT 出構圖完整的大圖 → Canva 拆層改文字/換物件/調版面 → 匯出。對一般人來說，這套組合的產出品質已經接近過去要請設計師才能做到的水準。

Q：中文支援度如何？

A：這代是中文使用者等了一年的更新。CJK 字形（中文、日文、韓文）渲染穩定，筆畫清晰、字形正確。過去切到 Nano Banana 補中文的兩段流程可以合併。但極端精準的長文（比如完整法律文件、密集表格）仍建議在後製階段用設計工具補上。

Q：手機可以用嗎？

A：可以。ChatGPT App 直接支援。但介面比較陽春，調 prompt 不順手，建議發想階段用手機、認真生圖用電腦。

Q：Thinking Mode 真的有差嗎？貴不貴？

A：Thinking 的價值場景就一條：跨多圖要一致時。單張圖用 Instant 就好，硬切 Thinking 是浪費時間。費用上 Thinking 會消耗較多 token，但對連載內容、IP 角色、品牌素材組來說，這成本遠遠值得——以前這類任務根本做不到。

延伸資源

OpenAI 官方｜Introducing ChatGPT Images 2.0（4/21 中文官方發布頁）
YouMind GPT Image 2 提示詞集合（560+ 組社群結構化 prompt）
GitHub｜awesome-gpt-image-2-prompts（五大類 case，CC BY 4.0）
Morphic｜ChatGPT Images 2.0 Prompts 寫法拆解
Code Gardan | 個實戰案例：GPT-Image-2 的典型玩法