Codex Goals:給它目標、它測完才停——OpenAI 最新功能完整實戰

Codex Goals:給它目標、它測完才停——OpenAI 最新功能完整實戰

Codex Goals:給它目標、它測完才停——OpenAI 最新功能完整實戰

過去你叫 Codex 做事,是這樣的:

「幫我寫一個登入頁。」→ Codex 寫完、給你 PR、

至於那個登入頁到底能不能用?密碼錯誤會不會顯示錯誤訊息?登入成功會不會跳轉?滾動會不會卡?——Codex 不會幫你測。你自己打開瀏覽器、自己點、自己發現一堆 bug、再回頭叫它修。

最近這條變了。OpenAI 的 Goals 功能從實驗模式正式上線——你不再給「任務」,你給「目標」。差別是:

  • 任務:寫完就停
  • 目標:達成才停

它會自己寫、自己跑、自己測、自己修——直到你給的目標真的被達成。中間不需要你催。配上 Computer Use 外掛,它甚至會自己開瀏覽器、自己點按鈕、自己驗證使用者旅程。

這篇我會講清楚:Goals 跟普通 Codex 任務差在哪、為什麼這個改變比看起來大、我自己用它跑出來的真實案例、以及一份你可以直接複製的 Goal prompt 範本。讓我們開始吧。

不只交付成品,是交付「達成」


1. Goals 是什麼?從實驗到正式版的轉折

Goals 是 Codex 桌面 App 裡新的執行模式。它不是「更強的 prompt」,是完全不同的執行邏輯

過去你跟 Codex 互動是「指令式」——你下一條指令、它做一件事、停。

Goals 是「目標式」——你描述「我想達成什麼樣的狀態」,Codex 自己拆任務、自己執行、自己驗證,只在「達成」或「完全做不到」時才停下來

這條最早是實驗功能、藏在 Codex App 設定的「Experiments」分頁裡。最近從實驗轉正式版、現在所有 Codex 用戶都能直接打開用

對照來看:

普通 Task Goals
你給的東西 指令(do X) 目標(reach state Y)
Codex 做的事 執行一次 執行 + 驗證 + 修正、循環
停下來的條件 寫完 目標達成(或徹底失敗)
你要做的 自己驗證 基本上不用
適合場景 單一動作 多步驟、需驗證的功能

2. 為什麼這條改變比看起來大

讀到這你可能會想「這不就是 agent 應該有的能力嗎?」——對,但實際做出來跟講得出來是兩件事。

過去半年所有 agent 工具都在喊「自主任務執行」、但真的試下去你會發現:

  • 它不知道什麼算「完成」——寫了一個 function 就回報「done」,但你 spec 裡的 edge case 它根本沒測
  • 它不會循環修錯——遇到 bug 它報給你、等你回應;不會自己跑測試發現問題、自己改
  • 它沒有清楚的 stopping criterion——你要它跑 5 個 iteration 還是 50 個?它自己也不知道

Goals 的價值在於把這三件事系統化解決

  1. 你在 goal 裡明確寫「達成條件」(acceptance criteria)——Codex 知道什麼算完成
  2. 內建驗證循環——它寫完就跑測試、跑不過就改、改完再測
  3. 達成條件清楚 = 自然有 stopping criterion——滿足條件就停

實質上:它把一個工程師「拿到任務 → 做完 → QA 通過 → 交付」的完整流程,變成 Codex 自己會跑的閉環


3. 我的真實使用情境:Goals + Computer Use = 自動開發 + 自動測試

理論講完,講我自己每天怎麼用。

Goals 單獨用已經很強。但配上 Computer Use 外掛——Codex 能操控你的 Mac、開瀏覽器、點按鈕、驗證 UI——這個組合變成「自動開發 + 自動 user journey 測試」的閉環

我的標準工作流是這樣:

Step 1:先裝好 Computer Use 外掛

在 Codex 桌面 App 的「外掛程式」分頁找到 Computer Use、啟用、授權 Mac 控制權限。(前篇 Codex 完整入門有完整截圖教學。)

Step 2:給 Codex 一個結構化的 Goal

不是「做一個登入頁」這種模糊指令。是這樣的結構:

【目標】做什麼產品 / 解決什麼問題
【需求】功能規格、技術限制
【使用者旅程】從使用者第一次接觸到完成核心動作的完整 flow
【驗證條件】開發完成後,請你用 Computer Use 跑完整個 user journey 做測試,
            全部通過才算達成。

關鍵在最後那行——「請你開發完畢後一定要用 Computer Use 針對整個使用者旅程做測試」

Step 3:放手讓它跑

按下執行、然後去做別的事。Codex 會:

  1. 讀你的 goal、拆成子任務
  2. 寫第一版 code
  3. 自己起本機 dev server
  4. 用 Computer Use 打開瀏覽器、跑使用者旅程
  5. 發現 bug → 自己改 → 再跑一次 user journey
  6. 重複直到整個 journey 跑得通

跑完它回報「達成」、附完整測試 evidence——截圖、log、覆蓋的 user journey 步驟。你打開直接驗收

Step 4:你只做最後審美與商業判斷

Codex 跑完,你的工作只剩兩件:

  • 看起來對嗎?品味、視覺、文案——這些 AI 還做不到的
  • 業務邏輯對嗎?「這個 flow 真的解決了我說的問題嗎」——這需要你的領域判斷

剩下的「寫程式 + 跑測試 + 修 bug + 再測」這個傳統開發循環,完全被 Codex 吞下去

Goals + Computer Use 閉環:寫 → 跑 → 發現 bug → 改 → 再測 → 達成才停


4. 完整 Goal Prompt 範本(可直接複製)

下面這份是我自己每次跑都會用的結構。複製、把 <> 換成你的內容、貼進 Codex

【目標】
我要做一個 <產品名稱>。它解決的問題是 <你想解決的痛點>。
核心使用者是 <誰>,他們會用這個產品做 <什麼>。

【需求】
- 技術棧:<例如 Next.js + Tailwind + Supabase>
- 必要功能:
  1. <功能 1>
  2. <功能 2>
  3. <功能 3>
- 風格要求:<極簡、Apple 風、商業感、復古...>
- 限制:<不要用 X library、避免 Y 模式...>

【使用者旅程(U1 → U5)】
U1. 使用者打開首頁、看到 <X>
U2. 使用者點 <某按鈕>、進入 <某頁>
U3. 使用者輸入 <某資料>、提交
U4. 系統處理、顯示 <某結果>
U5. 使用者完成核心動作、看到 <成功狀態>

【驗證條件 - 重要】
請你開發完畢後,一定要用 Computer Use 跑完整個使用者旅程做測試:
- 打開本機 dev server
- 依序執行 U1 到 U5 的每一步
- 每步驗證 UI 顯示符合預期
- 任何一步失敗就修、修完重新跑完整 journey
- 整個 journey 完整跑過、無 console error、視覺符合 spec、才算達成

【交付】
達成後請給我:
1. 完整 user journey 跑通的截圖證據
2. 重要架構決策說明
3. 知道但沒解決的限制(如果有)

寫好的 Goal 跟寫差的 Goal、跑出來的成品差 10 倍。重點不是長度——是「達成條件夠清楚、Codex 知道什麼時候該停」。


5. 3 個容易踩的坑

天下沒有完美工具。

坑 1:目標太模糊、Codex 永遠跑不完

做一個好用的 dashboard」——「好用」是什麼?什麼算完成?Codex 會無止盡迭代、改 UI、改字、永遠不停。

解法:把「好用」展開成具體的 user journey + 視覺 spec。「U3 提交表單後、3 秒內看到 toast 通知」 比「操作要順」可驗證 100 倍。

坑 2:忘了給 Computer Use 授權

Computer Use 第一次跑要授權 Mac 的「控制你的電腦」權限。Codex 如果沒拿到授權、它跑 user journey 那步會卡住、回報「無法操控瀏覽器」。

解法:第一次跑前先打開 Codex 桌面 App、確認 Computer Use 外掛「已連接」。

坑 3:複雜任務還是要拆

Goals 強的是「達成才停」的閉環。但它沒辦法把超複雜任務變簡單——「做一個 Notion」這種規模、Goals 也會翻車(前面 Codex 入門那篇有講過)。

解法:複雜任務先用 Plan Mode 拆成幾個 sub-goal,每個 sub-goal 分開派出去。Goals 是放大器、不是萬靈丹


6. 你今天就能做的事

不要把這篇收藏完就關掉。30 分鐘內做這 3 件事

  1. 打開 Codex 桌面 App 設定——看「Experiments」或主功能列裡是否有 Goals 模式。已經正式上線、應該直接看得到
  2. 裝好 Computer Use 外掛——5 分鐘、前篇 Codex 入門有完整教學
  3. 挑一個你今天想做但懶得寫的小工具——例如「我想要一個記錄每天運動量的小網頁」——用上面的 Goal 範本寫一份、貼進去執行、去喝杯咖啡

回來時你會看到一份寫完 + 測試通過 + 有 evidence的成果。

那個感受很爽。爽到你以後派任務給 Codex 都會用 Goals。


常見問題

Q:Goals 要付費嗎?

A:不要。它包在你已經付的 ChatGPT Plus / Pro / Business 訂閱裡——Codex 本身吃哪個 tier、Goals 就吃哪個 tier。邊際成本是 0

Q:Goals 用的 token 會比普通 task 多嗎?

A:會。因為它要跑 N 輪迭代直到達成、每輪都吃 token。Plus 用戶實測:複雜 Goal 可能跑 10-20 分鐘、用掉一個下午 ~5% 的 5 小時窗配額。對 Plus 用戶(基本不撞上限)來說可接受。

Q:Goals 跟 Claude Code 的 Ralph Loop 差在哪?

A:底層概念類似——「達成才停」。差別在 Ralph Loop 是 Anthropic 給工程師的設計模式(要自己寫 bash 配 progress.md),Goals 是 OpenAI 把這個概念做成 UI 內建模式——你不用寫 code、直接在桌面 App 描述目標就跑。

Q:失敗了會怎樣?

A:Codex 在嘗試 N 輪後判斷「真的做不到」會回報失敗 + 卡關理由(例如「無法操控某個 element / 第三方 API 持續報錯 / spec 內部矛盾」)。它不會無止盡跑下去燒你 token

Q:可以叫 Goals 寫超複雜系統嗎?

A:可以但有 ceiling。超過 3000-5000 行 code 規模的系統建議先用 Plan Mode 拆 sub-goal。Goals 是好的「閉環機制」、不能取代你的系統設計

Q:跟普通 Task 模式差在哪?

A:普通 Task 是「寫 → 停」、Goals 是「寫 → 測 → 改 → 測 → ... → 達成」。對「我要可用的成品、不要 PR 等我自己測」的場景、Goals 完勝。


延伸資源