AI 與自動化

GPT-5.5 對上 Claude Opus 4.7:5 月份這場「Agentic Coding 王座戰」對外包工程師的真實意義

2026.05.18 · 33 次瀏覽
GPT-5.5 對上 Claude Opus 4.7:5 月份這場「Agentic Coding 王座戰」對外包工程師的真實意義

兩家頂級模型把 SWE-bench Pro 從 53% 推到 64% 之後,你的開發流程裡哪些事情可以正式 outsource 給 AI,哪些還不行

過去三十天,AI coding 圈發生了兩件大事。4 月 16 日,Anthropic 發表 Claude Opus 4.7,把 SWE-bench Pro 從原本的 53.4% 一口氣推到 64.3%,重新拿回 coding 王座。一個禮拜後的 4 月 23 日,OpenAI 反擊,發表 GPT-5.5,主打「最聰明、最直覺、最 agentic 的模型」,在自主完成任務、跨工具操作、長時間工作這幾項上明顯超越 GPT-5.4 與 Opus 4.7。


於是,5 月份整個 AI coding 圈的對話從「哪個模型寫程式比較準」變成「哪個模型可以真的自己跑完一個 Jira ticket」。對接案、外包、in-house 小團隊來說,這條線的移動會直接改變我們每天的工作分配方式。


一、SWE-bench Pro 64.3% 是什麼意思


SWE-bench Pro 是業界目前最嚴格的「真實 GitHub Issue 解決能力」指標——把真實開源專案的 issue 給模型,看它能不能自己讀 codebase、自己寫 patch、自己跑測試、自己驗證。Opus 4.7 拿到 64.3% 代表:


  • 中等難度的 bug fix(單檔案、單元測試已存在),模型自己跑完不需要人工介入的成功率超過七成。
  • 跨檔案、跨模組的 refactor,成功率落在五成附近——還不能 fire-and-forget,但 review 比手寫快很多。
  • 加新 feature(要寫測試、要動 schema、要改 migration),成功率約三到四成——這一塊還是工程師的主場。

GPT-5.5 在 SWE-bench 上的數字接近,但在「跨工具操作」這一塊更強:自動開 PR、自動跑 CI、自動回覆 reviewer comment、自動修 lint。OpenAI 自家的測試是「給一個 Linear ticket,全自動跑到 PR merge」。


二、5 月份「可以正式外包給 AI」的工作清單


根據實際在生產環境跑這兩支模型一個月的工程主管們的回報,下面這些任務現在可以放心交給 AI agent,工程師只負責 review:


  1. 單元測試生成:給一個 class,產 80% coverage 的 unit test,連 edge case 都會列。
  2. API client SDK 包:給 OpenAPI spec,產 PHP / Dart / TypeScript client。
  3. Laravel migration 與 seeder:給 schema 描述,產 migration、factory、seeder,整套到位。
  4. Flutter UI 元件骨架:給設計稿截圖加幾句敘述,產 widget 樹(不含複雜業務邏輯)。
  5. 錯誤訊息 i18n:給 zh-TW 字串,全自動產 en、ja、ko、zh-CN 翻譯與對應 key。
  6. 舊版 deprecated API 升級:例如 Laravel 11 → 13、Flutter 3.27 → 3.41 的 API 替換。
  7. PR description 與 changelog 自動生成:從 commit history 推回 PR 描述、release note。

三、5 月份「還不能外包給 AI」的工作清單


下面這些,agent 可以幫你「加速」,但還不能讓它「替你下決定」:


  1. 資料庫 schema 設計:模型很會生 SQL,但不會問「這個業務場景真的需要 normalize 到 3NF 嗎」。
  2. 權限模型設計:RBAC、ABAC、tenant isolation 一旦做錯,後面改要動全棧。
  3. 金流串接:邊界條件太多(部分退款、訂閱降級、跨幣別、3DS 失敗),任何幻覺都會直接變客訴。
  4. 效能調校:模型可以幫你看 EXPLAIN,但「這條 query 該加索引還是改架構」要人判斷。
  5. 資安決策:CSP 設定、CORS 政策、JWT vs session 的取捨,AI 給的答案常常「技術正確但業務錯誤」。

四、新的工作流:AI-first,但 human-checkpoint 不能省


我們觀察到一個共通模式:成功用 agent 提升 2-3 倍產能的團隊,工作流大概長這樣:


  1. 工程主管寫 ticket——比過去更明確、更具體,包含 acceptance criteria 與 schema 影響範圍。
  2. AI agent 接 ticket——自動 branch、自動實作、自動寫測試、自動開 PR。
  3. 人類 reviewer 把守 3 個 checkpoint

  • schema/migration 是否合理(不只是能跑)
  • 權限與資安邊界是否被破壞
  • 效能 regression(query 數、payload 大小、bundle size)

平均一張票從接到 ready-for-review,時間從 4-8 小時壓到 30-60 分鐘。工程師的工作從「寫」變成「定義 + 把關」。


我的觀點


「AI 會不會搶工程師飯碗」這個問題在 2026 年已經沒有意義了。新的問題是:「你願不願意花一個月把你的 ticket、你的 PR template、你的 CI pipeline、你的 review checklist 全部重寫成 AI-friendly 的格式?」


不願意的團隊,會繼續用 2024 年的速度開發;願意的團隊,會在同樣的人力下接到兩倍的案子。差距會在今年下半年拉開到無法忽視。


選 GPT-5.5 還是 Claude Opus 4.7?我的實務建議:寫程式碼本身用 Opus 4.7,跑 agent workflow(跨工具、長任務、自動 PR)用 GPT-5.5,兩個都要。月費加起來不超過一個初級工程師一天的薪水。


資料來源


AI 與自動化 返回文章列表