Cursor Composer 2.5 用十分之一價錢追平 Opus 4.7 與 GPT-5.5——原因是一個中國開源權重模型

2026 年 5 月 18 日，Cursor 釋出 Composer 2.5，安靜地把 AI 寫程式的經濟學重寫了一遍。檯面上的數字——SWE-Bench Multilingual 79.8%、CursorBench v3.1 63.2%、與 Anthropic Claude Opus 4.7 與 OpenAI GPT-5.5 並列——不是這次釋出最重要的地方。最重要的是「每個任務的成本」與「底層權重來自哪裡」。Composer 2.5 的 API 成本約是它追平的前沿模型的 1/10，因為它是基於 Moonshot 開源的 Kimi K2.5 checkpoint 微調，而不是從零訓練的閉源模型。

如果你經營一個小工程團隊——五人、十人、三十人接案工作室——這是第一次「接近前沿」的編碼代理可以放進中小企業預算而不需要妥協。但同時，它帶來一組你 90 天前還不必問的問題。

一、「追平 Opus 4.7 與 GPT-5.5」實務上到底是什麼意思

Benchmark 壓縮了現實。SWE-Bench Multilingual 測的是「模型能不能讀完一個真實 GitHub issue、看懂整個 repo、提出能通過原 test suite 的 patch」。79.8% 翻成白話是：「五個真實 bug 裡有四個，從頭到尾不需要人類介入。」一年前最強的前沿模型大約只有 30 出頭。Composer 2.5 不是魔法——它仍然會幻覺 API、過度工程化、有時候對一行 fix 寫出 400 行重構——但它跨過了一個門檻：在真實 codebase 上是「一個真實隊友」，而不是「華麗版 autocomplete」。

二、定價才是這次的新聞

Composer 2.5 標準價是每百萬輸入 token US$0.50、輸出 US$2.50。IDE 預設的 Fast 模式是 US$3.00 / US$15.00。對照 Opus 4.7 API list price 約 US$15 / US$75、GPT-5.5 約 US$10 / US$50——數學沒得辯：在持續工作量下，Composer 2.5 比表現相當的前沿模型便宜 5 到 30 倍。

對一個五人團隊跑重度 agentic workflow 來說，這是每月 US$4,500 跟 US$400 的差別。是「每位 junior 都配一位 24 小時 senior AI pair」與「AI 額度像辦公室零食一樣配給」的差別。

三、Kimi K2.5 這個提問

Composer 2.5 與 Composer 2 同樣建立在 Moonshot 開源的 Kimi K2.5 checkpoint 之上。Moonshot 是北京的 AI 實驗室，Kimi K2.5 是開放授權的權重。Cursor 在上面做了大量後訓練：合成 RL 任務量是 Composer 2 的 25 倍、targeted 文字回饋、effort budget 校準。

如果你在受監管產業（醫療、金融、國防供應鏈），你的合規同事一定會問三個問題：（一）模型本身會不會看到客戶資料、還是只看 metadata？（二）推論實際在哪裡跑？（三）base checkpoint 在某種我們在意的層次上是否可能被污染？Cursor 對（一）與（二）的回答——Privacy Mode 不把你的 code 拿去訓練、推論在他們的雲——沒變。（三）比較難，因為沒有人能完整 audit 一個 trillion 參數的 base model。誠實版本是：如果你的威脅模型包含國家級供應鏈污染，開放權重 base 會擴大你的稽核面；如果你的威脅模型是「我們只是要寫程式時不要外洩 IP」，這已經夠用。

四、Composer 2.5 證實的是更大的市場轉變

這次釋出是更大格局的一塊拼圖。GitHub Copilot 的付費 AI 寫程式座位佔比過去一年從 67% 掉到 51%。Cursor 達到 ARR US$2B。Claude Code 成長 6 倍。GitHub 公告 Copilot Pro 與 Pro+ 自 2026/6/1 起改成 usage-based 計費——這是「吃到飽訂閱在這個算力成本下無法存活」的婉轉承認。微軟內部則把工程師從 Claude Code 遷到 Copilot CLI，6/30 前完成，這背後的政治足以單獨開一篇。

對中小企業的啟示：成本曲線翻轉了。AI 寫程式從「我們只負擔得起 senior 的生產力工具」變成「實習生的預設工作環境」。如果你沒讓團隊用 Composer 等級工具，你在搶人才的對手已經在用。

五、這週值得做的三個 workflow 調整

把長時間重構、遷移類工作從 senior 的 inbox 搬進 Composer 2.5 的背景任務。模型現在在持續性任務上夠穩了（這是 Composer 2 → 2.5 最明確的改進），「請 Composer 把 auth 模組整晚遷到新 pattern」是現在真的能做的事。

在 CI 加一道閘門：任何 PR 含超過 X 行 AI 產出程式碼，必須再過第二位人類 reviewer，不管作者是誰。AI 寫的 code 「看起來合理」的頻率，遠高於「實際正確」的頻率。閘門是便宜保險。

重編預算。如果你還在以每席 US$19 訂閱 Copilot Business，認真比較一下 Cursor + Composer 2.5 是不是讓你的團隊每塊錢產出更多。2026 年 5 月，多數產品工程團隊答案是肯定；對重合規或主要在 github.com（Issues、Actions、PR）裡工作的團隊，Copilot 的平台整合仍有真實價值。

我的觀點

六個月前我會說：「前沿級 AI 寫程式是護城河，只有願意花 100 億美元的實驗室能做。」Composer 2.5 推翻了這個假設，而且是用一個非常具體的方式：用開源權重 base 加上快速迭代的產品團隊微調，就能用前沿成本的 1/10 追平閉源前沿。任何經營開發 shop 的人能拿到的結構性教訓是：這一季你 standardize 的 AI 工具，到 Q4 就會過時。把團隊流程設計成「換 model 是 config 改動，不是制度危機」——prompt 進版控、eval 進版控、把 model 當成你 stack 裡最可替換的零件。因為 2026 年它就是。