2026 年 5 月 18 日,Cursor 釋出 Composer 2.5,安靜地把 AI 寫程式的經濟學重寫了一遍。檯面上的數字——SWE-Bench Multilingual 79.8%、CursorBench v3.1 63.2%、與 Anthropic Claude Opus 4.7 與 OpenAI GPT-5.5 並列——不是這次釋出最重要的地方。最重要的是「每個任務的成本」與「底層權重來自哪裡」。Composer 2.5 的 API 成本約是它追平的前沿模型的 1/10,因為它是基於 Moonshot 開源的 Kimi K2.5 checkpoint 微調,而不是從零訓練的閉源模型。
如果你經營一個小工程團隊——五人、十人、三十人接案工作室——這是第一次「接近前沿」的編碼代理可以放進中小企業預算而不需要妥協。但同時,它帶來一組你 90 天前還不必問的問題。
一、「追平 Opus 4.7 與 GPT-5.5」實務上到底是什麼意思
Benchmark 壓縮了現實。SWE-Bench Multilingual 測的是「模型能不能讀完一個真實 GitHub issue、看懂整個 repo、提出能通過原 test suite 的 patch」。79.8% 翻成白話是:「五個真實 bug 裡有四個,從頭到尾不需要人類介入。」一年前最強的前沿模型大約只有 30 出頭。Composer 2.5 不是魔法——它仍然會幻覺 API、過度工程化、有時候對一行 fix 寫出 400 行重構——但它跨過了一個門檻:在真實 codebase 上是「一個真實隊友」,而不是「華麗版 autocomplete」。
二、定價才是這次的新聞
Composer 2.5 標準價是每百萬輸入 token US$0.50、輸出 US$2.50。IDE 預設的 Fast 模式是 US$3.00 / US$15.00。對照 Opus 4.7 API list price 約 US$15 / US$75、GPT-5.5 約 US$10 / US$50——數學沒得辯:在持續工作量下,Composer 2.5 比表現相當的前沿模型便宜 5 到 30 倍。
對一個五人團隊跑重度 agentic workflow 來說,這是每月 US$4,500 跟 US$400 的差別。是「每位 junior 都配一位 24 小時 senior AI pair」與「AI 額度像辦公室零食一樣配給」的差別。
三、Kimi K2.5 這個提問
Composer 2.5 與 Composer 2 同樣建立在 Moonshot 開源的 Kimi K2.5 checkpoint 之上。Moonshot 是北京的 AI 實驗室,Kimi K2.5 是開放授權的權重。Cursor 在上面做了大量後訓練:合成 RL 任務量是 Composer 2 的 25 倍、targeted 文字回饋、effort budget 校準。
如果你在受監管產業(醫療、金融、國防供應鏈),你的合規同事一定會問三個問題:(一)模型本身會不會看到客戶資料、還是只看 metadata?(二)推論實際在哪裡跑?(三)base checkpoint 在某種我們在意的層次上是否可能被污染?Cursor 對(一)與(二)的回答——Privacy Mode 不把你的 code 拿去訓練、推論在他們的雲——沒變。(三)比較難,因為沒有人能完整 audit 一個 trillion 參數的 base model。誠實版本是:如果你的威脅模型包含國家級供應鏈污染,開放權重 base 會擴大你的稽核面;如果你的威脅模型是「我們只是要寫程式時不要外洩 IP」,這已經夠用。
四、Composer 2.5 證實的是更大的市場轉變
這次釋出是更大格局的一塊拼圖。GitHub Copilot 的付費 AI 寫程式座位佔比過去一年從 67% 掉到 51%。Cursor 達到 ARR US$2B。Claude Code 成長 6 倍。GitHub 公告 Copilot Pro 與 Pro+ 自 2026/6/1 起改成 usage-based 計費——這是「吃到飽訂閱在這個算力成本下無法存活」的婉轉承認。微軟內部則把工程師從 Claude Code 遷到 Copilot CLI,6/30 前完成,這背後的政治足以單獨開一篇。
對中小企業的啟示:成本曲線翻轉了。AI 寫程式從「我們只負擔得起 senior 的生產力工具」變成「實習生的預設工作環境」。如果你沒讓團隊用 Composer 等級工具,你在搶人才的對手已經在用。
五、這週值得做的三個 workflow 調整
把長時間重構、遷移類工作從 senior 的 inbox 搬進 Composer 2.5 的背景任務。模型現在在持續性任務上夠穩了(這是 Composer 2 → 2.5 最明確的改進),「請 Composer 把 auth 模組整晚遷到新 pattern」是現在真的能做的事。
在 CI 加一道閘門:任何 PR 含超過 X 行 AI 產出程式碼,必須再過第二位人類 reviewer,不管作者是誰。AI 寫的 code 「看起來合理」的頻率,遠高於「實際正確」的頻率。閘門是便宜保險。
重編預算。如果你還在以每席 US$19 訂閱 Copilot Business,認真比較一下 Cursor + Composer 2.5 是不是讓你的團隊每塊錢產出更多。2026 年 5 月,多數產品工程團隊答案是肯定;對重合規或主要在 github.com(Issues、Actions、PR)裡工作的團隊,Copilot 的平台整合仍有真實價值。
我的觀點
六個月前我會說:「前沿級 AI 寫程式是護城河,只有願意花 100 億美元的實驗室能做。」Composer 2.5 推翻了這個假設,而且是用一個非常具體的方式:用開源權重 base 加上快速迭代的產品團隊微調,就能用前沿成本的 1/10 追平閉源前沿。任何經營開發 shop 的人能拿到的結構性教訓是:這一季你 standardize 的 AI 工具,到 Q4 就會過時。把團隊流程設計成「換 model 是 config 改動,不是制度危機」——prompt 進版控、eval 進版控、把 model 當成你 stack 裡最可替換的零件。因為 2026 年它就是。
資料來源
- Introducing Composer 2.5 — Cursor Blog
- Composer 2.5 — Cursor Changelog
- Cursor Composer 2.5: Near-Frontier Coding Performance, One-Tenth the API Cost — ChatForest
- Composer 2.5: Benchmarks, Pricing, and How It Compares — DataCamp
- Microsoft Shifts Engineers from Claude Code to GitHub Copilot CLI — WinBuzzer