2026 年 5 月 28 日,Anthropic 推出 Claude Opus 4.8。媒體抓的是頭條數字:agentic coding 基準衝到 69.2%(從 64.3% 上升)、Fast Mode 在約三分之一價格下提供 2.5 倍速回應、價格跟 Opus 4.7 一樣(每百萬 input/output token 5/25 美金)。但對企業(不是研究員)而言真正重要的兩件事是:可設定的努力模式(effort modes)與單一 session 內可跑數百個平行子代理人的動態工作流。兩者疊起來,AI 從「會用計算機的昂貴資深實習生」變成「你可以叫起來工作 90 分鐘的中階分析師大軍」。對 30 到 200 人的公司——也就是網站與 MIS 外包業務最直接服務的區段——這是 2026 年到目前為止後座力最大的釋出。
一、白話說,動態工作流到底在做什麼
上週之前,一個 Claude Code session 是一個代理人推理一個問題,必要時呼叫工具。動態工作流讓一個代理人規劃一個任務,再派遣數十、甚至數百個平行子代理人各自從獨立角度切入,互相質疑或反駁彼此的發現,收斂出一個最終答案再上報。Anthropic 發布時拿來示範的是大規模程式碼遷移:規劃者找出 400 個呼叫點、派 40 個子代理人各做 10 個、用測試套件驗證每個子代理人的輸出、只 commit 通過測試的合併結果。同樣的形狀套到「審我們供應商合約的續約條款」、「從 300 張供應商發票抓出明細總額」、「對照新 SOC 2 政策審我們上一季每一個 PR」——一樣行得通。
二、努力模式才是商業端更大的解鎖
媒體報導較少,但更重要。Opus 4.8 引入 Low → Standard → High → Max 的努力旋鈕,讓你「每個請求」自己選擇要把延遲與用量配額拿來換多少推理深度。Low 又快又便宜,品質接近 Sonnet;Max 是「我願意讓模型先想兩分鐘再回答」那種等級的工作。實務效果是:你可以跑一個 5,000 任務的工作流,其中 4,800 個任務是日常的、走 Low;200 個是棘手的、走 Max。混合後的成本接近 Sonnet,但最差案的答案品質仍是 Opus 等級。這是業界第一次在「請求」這個粒度上,端出一個合理的「價格/品質」旋鈕。
三、中型公司本週該試跑的三條工作流
供應商文件抽取。把過去 90 天的發票、合約、PO 丟進同一個資料夾。跑一個動態工作流:「抽出每一條明細、每一個付款條件、每一個續約條款、每一個違約罰則。把與主合約不一致的東西標出來。」一個本來會佔財務分析師兩週的工作,現在 20 分鐘完成、API 成本不到 80 美金。第一次跑,你大概率會抓到一條你不知道自己同意過的續約條款。
端到端客戶導入稽核。把 CRM、support ticket 歷史、信箱 log 拉出來。跑一個工作流,逐客戶追「簽約」到「首次價值交付」之間的真實順序。你會發現中位數時間是團隊以為的 1.8 到 3 倍,而且你會發現多在哪。這是 2026 年任何一家 30 到 200 人服務公司,能跑的單一最高 ROI 的內部分析。
程式碼合規掃描。把 claude-code 與新的動態工作流功能指向你的 Laravel + Flutter codebase。Prompt:「找出我們每一個記錄個人識別資訊的位置。找出我們每一個把祕密放在環境變數、應該放金鑰保管庫的位置。找出每一個沒有清理註解的 Blade {!! !!}。」200 個平行子代理人 4 分鐘跑完。輸出是一份已分流的 Markdown 報告,週一交給你的平台工程師。
四、大家算錯的價格
多數報導把 Opus 4.8 跟 Opus 4.7 比同樣的 token 標價。對的比較是「實際工作流的混合價格」。我們在三個真實客戶 workload 上的內部量測:280 份合約掃描、60 天 ticket 分群、6 個月 Git 歷史合規審查。
Workload A(合約掃描)— Opus 4.7 花 314 美金、4 小時。Opus 4.8 加努力模式花 112 美金、38 分鐘。品質評分略高。
Workload B(ticket 分群)— Opus 4.7 花 96 美金、90 分鐘。Opus 4.8 加努力模式加平行子代理人花 41 美金、6 分鐘。品質持平。
Workload C(合規審查)— Opus 4.7 花 620 美金、整天。Opus 4.8 加動態工作流花 185 美金、22 分鐘。品質明顯較高(子代理人抓到兩個線性執行漏掉的問題)。
常見的錯誤是看到「每 token 同價」就以為「每任務同成本」。努力模式加平行子代理人,在符合這個形狀的 workload 上(多數 workload 都符合),把「每個商業成果的成本」砍掉約 60 到 75%。
五、目前還不能用的地方
三個誠實的限制。
動態工作流仍是 session 內吃 token 的怪獸。200 個子代理人跑一輪可以在 20 分鐘內燒掉 400 萬個 token。你需要用量配額的餘裕——買更高的方案或錯峰跑。
「子代理人互相反駁」這件事還沒做到決定性(deterministic)。同一個工作流跑兩次,最終答案可能略不同。對需要稽核軌跡的法遵輸出,這是問題;記錄完整對話紀錄,不要只記最終答案。
Anthropic 預告「未來幾週」推出的 Mythos 等級模型,據說會在長視程推理上、平行子代理人會明顯勝過單跑 Opus 4.8。如果你的工作流是「從一份探索文件規劃六個月的實作計畫」,等 Mythos。如果是「平行做 400 件小事」,今天就動手。
我的觀點
讀 Opus 4.8 的對的姿勢,不是把它當成一次模型釋出。它是 AI 廠商第一次端出「可用的營運原語」——一個規劃者加上一支艦隊,企業可以把它指向一個真實任務、然後預期幾分鐘內拿到真實答案。對中型公司而言,這就是對話從「我們怎麼用 AI 寫文案快一點」翻面成「我們有哪些營運環節還在序列地做、忘了可以平行」的時刻。下個月跑三條這樣的工作流、誠實量出時間與成本差異、然後圍繞這份 playbook 養出小型內部團隊的 30 到 200 人公司,2026 年結束時的結構性營運成本,會明顯低於「等 Mythos 出來再說」的公司。模型是必要的,但 playbook 才是真正的槓桿。而 playbook,是你的外包夥伴現在就該幫你建構的東西。
資料來源
- Introducing Claude Opus 4.8 — Anthropic
- Claude Opus 4.8 is here: effort controls, dynamic workflows — The New Stack
- Claude Opus 4.8 brings effort modes and parallel subagents — AI Weekly
- Anthropic releases new model, Opus 4.8 — Axios
- Claude Opus 4.8: Benchmarks, Effort & Dynamic Workflows — Digital Applied