Anthropic 推出 Claude Opus 4.8：動態工作流＋平行子代理人，悄悄重設了中型企業「以 AI 跑營運」的經濟學

2026 年 5 月 28 日，Anthropic 推出 Claude Opus 4.8。媒體抓的是頭條數字：agentic coding 基準衝到 69.2%（從 64.3% 上升）、Fast Mode 在約三分之一價格下提供 2.5 倍速回應、價格跟 Opus 4.7 一樣（每百萬 input／output token 5／25 美金）。但對企業（不是研究員）而言真正重要的兩件事是：可設定的努力模式（effort modes）與單一 session 內可跑數百個平行子代理人的動態工作流。兩者疊起來，AI 從「會用計算機的昂貴資深實習生」變成「你可以叫起來工作 90 分鐘的中階分析師大軍」。對 30 到 200 人的公司——也就是網站與 MIS 外包業務最直接服務的區段——這是 2026 年到目前為止後座力最大的釋出。

一、白話說，動態工作流到底在做什麼

上週之前，一個 Claude Code session 是一個代理人推理一個問題，必要時呼叫工具。動態工作流讓一個代理人規劃一個任務，再派遣數十、甚至數百個平行子代理人各自從獨立角度切入，互相質疑或反駁彼此的發現，收斂出一個最終答案再上報。Anthropic 發布時拿來示範的是大規模程式碼遷移：規劃者找出 400 個呼叫點、派 40 個子代理人各做 10 個、用測試套件驗證每個子代理人的輸出、只 commit 通過測試的合併結果。同樣的形狀套到「審我們供應商合約的續約條款」、「從 300 張供應商發票抓出明細總額」、「對照新 SOC 2 政策審我們上一季每一個 PR」——一樣行得通。

二、努力模式才是商業端更大的解鎖

媒體報導較少，但更重要。Opus 4.8 引入 Low → Standard → High → Max 的努力旋鈕，讓你「每個請求」自己選擇要把延遲與用量配額拿來換多少推理深度。Low 又快又便宜，品質接近 Sonnet；Max 是「我願意讓模型先想兩分鐘再回答」那種等級的工作。實務效果是：你可以跑一個 5,000 任務的工作流，其中 4,800 個任務是日常的、走 Low；200 個是棘手的、走 Max。混合後的成本接近 Sonnet，但最差案的答案品質仍是 Opus 等級。這是業界第一次在「請求」這個粒度上，端出一個合理的「價格／品質」旋鈕。

三、中型公司本週該試跑的三條工作流

供應商文件抽取。把過去 90 天的發票、合約、PO 丟進同一個資料夾。跑一個動態工作流：「抽出每一條明細、每一個付款條件、每一個續約條款、每一個違約罰則。把與主合約不一致的東西標出來。」一個本來會佔財務分析師兩週的工作，現在 20 分鐘完成、API 成本不到 80 美金。第一次跑，你大概率會抓到一條你不知道自己同意過的續約條款。

端到端客戶導入稽核。把 CRM、support ticket 歷史、信箱 log 拉出來。跑一個工作流，逐客戶追「簽約」到「首次價值交付」之間的真實順序。你會發現中位數時間是團隊以為的 1.8 到 3 倍，而且你會發現多在哪。這是 2026 年任何一家 30 到 200 人服務公司，能跑的單一最高 ROI 的內部分析。

程式碼合規掃描。把 claude-code 與新的動態工作流功能指向你的 Laravel + Flutter codebase。Prompt：「找出我們每一個記錄個人識別資訊的位置。找出我們每一個把祕密放在環境變數、應該放金鑰保管庫的位置。找出每一個沒有清理註解的 Blade {!! !!}。」200 個平行子代理人 4 分鐘跑完。輸出是一份已分流的 Markdown 報告，週一交給你的平台工程師。

四、大家算錯的價格

多數報導把 Opus 4.8 跟 Opus 4.7 比同樣的 token 標價。對的比較是「實際工作流的混合價格」。我們在三個真實客戶 workload 上的內部量測：280 份合約掃描、60 天 ticket 分群、6 個月 Git 歷史合規審查。

Workload A（合約掃描）— Opus 4.7 花 314 美金、4 小時。Opus 4.8 加努力模式花 112 美金、38 分鐘。品質評分略高。

Workload B（ticket 分群）— Opus 4.7 花 96 美金、90 分鐘。Opus 4.8 加努力模式加平行子代理人花 41 美金、6 分鐘。品質持平。

Workload C（合規審查）— Opus 4.7 花 620 美金、整天。Opus 4.8 加動態工作流花 185 美金、22 分鐘。品質明顯較高（子代理人抓到兩個線性執行漏掉的問題）。

常見的錯誤是看到「每 token 同價」就以為「每任務同成本」。努力模式加平行子代理人，在符合這個形狀的 workload 上（多數 workload 都符合），把「每個商業成果的成本」砍掉約 60 到 75%。

五、目前還不能用的地方

三個誠實的限制。

動態工作流仍是 session 內吃 token 的怪獸。200 個子代理人跑一輪可以在 20 分鐘內燒掉 400 萬個 token。你需要用量配額的餘裕——買更高的方案或錯峰跑。

「子代理人互相反駁」這件事還沒做到決定性（deterministic）。同一個工作流跑兩次，最終答案可能略不同。對需要稽核軌跡的法遵輸出，這是問題；記錄完整對話紀錄，不要只記最終答案。

Anthropic 預告「未來幾週」推出的 Mythos 等級模型，據說會在長視程推理上、平行子代理人會明顯勝過單跑 Opus 4.8。如果你的工作流是「從一份探索文件規劃六個月的實作計畫」，等 Mythos。如果是「平行做 400 件小事」，今天就動手。

我的觀點

讀 Opus 4.8 的對的姿勢，不是把它當成一次模型釋出。它是 AI 廠商第一次端出「可用的營運原語」——一個規劃者加上一支艦隊，企業可以把它指向一個真實任務、然後預期幾分鐘內拿到真實答案。對中型公司而言，這就是對話從「我們怎麼用 AI 寫文案快一點」翻面成「我們有哪些營運環節還在序列地做、忘了可以平行」的時刻。下個月跑三條這樣的工作流、誠實量出時間與成本差異、然後圍繞這份 playbook 養出小型內部團隊的 30 到 200 人公司，2026 年結束時的結構性營運成本，會明顯低於「等 Mythos 出來再說」的公司。模型是必要的，但 playbook 才是真正的槓桿。而 playbook，是你的外包夥伴現在就該幫你建構的東西。