DeepSeek V4 以每百萬 Token 0.14 美元登場，開源 AI 再次改寫成本算式

在引爆美國科技股單日蒸發一兆美元市值的 DeepSeek-R1 時刻整整一年之後，這家中國實驗室帶著 V4 旗艦模型的預覽版回歸——而且數字再一次讓既有玩家坐立難安。

4 月 24 日，DeepSeek 發佈了兩個模型。V4-Pro 擁有 1.6 兆參數。V4-Flash 則是較精簡的 2,840 億參數版本。兩者都支援 100 萬 Token 的上下文視窗，且都以寬鬆授權開源。DeepSeek 宣稱 Pro-Max 變體在所有推理 benchmark 都贏過開源對手，在多項任務上擊敗 GPT-5.2 與 Gemini 3.0 Pro，在程式競賽上與 GPT-5.4 並駕齊驅。

但真正的衝擊是價格。

成本算式

V4-Flash 收費每百萬輸入 Token 0.14 美元、每百萬輸出 Token 0.28 美元。V4-Pro 則是 0.145 美元與 3.48 美元。相較之下，OpenAI 旗艦 GPT-5.4 在輸出端的定價大約是這個的 10 到 15 倍。如果你正在企業規模運行 AI 自動化流程，算一下就知道。一個每天送進 1 億 Token 輸入、產出 2,000 萬 Token 輸出的工作流，過去每天要花上千美元。在 V4-Flash 上，一天大約 19 美元。這不是漸進式的優化，這是完全不同類別的經濟學。

底層到底換了什麼

DeepSeek 提出了他們稱為 Hybrid Attention Architecture 的技術。在傳統 transformer 模型中，注意力成本隨序列長度呈二次方增長，這也是為什麼 100 萬 Token 上下文長期不切實際。Hybrid Attention 以調整過的比例混合全注意力層、稀疏注意力層與線性注意力層，在長序列上把計算成本壓縮下來，同時保持接近全注意力的品質。對正在打造代理式系統的開發者來說——那種模型需要記住整個程式庫、數小時對話或完整法律文件的長時程工作流——100 萬 Token 的上下文才是真正關鍵的功能。你不需要分塊，不需要 RAG，你就是把 context 塞進去然後發問。

華為這條線

故事從這裡開始變得地緣政治。DeepSeek 與華為合作，V4 的訓練跑在華為 Ascend 950 晶片上，透過華為新的 Supernode 互連技術把大型叢集融合成一個大型加速器。過去十年，業界的假設是前沿模型需要 NVIDIA 的 H100 或 B200。V4 是目前為止最清楚的公開反例。原本用來拖慢中國 AI 進展的美國出口管制，現在看起來更像是動力而非障礙。買不到 NVIDIA，就做 Ascend；用不了 CUDA，就針對中國軟體棧優化。結果就是一條西方幾乎沒有可見度的平行 AI 供應鏈。

對資訊開發產業的意義

過去幾個月我一直在觀察企業團隊低調試用 DeepSeek。大多數因為資料治理疑慮不願公開承認。但成本差距大到無法忽視。V4 做到的是：在很多使用情境下，徹底消除了「它沒有 GPT 聰明」這個最後的理由。三個原本就在發生的趨勢因此加速。第一，多代理架構在中小企業也變得經濟可行；如果每次代理呼叫的成本是美分而非美元，你就養得起三個代理爭論該怎麼寫程式才最好。第二，長脈絡推理變成預設；整個 repo 被塞進 prompt，而不是做分塊檢索。第三，前沿實驗室的護城河縮減到安全性、對齊與工具鏈——因為原始能力正以比任何人預測都快的速度商品化。

我的觀點

2025 年 1 月 DeepSeek-R1 登場時，很多人把它當成一次性事件。一年過去，V4 證明了——DeepSeek 是一個持續產出的研發引擎，不是曇花一現。開源與閉源的差距不只是縮小，在某些維度上已經反轉。開源模型現在提供更長的脈絡、更便宜的推論、更少的授權限制。如果你在 2026 年打造 AI 產品，卻還沒在 DeepSeek V4 上跑過你的工作負載 benchmark，那你是在用過期資訊做商業決策。這不代表要拋棄 OpenAI 或 Anthropic，而是要把模型層當成可插拔的商品，然後把護城河建在別的地方：你的資料、你的工作流、你的通路。那個「選一家模型供應商用三年」的時代已經結束了。