AI 應用

DeepSeek V4 以每百萬 Token 0.14 美元登場,開源 AI 再次改寫成本算式

2026.04.25 · 56 次瀏覽
DeepSeek V4 以每百萬 Token 0.14 美元登場,開源 AI 再次改寫成本算式

1.6 兆參數、100 萬 Token 上下文、搭配華為 Ascend 晶片,正面挑戰 GPT-5.4

在引爆美國科技股單日蒸發一兆美元市值的 DeepSeek-R1 時刻整整一年之後,這家中國實驗室帶著 V4 旗艦模型的預覽版回歸——而且數字再一次讓既有玩家坐立難安。


4 月 24 日,DeepSeek 發佈了兩個模型。V4-Pro 擁有 1.6 兆參數。V4-Flash 則是較精簡的 2,840 億參數版本。兩者都支援 100 萬 Token 的上下文視窗,且都以寬鬆授權開源。DeepSeek 宣稱 Pro-Max 變體在所有推理 benchmark 都贏過開源對手,在多項任務上擊敗 GPT-5.2 與 Gemini 3.0 Pro,在程式競賽上與 GPT-5.4 並駕齊驅。


但真正的衝擊是價格。


成本算式


V4-Flash 收費每百萬輸入 Token 0.14 美元、每百萬輸出 Token 0.28 美元。V4-Pro 則是 0.145 美元與 3.48 美元。相較之下,OpenAI 旗艦 GPT-5.4 在輸出端的定價大約是這個的 10 到 15 倍。如果你正在企業規模運行 AI 自動化流程,算一下就知道。一個每天送進 1 億 Token 輸入、產出 2,000 萬 Token 輸出的工作流,過去每天要花上千美元。在 V4-Flash 上,一天大約 19 美元。這不是漸進式的優化,這是完全不同類別的經濟學。


底層到底換了什麼


DeepSeek 提出了他們稱為 Hybrid Attention Architecture 的技術。在傳統 transformer 模型中,注意力成本隨序列長度呈二次方增長,這也是為什麼 100 萬 Token 上下文長期不切實際。Hybrid Attention 以調整過的比例混合全注意力層、稀疏注意力層與線性注意力層,在長序列上把計算成本壓縮下來,同時保持接近全注意力的品質。對正在打造代理式系統的開發者來說——那種模型需要記住整個程式庫、數小時對話或完整法律文件的長時程工作流——100 萬 Token 的上下文才是真正關鍵的功能。你不需要分塊,不需要 RAG,你就是把 context 塞進去然後發問。


華為這條線


故事從這裡開始變得地緣政治。DeepSeek 與華為合作,V4 的訓練跑在華為 Ascend 950 晶片上,透過華為新的 Supernode 互連技術把大型叢集融合成一個大型加速器。過去十年,業界的假設是前沿模型需要 NVIDIA 的 H100 或 B200。V4 是目前為止最清楚的公開反例。原本用來拖慢中國 AI 進展的美國出口管制,現在看起來更像是動力而非障礙。買不到 NVIDIA,就做 Ascend;用不了 CUDA,就針對中國軟體棧優化。結果就是一條西方幾乎沒有可見度的平行 AI 供應鏈。


對資訊開發產業的意義


過去幾個月我一直在觀察企業團隊低調試用 DeepSeek。大多數因為資料治理疑慮不願公開承認。但成本差距大到無法忽視。V4 做到的是:在很多使用情境下,徹底消除了「它沒有 GPT 聰明」這個最後的理由。三個原本就在發生的趨勢因此加速。第一,多代理架構在中小企業也變得經濟可行;如果每次代理呼叫的成本是美分而非美元,你就養得起三個代理爭論該怎麼寫程式才最好。第二,長脈絡推理變成預設;整個 repo 被塞進 prompt,而不是做分塊檢索。第三,前沿實驗室的護城河縮減到安全性、對齊與工具鏈——因為原始能力正以比任何人預測都快的速度商品化。


我的觀點


2025 年 1 月 DeepSeek-R1 登場時,很多人把它當成一次性事件。一年過去,V4 證明了——DeepSeek 是一個持續產出的研發引擎,不是曇花一現。開源與閉源的差距不只是縮小,在某些維度上已經反轉。開源模型現在提供更長的脈絡、更便宜的推論、更少的授權限制。如果你在 2026 年打造 AI 產品,卻還沒在 DeepSeek V4 上跑過你的工作負載 benchmark,那你是在用過期資訊做商業決策。這不代表要拋棄 OpenAI 或 Anthropic,而是要把模型層當成可插拔的商品,然後把護城河建在別的地方:你的資料、你的工作流、你的通路。那個「選一家模型供應商用三年」的時代已經結束了。