◎沈榮欽
在川普和黃仁勳於白宮見面後,應該多了解一些 DeepSeek 使用 GPU 的真實情況和硬體支出。
知名半導體顧問公司 SemiAnalysis 的最新報告值得一讀:他們分析了幻方對DeepSeek 的硬體投資,遠非其宣傳般低廉、輕易的完成。
◆DeepSeek 並不是幻方基金賺錢之餘做的「副業」,幻方一直認真投資 AI,早在 2021 年幻方就買了 10,000 個 A100 GPU 研究 AI,直到 2023 年 5 月認為時機成熟,才分拆 DeepSeek 獨立出來。
資料來源︰SemiAnalysis 。(取自貼文)
◆ 出口管制的結果見附圖一。
◆和某些人聲稱 DeepSeek 使用 50,000 個 H100 不同,SemiAnalysis 相信他們使用 50,000 個 Hopper GPU。
DeepSeek 用了大約 10,000 台 H800 和約 10,000 台 H100,以及更多的 H20,見附圖二。
資料來源︰SemiAnalysis 。(取自貼文)
◆ 由此計算,DeepSeek 的總伺服器資本支出約為 16 億美元,而營運成本高達 9.44 億美元。
◆ DeepSeek 在北京大學和浙江大學舉辦招聘活動時,廣告宣稱可以使用 10,000 個 GPU,而且沒有使用限制,同時其雇用人員十分具有彈性,薪水並遠超同行。
◆幻方宣傳 DeepSeek V3 的訓練成本僅 600 萬美元,這是錯誤的。600 萬美元的成本僅包含預訓練運行的 GPU 成本,這只是模型總成本的一小部分,不包括硬體本身的研發和 TCO 等重要支出。為了開發新的架構創新,在模型開發過程中,估計光在硬體的支出就遠高於 5 億美元。
資料來源︰SemiAnalysis 。(取自貼文)
◆ 澄清幾個迷思。首先,推理成本下降是人工智慧進步的標誌,請見圖三。
◆其次,演算法的改進允許使用更少的計算量來訓練和推理具有相同功能的模型,並且這種模式一遍又一遍地發揮作用。這次引起世界關注是因為它來自中國的公司,但小型模型的改進並不是什麼新鮮事,在人工智慧產業司空見慣,請見圖四。
資料來源︰SemiAnalysis 。(取自貼文)
◆最後,這也發生在大型模型中,例如調查 GPT-4 的成本時, SemiAnalysis 發現演算法的改進使成本降低了 10 倍並且提高能力。
(作者為加拿大約克大學副教授)
本文經授權轉載自沈榮欽臉書
相關新聞
編輯精選