爆火的DeepSeek引發成本、技術質疑，未來算力還重要嗎？

2025-02-11 10:52:21來源：TechWeb.com.cn 關鍵詞：DeepSeek AI大模型閱讀量：25776

導讀：近期，DeepSeek在AI大模型領域引發熱議，憑借其驚人的性能表現和低成本訓練模式，迅速吸引了全球關注，且熱度一直不減。

　　近期，DeepSeek在AI大模型領域引發熱議，憑借其驚人的性能表現和低成本訓練模式，迅速吸引了全球關注，且熱度一直不減。但隨之而來的，對其成本、技術以及為未來作為大模型基礎設施的算力也引發了爭議。

　　DeepSeek陷成本誤區？

　　提及成本，DeepSeek發表的原始報告中有詳細解釋這筆成本的計算：“在預訓練階段，每兆個token上訓練DeepSeek-V3僅需要180K H800 GPU小時，也就是說，在我們擁有2048個H800 GPU的叢集上需要3.7天。因此，我們的預訓練階段在不到兩個月的時間內完成，耗費2664K GPU小時。加上上下文長度擴充所需的119K GPU小時和后制訓練所需的5K GPU小時，DeepSeek-V3的完整訓練僅需2.788M GPU小時。假設H800 GPU的租賃價格為每GPU小時2美元，我們的總訓練成本僅為557.6萬美元。”

　　對此，近日知名的SemiAnalysis公開發布的《DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts》的報告中稱：DeepSeek論文中提到的600萬美元成本僅指預訓練運行的GPU成本，這只是模型總成本的一小部分，他們在硬件上的花費遠高于5億美元。例如為了開發新的架構創新，在模型開發過程中，需要投入大量資金來測試新想法、新架構思路，并進行消融實驗。開發和實現這些想法需要整個團隊投入大量人力和GPU計算時間。例如深度求索的關鍵創新—多頭潛在注意力機制(Multi-Head Latent Attention)，就耗費了數月時間。

　　無獨有偶，據外媒報道，李飛飛等斯坦福大學和華盛頓大學的研究人員以不到50美元的費用，使用了16張英偉達H100 GPU，耗時26分鐘就完成了訓練，成功“打造”出了一個名為s1-32B的人工智能推理模型。

　　有業內觀點認為，DeepSeek模型低成本并不客觀。

　　武漢大學計算機學院教授、中國人工智能學會心智計算專委會副主任蔡恒進對TechWeb表示，DeepSeek在生成模型的成本在報告中已經寫的很清晰了，過于糾結前期的投入，有多少實際成本是不重要的，特別是對于國內產業成本很低的情況下，前期做研究的成本也會比美國低很多。

　　蒸餾業內通行做法，是非公婆各有理

　　除了上述的成本外，業內對于DeepSeek爭議最大的還有就是其是否使用了蒸餾技術，如果使用，究竟使用了誰家的？

　　最先提出質疑的是，是在DeepSeek R1發布之初，OpenAI和微軟均向媒體證實，已掌握疑似DeepSeek通過“蒸餾”(distillation)技術，利用OpenAI專有模型來訓練其AI大模型。這使得DeepSeek能夠以較低的成本在特定任務上達到類似的效果。OpenAI雖未進一步提供證據的細節，但根據其服務條款，用戶不得“復制”任何OpenAI的服務，或“利用輸出結果開發與OpenAI競爭的模型”。

　　對于DeepSeek爆火之下，馬斯克一直罕見地并未發表評論，卻在最近點贊了一則推文。推文中提到了DeepSeek大量依賴模型蒸餾技術，需要借助ChatGPT-4o和o1才能完成訓練。盡管模型蒸餾是一項常見的技術手段，能夠將OpenAI中的大量數據迅速提煉重點并快速理解和應用，但這種模式只能讓DeepSeek接近OpenAI，而難以真正超越OpenAI。

　　除了國外，國內關于DeepSeek V3曾在測試中出現過異常：該模型自稱是OpenAI的ChatGPT，并能提供OpenAI的API使用說明。專家認為，這很可能是由于訓練數據中混入了大量由ChatGPT生成的內容(即“蒸餾”數據)，導致模型發生了“身份混淆”。

　　此外，由中國科學院深圳先進技術研究院、北京大學、01.AI、南方科技大學、Leibowitz AI等多個知名機構的研究團隊聯合發表的《Distillation Quantification for Large Language Models(大語言模型的蒸餾量化)》論文則顯示DeepSeek V3的蒸餾過程可能主要來自GPT4o，且蒸餾程度較高。

　　該論文提出了一個系統化的框架，量化并評估大模型蒸餾的過程及其影響，采用了“響應相似性評估(RSE)”和“身份一致性評估(ICE)”兩個量化指標。RSE實驗結果顯示，DeepSeek V3的蒸餾程度與GPT4o接近，評分為4.102，遠高于其他模型(如Llama 3.1-70B和Doubao-Pro-32k)。在ICE實驗中，DeepSeek V3也顯示出較高的蒸餾程度，屬于可疑響應數量最多的模型之一。

　　對于蒸餾技術的爭議，蔡恒進對TechWeb表示，DeepSeek完全蒸餾GPT的說法是錯誤的，ChatGPT的模型是閉源的，而DeepSeek展示了思考過程，這是抄不出來的。“DeepSeek技術上是有創新的，過于糾結蒸餾這方面完全沒有意義。”蔡恒進說道。

　　蔡恒進認為DeepSeek有著獨特的技術路徑優勢，它可以從底層優化，可以繞開英偉達CUDA生態，可以大幅提升國產芯片做預訓練的性能。

　　打破算力魔咒，未來算力還重要嗎？

　　基于我們前述成本的優勢，有業內觀點認為，DeepSeek的出現，打破了英偉達等科技巨頭“堆積算力”的路徑，也就是說，美國AI巨頭們認定的那個靠錢、靠更高算力芯片才能堆出來的更好的模型，不需要那么高昂的門檻了。

　　蔡恒進對TechWeb表示，原來我們一直認為不斷“堆積算力”才能提高AI模型能力，但Deepseek的出現走出了另一條路，即不一定要提升很高的參數規模就能實現很高的性能，可能對算力需求至少降到10倍以上。“堆算力”本身沒有錯，但隨著Deepseek的出現我們會發現這條路的性價比不高。

　　DeepSeek-V3極低的訓練成本預示著AI大模型對算力投入的需求將大幅下降，但也有觀點認為，DeepSeek表現固然優秀，但其統計口徑只計算了預訓練，數據的配比需要做大量的預實驗，合成數據的生成和清洗也需要消耗算力。

　　此外，在訓練上做降本增效不代表算力需求會下降，只代表大廠可以用性價比更高的方式去做模型極限能力的探索。

　　業內在討論算力時，常引用蒸汽時代的杰文斯悖論來類比。這一悖論由經濟學家威廉•斯坦利•杰文斯提出，核心觀點是：當某種資源的使用效率提高、獲取變得更容易時，其總體使用量往往不減反增。以蒸汽機為例，燃油效率的提升降低了單位工作量所需的煤炭成本，反而刺激了更多的工業活動，導致煤炭的總體消耗量上升。蒸汽機效率的提升，不僅沒有減少對蒸汽機的需求，反而因為技術的推廣和應用場景的擴大，進一步增加了市場對蒸汽機的需求。DeepSeek 的發展也呈現出類似的趨勢：算力效率的提升并未減少對算力的需求，反而推動了更多高算力應用的落地，使得行業對算力的需求持續增長。

　　對此，中信證券研報也指出，近日，DeepSeek-V3的正式發版引起AI業內廣泛高度關注，其在保證了模型能力的前提下，訓練效率和推理速度大幅提升。DeepSeek新一代模型的發布意味著AI大模型的應用將逐步走向普惠，助力AI應用廣泛落地；同時訓練效率大幅提升，亦將助力推理算力需求高增。

　　而Bloomberg Intelligence最近的一篇報告顯示，企業客戶可能會在2025年進行更大規模的AI投資，而AI支出增長將更側重于推理側，以實現投資變現或提升生產力。

　　那么上述存有爭議的事實究竟如何？俗話說：讓子彈再飛一會吧！(文/卞海川)

上一篇：人工智能改變日常工業運營的5種實際方式

下一篇：2024年我國規上電子信息制造業增加值同比增長11.8%

相關話題

DeepSeek太香了！眾企蜂擁接入

我要評論

昵稱

匿名

文明上網，理性發言。（您還可以輸入200個字符)

表情

所有評論僅代表網友意見，與本站立場無關。

消息稱黃仁勛與DeepSeek創始人梁文鋒會面討論設計新一代芯片
英偉達公司首席執行官黃仁勛在中國訪問期間，與DeepSeek創始人梁文鋒會面。據報道，黃仁勛與梁文鋒討論了如何設計符合中美兩國監管要求的新一代芯片，以滿足客戶需求。
黃仁勛DeepSeek梁文鋒
2025-04-20 10:35:20
早報|阿里通義千問登頂全球開源模型榜首；2025年全球GenAI支出將達6440億美元
4月2日，全球最大的AI開源社區Hugging Face更新了大模型榜單，阿里通義千問近期開源的端到端全模態大模型Qwen2.5-Omni登上總榜榜首；Gartner預測，2025年全球生成式人工智能(GenAI)支出將達到6440億美元，較2024年增長76.4%......
AI大模型生成式人工智能
2025-04-03 09:33:40
擁抱DeepSeek的軟件企業收入激增3倍，行業迎來爆發拐點？
今年3月，部分SaaS企業收入同比增長超過3倍，積極擁抱AI、擁抱DeepSeek的企業，如果能繼續保持這樣的增速，有望迎來真正的春天。
DeepSeekSaaS軟件服務
2025-04-02 16:56:12
DeepSeek+旅游文旅行業迎來發展新紀元
在數字技術深度重塑全球產業格局的當下，DeepSeek作為一股創新力量，正深刻影響文旅行業。憑借強大的數據處理能力與智能分析系統，DeepSeek重新定義文旅服務模式與用戶體驗，開啟文旅產業數字化轉型的全新征程。
DeepSeek文旅
2025-03-31 09:42:08
海康觀瀾 DeepSeek“雙模”驅動，海康威視發布“大模型一體化平臺”
近日，基于海康“觀瀾”大模型 DeepSeek“雙模”協同，海康威視發布“大模型一體化平臺”，助力大模型能力在千行百業快速便捷落地。
觀瀾大模型DeepSeek
2025-03-26 11:21:48
揚州公路部門完成DeepSeek本地化部署
揚州市公路事業發展中心正式完成深度求索(DeepSeek)人工智能管理平臺本地化部署。依托DeepSeek算法模型，系統可實時生成交通態勢熱力圖，為擁堵疏導、施工規劃及事故響應提供科學決策依據。
DeepSeek揚州公路
2025-03-21 08:46:14

版權與免責聲明：

凡本站注明“來源：智能制造網”的所有作品，均為浙江興旺寶明通網絡有限公司-智能制造網合法擁有版權或有權使用的作品，未經本站授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的，應在授權范圍內使用，并注明“來源：智能制造網”。違反上述聲明者，本站將追究其相關法律責任。

本站轉載并注明自其它來源（非智能制造網）的作品，目的在于傳遞更多信息，并不代表本站贊同其觀點或和對其真實性負責，不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、平臺或個人從本站轉載時，必須保留本站注明的作品第一來源，并自負版權等法律責任。如擅自篡改為“稿件來源：智能制造網”，本站將依法追究責任。

鑒于本站稿件來源廣泛、數量較多，如涉及作品內容、版權等問題，請與本站聯系并提供相關證明材料：聯系電話：0571-89719789；郵箱：[email protected]。