国产免费一区二区三区最新不卡_gogo全球大胆高清人露出91_国产无遮挡一区二区三区毛片日本_免费淫视频_俄罗斯16一20sex牲色另类_免费观看黄色片视频

正在閱讀:爆火的DeepSeek引發成本、技術質疑,未來算力還重要嗎?

爆火的DeepSeek引發成本、技術質疑,未來算力還重要嗎?

2025-02-11 10:52:21來源:TechWeb.com.cn 關鍵詞:DeepSeekAI大模型閱讀量:25776

導讀:近期,DeepSeek在AI大模型領域引發熱議,憑借其驚人的性能表現和低成本訓練模式,迅速吸引了全球關注,且熱度一直不減。
  近期,DeepSeek在AI大模型領域引發熱議,憑借其驚人的性能表現和低成本訓練模式,迅速吸引了全球關注,且熱度一直不減。但隨之而來的,對其成本、技術以及為未來作為大模型基礎設施的算力也引發了爭議。
 
  DeepSeek陷成本誤區?
 
  提及成本,DeepSeek發表的原始報告中有詳細解釋這筆成本的計算:“在預訓練階段,每兆個token上訓練DeepSeek-V3僅需要180K H800 GPU小時,也就是說,在我們擁有2048個H800 GPU的叢集上需要3.7天。因此,我們的預訓練階段在不到兩個月的時間內完成,耗費2664K GPU小時。加上上下文長度擴充所需的119K GPU小時和后制訓練所需的5K GPU小時,DeepSeek-V3的完整訓練僅需2.788M GPU小時。假設H800 GPU的租賃價格為每GPU小時2美元,我們的總訓練成本僅為557.6萬美元。”
 
  對此,近日知名的SemiAnalysis公開發布的《DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts》的報告中稱:DeepSeek論文中提到的600萬美元成本僅指預訓練運行的GPU成本,這只是模型總成本的一小部分,他們在硬件上的花費遠高于5億美元。例如為了開發新的架構創新,在模型開發過程中,需要投入大量資金來測試新想法、新架構思路,并進行消融實驗。開發和實現這些想法需要整個團隊投入大量人力和GPU計算時間。例如深度求索的關鍵創新—多頭潛在注意力機制(Multi-Head Latent Attention),就耗費了數月時間。
 
  無獨有偶,據外媒報道,李飛飛等斯坦福大學和華盛頓大學的研究人員以不到50美元的費用,使用了16張英偉達H100 GPU,耗時26分鐘就完成了訓練,成功“打造”出了一個名為s1-32B的人工智能推理模型。
 
  有業內觀點認為,DeepSeek模型低成本并不客觀。
 
  武漢大學計算機學院教授、中國人工智能學會心智計算專委會副主任蔡恒進對TechWeb表示,DeepSeek在生成模型的成本在報告中已經寫的很清晰了,過于糾結前期的投入,有多少實際成本是不重要的,特別是對于國內產業成本很低的情況下,前期做研究的成本也會比美國低很多。
 
  蒸餾業內通行做法,是非公婆各有理
 
  除了上述的成本外,業內對于DeepSeek爭議最大的還有就是其是否使用了蒸餾技術,如果使用,究竟使用了誰家的?
 
  最先提出質疑的是,是在DeepSeek R1發布之初,OpenAI和微軟均向媒體證實,已掌握疑似DeepSeek通過“蒸餾”(distillation)技術,利用OpenAI專有模型來訓練其AI大模型。這使得DeepSeek能夠以較低的成本在特定任務上達到類似的效果。OpenAI雖未進一步提供證據的細節,但根據其服務條款,用戶不得“復制”任何OpenAI的服務,或“利用輸出結果開發與OpenAI競爭的模型”。
 
  對于DeepSeek爆火之下,馬斯克一直罕見地并未發表評論,卻在最近點贊了一則推文。推文中提到了DeepSeek大量依賴模型蒸餾技術,需要借助ChatGPT-4o和o1才能完成訓練。盡管模型蒸餾是一項常見的技術手段,能夠將OpenAI中的大量數據迅速提煉重點并快速理解和應用,但這種模式只能讓DeepSeek接近OpenAI,而難以真正超越OpenAI。
 
  除了國外,國內關于DeepSeek V3曾在測試中出現過異常:該模型自稱是OpenAI的ChatGPT,并能提供OpenAI的API使用說明。專家認為,這很可能是由于訓練數據中混入了大量由ChatGPT生成的內容(即“蒸餾”數據),導致模型發生了“身份混淆”。
 
  此外,由中國科學院深圳先進技術研究院、北京大學、01.AI、南方科技大學、Leibowitz AI等多個知名機構的研究團隊聯合發表的《Distillation Quantification for Large Language Models(大語言模型的蒸餾量化)》論文則顯示DeepSeek V3的蒸餾過程可能主要來自GPT4o,且蒸餾程度較高。
 
  該論文提出了一個系統化的框架,量化并評估大模型蒸餾的過程及其影響,采用了“響應相似性評估(RSE)”和“身份一致性評估(ICE)”兩個量化指標。RSE實驗結果顯示,DeepSeek V3的蒸餾程度與GPT4o接近,評分為4.102,遠高于其他模型(如Llama 3.1-70B和Doubao-Pro-32k)。在ICE實驗中,DeepSeek V3也顯示出較高的蒸餾程度,屬于可疑響應數量最多的模型之一。
 
  對于蒸餾技術的爭議,蔡恒進對TechWeb表示,DeepSeek完全蒸餾GPT的說法是錯誤的,ChatGPT的模型是閉源的,而DeepSeek展示了思考過程,這是抄不出來的。“DeepSeek技術上是有創新的,過于糾結蒸餾這方面完全沒有意義。”蔡恒進說道。
 
  蔡恒進認為DeepSeek有著獨特的技術路徑優勢,它可以從底層優化,可以繞開英偉達CUDA生態,可以大幅提升國產芯片做預訓練的性能。
 
  打破算力魔咒,未來算力還重要嗎?
 
  基于我們前述成本的優勢,有業內觀點認為,DeepSeek的出現,打破了英偉達等科技巨頭“堆積算力”的路徑,也就是說,美國AI巨頭們認定的那個靠錢、靠更高算力芯片才能堆出來的更好的模型,不需要那么高昂的門檻了。
 
  蔡恒進對TechWeb表示,原來我們一直認為不斷“堆積算力”才能提高AI模型能力,但Deepseek的出現走出了另一條路,即不一定要提升很高的參數規模就能實現很高的性能,可能對算力需求至少降到10倍以上。“堆算力”本身沒有錯,但隨著Deepseek的出現我們會發現這條路的性價比不高。
 
  DeepSeek-V3極低的訓練成本預示著AI大模型對算力投入的需求將大幅下降,但也有觀點認為,DeepSeek表現固然優秀,但其統計口徑只計算了預訓練,數據的配比需要做大量的預實驗,合成數據的生成和清洗也需要消耗算力。
 
  此外,在訓練上做降本增效不代表算力需求會下降,只代表大廠可以用性價比更高的方式去做模型極限能力的探索。
 
  業內在討論算力時,常引用蒸汽時代的杰文斯悖論來類比。這一悖論由經濟學家威廉•斯坦利•杰文斯提出,核心觀點是:當某種資源的使用效率提高、獲取變得更容易時,其總體使用量往往不減反增。以蒸汽機為例,燃油效率的提升降低了單位工作量所需的煤炭成本,反而刺激了更多的工業活動,導致煤炭的總體消耗量上升。蒸汽機效率的提升,不僅沒有減少對蒸汽機的需求,反而因為技術的推廣和應用場景的擴大,進一步增加了市場對蒸汽機的需求。DeepSeek 的發展也呈現出類似的趨勢:算力效率的提升并未減少對算力的需求,反而推動了更多高算力應用的落地,使得行業對算力的需求持續增長。
 
  對此,中信證券研報也指出,近日,DeepSeek-V3的正式發版引起AI業內廣泛高度關注,其在保證了模型能力的前提下,訓練效率和推理速度大幅提升。DeepSeek新一代模型的發布意味著AI大模型的應用將逐步走向普惠,助力AI應用廣泛落地;同時訓練效率大幅提升,亦將助力推理算力需求高增。
 
  而Bloomberg Intelligence最近的一篇報告顯示,企業客戶可能會在2025年進行更大規模的AI投資,而AI支出增長將更側重于推理側,以實現投資變現或提升生產力。
 
  那么上述存有爭議的事實究竟如何?俗話說:讓子彈再飛一會吧!(文/卞海川)
我要評論
文明上網,理性發言。(您還可以輸入200個字符)

所有評論僅代表網友意見,與本站立場無關。

版權與免責聲明:

凡本站注明“來源:智能制造網”的所有作品,均為浙江興旺寶明通網絡有限公司-智能制造網合法擁有版權或有權使用的作品,未經本站授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:智能制造網”。違反上述聲明者,本站將追究其相關法律責任。

本站轉載并注明自其它來源(非智能制造網)的作品,目的在于傳遞更多信息,并不代表本站贊同其觀點或和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、平臺或個人從本站轉載時,必須保留本站注明的作品第一來源,并自負版權等法律責任。如擅自篡改為“稿件來源:智能制造網”,本站將依法追究責任。

鑒于本站稿件來源廣泛、數量較多,如涉及作品內容、版權等問題,請與本站聯系并提供相關證明材料:聯系電話:0571-89719789;郵箱:[email protected]

不想錯過行業資訊?

訂閱 智能制造網APP

一鍵篩選來訂閱

信息更豐富

推薦產品/PRODUCT 更多
智造商城:

PLC工控機嵌入式系統工業以太網工業軟件金屬加工機械包裝機械工程機械倉儲物流環保設備化工設備分析儀器工業機器人3D打印設備生物識別傳感器電機電線電纜輸配電設備電子元器件更多

我要投稿
  • 投稿請發送郵件至:(郵件標題請備注“投稿”)1271141964.qq.com
  • 聯系電話0571-89719789
工業4.0時代智能制造領域“互聯網+”服務平臺
智能制造網APP

功能豐富 實時交流

智能制造網小程序

訂閱獲取更多服務

微信公眾號

關注我們

抖音

智能制造網

抖音號:gkzhan

打開抖音 搜索頁掃一掃

視頻號

智能制造網

公眾號:智能制造網

打開微信掃碼關注視頻號

快手

智能制造網

快手ID:gkzhan2006

打開快手 掃一掃關注
意見反饋
我要投稿
我知道了
主站蜘蛛池模板: 深夜影院a | 欧日一级片 | 欧美成人小视频 | 精品国产91久久久 | 91成人久久 | 欧美三级欧美成人高清www | 嗯~啊~弄嗯~啊h高潮视频 | 日本欧美中文字幕 | 亚洲电影免费观看国语版 | 亚洲视频在线观看免费 | 国产亚洲综合一区二区 | 久久久久久久久国产 | 天堂成人国产精品一区 | 免费在线观看国产精品 | 成人毛片免费看 | 性爱视频在线免费 | 成人国产视频在线观看 | 伊人久久电影网 | 免费放黄网站在线播放 | 把娇妻调教成暴露狂 | 久久新网址 | 免费久久久| 国产精品久久久久久久久久10秀 | 午夜视频久久 | 亚洲成人在线视频网 | 超久久| 日日摸夜夜添夜夜添牛牛 | 国产精品久久久免费观看 | 免费视频一区 | 一级黄色在线观看 | 免费黄色小网站 | 天堂精品久久 | 高清做爰免费无遮网站挡 | 黄色男女视频 | 国产精品成人一区二区三区电影毛片 | av在线观| 国产精品69页| xxx日本视频| 91精品国产九九九久久久亚洲 | 亚洲日本欧美 | 国内精品国产三级国产a久久 |