華為創始人任正非近期在深圳接受了《人民日報》的專訪,深入探討了華為在芯片技術領域的現狀與策略。面對芯片技術的挑戰,任正非坦誠地表示,華為的單芯片技術相較于美國仍有一代的差距。但他緊接著提出了華為的創新策略:“我們通過數學強化物理、非摩爾定律補充摩爾定律、系統補充單點,從而在最終結果上達到實用水平。”
近年來,華為技術團隊圍繞“數學補物理”、“非摩爾補摩爾”、“系統補單點”三大核心理念,成功研發出“超節點+集群”系統算力解決方案。這一方案的核心是華為的昇騰CloudMatrix 384超節點,作為全球最大的全棧100%國產化自研AI超節點,它打破了英偉達的市場壟斷。
在2025年4月的華為云生態大會上,華為常務董事、云計算CEO張平安正式介紹了CloudMatrix 384。這個由384張昇騰算力卡組成的超節點集群,單集群算力高達300PFlops,比英偉達NVL72的180PFlops高出67%,在內存帶寬、互聯帶寬以及斷點恢復時間等多項指標上均創下全球商用AI算力集群的新紀錄。
盡管單顆昇騰芯片的性能約為英偉達Blackwell架構GPU的三分之一,但華為通過超大規模集群設計,實現了系統級的突破。依托6812個400G光模塊構建的超高速互聯網絡,數據在384張卡之間近乎無損流動,訓練效率接近單卡性能的90%,遠超傳統架構60%-70%的水平。
據SemiAnalysis披露,華為云CM384基于384顆昇騰芯片,可提供高達300 PFLOPs的密集BF16算力,性能接近英偉達GB200 NVL72系統的兩倍。這一技術突破是在美國持續技術封鎖的背景下取得的,硅基流動基于該平臺部署的DeepSeek-R1模型,實現了單卡解碼吞吐1920Tokens/s,與英偉達H100部署性能相當。
華為CloudMatrix 384的迅猛崛起引起了英偉達高層的警覺。英偉達CEO黃仁勛多次提及華為,并將其視為最大的競爭對手之一。黃仁勛甚至公開承認:“從技術參數來看,華為的CloudMatrix 384超節點性能已經超越了英偉達,我們必須高度重視這家實力雄厚的公司。”這一表態被業界視為美國AI芯片巨頭首次公開認可中國競爭對手的技術實力。
華為CloudMatrix 384的野心不僅在于技術上的對標,更在于推動中國科技產業參與全球規則制定的深層戰略。華為計劃通過超節點架構,引導行業從關注單卡性能轉向關注集群效率、總擁有成本和生態協同度。這意味著,未來算力市場的競爭焦點將發生變化,先進工藝將不再是唯一關注點,算力集群的有效利用率、斷點恢復速度和生態協同度將成為新的競爭焦點。
華為正利用集群優勢吸引AI企業加入昇騰體系,形成硬件、軟件和模型的閉環。目前,華為的開發者規模已超過1200萬,合作伙伴數量達到4.5萬,云商店應用數量達到1.2萬。華為正在打造可與CUDA抗衡的替代方案,全球算力市場的格局有望因此發生重構。