9 月 18 日,上海舉行的華為全聯(lián)接大會(HC 大會)上,華為輪值董事長徐直軍一上臺,就提起了年初由 DeepSeek 引起的這場全民狂歡。
" 從今年春節(jié)開始到 4 月 30 日,經(jīng)過多團隊的協(xié)同作戰(zhàn),終于使昇騰(Ascend )910B/910C 的推理能力達(dá)成了客戶的基本需求。" 徐直軍說到,DeepSeek 橫空出世吼,一時間眾多政府機構(gòu)、央企響應(yīng)接入 DeepSeek,作為算力提供商,華為也必須跟進響應(yīng)。
華為自 2018 年首次發(fā)布昇騰 310 芯片、2019 年推出昇騰 910 芯片以來,持續(xù)投入 AI 基礎(chǔ)算力的研發(fā)與創(chuàng)新。雖然 DeepSeek 開創(chuàng)的模式大幅減少了算力需求,但徐直軍認(rèn)為,要走向 AGI 和物理 AI,華為認(rèn)為,算力,過去是、未來也將繼續(xù)是人工智能的關(guān)鍵。
1、華為發(fā)布多款芯片產(chǎn)品,規(guī)劃已經(jīng)設(shè)到了 2028 年
徐直軍宣布,面向未來,華為已規(guī)劃三個系列的昇騰芯片,包括950、960 和 970 系列。
其中,昇騰 950 系列包含兩顆芯片:950PR 和 950DT,950PR 將于 2026 年一季度上市,950DT 將于 2026 年四季度上市。
昇騰 960 芯片將于 2027 年四季度上市,昇騰 970 芯片則預(yù)計是 2028 年四季度上市。
與上一代相比,昇騰 950 在多個方面實現(xiàn)根本性技術(shù)提升:新增支持 FP8/MXFP8/HIF8、MXFP4 等低精度數(shù)據(jù)格式,算力分別達(dá)到 1 PFLOPS 和 2 PFLOPS,大幅提升訓(xùn)練與推理效率;大幅提升向量算力,支持更精細(xì)粒度內(nèi)存訪問;互聯(lián)帶寬提升 2.5 倍,達(dá)到 2TB/s;并搭載自研 HBM 技術(shù) HIBL1.0 和 HIZQ2.0。
在通算領(lǐng)域,華為規(guī)劃了鯤鵬 950與鯤鵬 960,分別將于 2026 年第四季度和 2028 年第一季度上市,圍繞支持超節(jié)點和更多核、更高性能持續(xù)演進。
此外,華為正式發(fā)布了面向超節(jié)點的互聯(lián)協(xié)議——靈衢,并開放靈衢 2.0 技術(shù)規(guī)范。自 2019 年開始研究,靈衢 1.0 已開啟商用驗證,如今靈衢 2.0 的開放,旨在邀請產(chǎn)業(yè)界基于靈衢研發(fā)相關(guān)產(chǎn)品和部件,共建靈衢開放生態(tài)。
2、發(fā)布全球最強算力超節(jié)點
由于國際政治等復(fù)雜原因,徐直軍也在發(fā)布會上直言,華為單片芯片的算力表現(xiàn)比不過英偉達(dá)," 但華為有三十年在連接技術(shù)的積累,華為的超節(jié)點計算機,能做到世界上算力最強,滿足全世界在 AI 訓(xùn)練推理上的巨大需求。"
超節(jié)點(SuperPod)是眼下是智算發(fā)展的重要趨勢。徐直軍認(rèn)為,超節(jié)點在物理上由多臺機器組成,但邏輯上以一臺機器學(xué)習(xí)、思考、推理。
在具體的超節(jié)點業(yè)務(wù)進展上,華為發(fā)布了 Atlas 950 SuperPoD 和 Atlas 960 SuperPoD。其中基于昇騰 950 芯片的 Atlas 950 超節(jié)點支持 8192 卡規(guī)模,由 128 個計算柜和 32 個互聯(lián)柜組成,占地面積約 1000 平方米,F(xiàn)P8 算力達(dá) 8EFlops,F(xiàn)P4 算力達(dá) 16EFlops,互聯(lián)帶寬高達(dá) 16 PB,相當(dāng)于當(dāng)前全球互聯(lián)網(wǎng)總帶寬的 10 倍以上。
昇騰 950 超節(jié)點將于 2026 年第四季度上市,徐直軍強調(diào),Atlas 950 超節(jié)點將是 2026~2028 年間全球算力最強的 AI 超節(jié)點。
而另外的Atlas 960 超節(jié)點,支持 15488 卡,由 176 個計算柜和 44 個互聯(lián)柜組成,算力、內(nèi)存和帶寬在 Atlas 950 基礎(chǔ)上再度翻番,計劃于 2027 年四季度上市。
徐直軍特別提到,超節(jié)點的價值不僅限于制造、通信和計算等傳統(tǒng)業(yè)務(wù)領(lǐng)域。在互聯(lián)網(wǎng)產(chǎn)業(yè)廣泛應(yīng)用的推薦系統(tǒng)方面也有重要作用。華為基于泰山 950 和 Atlas 950 可構(gòu)建混合超節(jié)點,為下一代深度推薦系統(tǒng)開創(chuàng)全新的架構(gòu)方向。
不過,大規(guī)模超節(jié)點雖然將智能計算和通用計算能力大大提升,但其中的互聯(lián)技術(shù)仍有不成熟的地方。
例如,如何實現(xiàn) 8192 卡乃至 15488 卡規(guī)模的可靠互聯(lián),就是行業(yè)亟待解決的技術(shù)難題。目前產(chǎn)業(yè)界許多已發(fā)布的超節(jié)點方案未能實現(xiàn)大規(guī)模部署,其核心瓶頸并非芯片本身,而是互聯(lián)技術(shù)尚未成熟,具體體現(xiàn)是兩方面的挑戰(zhàn):
一是如何做到長距離而且高可靠。大規(guī)模超節(jié)點機柜多,柜間聯(lián)接距離長達(dá) 1000 至 2000 米。當(dāng)前電互聯(lián)技術(shù)在高速信號傳輸時距離受限,最多僅支持兩個機柜互聯(lián);而光互聯(lián)技術(shù)雖能滿足長距離連接需求,卻無法達(dá)到單一計算機系統(tǒng)所要求的高可靠性。
二是如何實現(xiàn)超大帶寬與超低時延。當(dāng)前跨機柜卡間互聯(lián)帶寬與超節(jié)點需求存在 5 倍以上差距,時延最好僅能達(dá)到 3 微秒左右,與 Atlas 950/960 設(shè)計目標(biāo)仍有 24% 的差距。在時延已逼近物理極限的情況下,每 0.1 微秒的提升都極具挑戰(zhàn)。
徐直軍闡述了兩方面的解決途徑。
首先,為了解決長距離且高可靠問題,華為在互聯(lián)協(xié)議的物理層、數(shù)據(jù)鏈路層、網(wǎng)絡(luò)層、傳輸層等每一層都引入了高可靠機制;同時在光路引入了百納秒級故障檢測和保護切換,當(dāng)出現(xiàn)光模塊閃斷或故障時,讓應(yīng)用無感;并且,華為重新定義和設(shè)計了光器件、光模塊和互聯(lián)芯片。這些創(chuàng)新和設(shè)計讓光互聯(lián)的可靠性提升 100 倍,且互聯(lián)距離超過 200 米,實現(xiàn)了電的可靠和光的距離。
其次,為了解決大帶寬且低時延問題,華為突破了多端口聚合與高密封裝技術(shù),以及平等架構(gòu)和統(tǒng)一協(xié)議,實現(xiàn)了 TB 級的超大帶寬,2.1 微秒的超低時延。
" 正是因為一系列系統(tǒng)性、原創(chuàng)性的技術(shù)創(chuàng)新,我們才攻克了超節(jié)點互聯(lián)技術(shù),滿足了高可靠、全光互聯(lián)、高帶寬、低時延的互聯(lián)要求,讓大規(guī)模超節(jié)點成為了可能。" 徐直軍說到。