作者 | 丸都山
編輯 | 苗正卿
頭圖 | 視覺中國
8 月 22 日,據(jù)《The Information》報道,英偉達已通知安靠科技和三星電子等關(guān)鍵供應(yīng)商暫停與 H20 芯片相關(guān)的生產(chǎn)。
而就在上周,美國白宮方面表示,英偉達已經(jīng)同意將其在華銷售芯片收入的 15% 上繳美國政府,以換取相關(guān)產(chǎn)品出口許可。
如果把這兩條消息放在一起看,或許會得出一條結(jié)論:英偉達會再次終止 H20 芯片的對華銷售。
但果真如此嗎?需要說明的是,以目前 AI 算力芯片的產(chǎn)業(yè)格局來看,英偉達完全有能力將這部分上繳的收入轉(zhuǎn)移到中國客戶身上,且即便價格上漲 18%(此漲幅下,收入端不變),在中國市場仍有較強的競爭力。
既然這樣,英偉達為什么選擇這個時間點通知供應(yīng)鏈暫停生產(chǎn)?
H20,越來越不掙錢了
雖然中國市場對于 H20 芯片的需求一貫強勁,但對于英偉達來說,這個產(chǎn)品可能并不算一門好生意。
準(zhǔn)確地來說,在上代 Hopper 架構(gòu)的 GPU 產(chǎn)品中,H20 長期都是毛利率墊底的存在。
之所以會造成這個問題,是因為在 BIS(美國商務(wù)部工業(yè)與安全局)規(guī)定下,英偉達 H20 本就是一枚 " 設(shè)計畸形 " 的芯片。比如在去年 5 月發(fā)布的 BIS 新規(guī)下,對 " 性能密度 " 做出限制,因此英偉達在設(shè)計 H20 時對算力規(guī)格大砍一刀,使其理論性能僅為 296TFLOP,相當(dāng)于 H100 芯片的 15%。
又比如新規(guī)中取消了將 " 互聯(lián)帶寬 " 作為限制芯片的識別參數(shù),英偉達就將 H20 的 HBM3 顯存容量拉高到 96Gb,使顯存帶寬提高到 4.0Tb/s。
而這些特征組合在一起,卻形成了一個很尷尬的事實:在算力大幅削減的情況下,H20 的 BOM(綜合硬件成本)很可能跟 H100 齊平,甚至高于后者。
原因在于,存儲顆粒一直是高性能計算卡成本的 " 大頭 ",比如 H100 芯片中,HBM3 顆粒的采購就要占到 60% 左右,而在 H20 芯片上,英偉達又不得不為其配備更高規(guī)格的顯存容量,以彌補算力不足的缺陷。
在今年 4 月,美國白宮又宣布,在未經(jīng)許可的情況下,英偉達禁止向中國出售 H20 芯片,這直接導(dǎo)致英偉達在今年一季度積壓的 25 億美元訂單無法交付,所有的 H20 庫存積壓和原材料采購承諾共計產(chǎn)生了 45 億美元的費用。
后續(xù)黃仁勛在參加鏈博會時,又表示美國政府已經(jīng)取消了針對 H20 的禁令,不過伴隨這一連串的 " 反復(fù)橫跳 ",可以推導(dǎo)出兩個基本事實:
首先,迄今為止,英偉達 H20 芯片的庫存及原材料仍未被消耗掉,因此近期通知供應(yīng)商停產(chǎn)很可能是一次正常的供應(yīng)鏈調(diào)整,不能說明英偉達不打算在國內(nèi)停售 H20 芯片。
其次,無論是 H20 最初設(shè)計構(gòu)想,還是后續(xù)的庫存積壓,亦或是被強行征收了 15% 的所得稅,都導(dǎo)致 H20 這枚芯片所帶來的盈利能力愈發(fā)降低。
更重要的是,基于新架構(gòu) Blackwell 設(shè)計的 B30A 芯片即將在中國市場開售。
B30A,有多大競爭力?
在 Blackwell 架構(gòu)的首款產(chǎn)品芯片發(fā)布后,關(guān)于下一代 " 中國特供版 " 的消息便不脛而走。
目前,得到業(yè)界公認(rèn)的一個說法是,這枚芯片被命名為 B30A 的芯片,采用與 B300 芯片同樣的 Blackwell Ultra 微架構(gòu),但僅使用一個計算芯片(B300 使用的是雙芯片),提供約為 B300 性能和內(nèi)存容量的一半。
同樣在 8 月 22 日,黃仁勛造訪臺積電時透露,英偉達正在與美國政府磋商,討論對中國出口一款新型人工智能芯片,這大概率就是坊間傳言的 B30A 芯片。
不過,從二級市場的情緒來看,這款芯片在國內(nèi)的前景可能并不完全明朗。在 22 日當(dāng)天,寒武紀(jì)、海光信息兩大國產(chǎn) GPU 巨頭雙雙 20% 漲停,直接強勢帶動整個 " 算力股 " 板塊上漲。
這與去年年初 H20 開始供貨時,A 股算力股集體下跌形成截然不同的對比。
究其原因,或許有二。
一方面,從目前流傳出的 B30A 規(guī)格來看,即便只使用一個 die,其算力也很可能超過上代旗艦產(chǎn)品 H100,未來這款產(chǎn)品能否順利出口到中國,還充滿著不確定性。
另外,本周 DeepSeek-V3.1 的發(fā)布為國產(chǎn) GPU 帶來了一大利好,即該版本模型使用了 UE8M0 FP8 Scale 的參數(shù)精度。在使用英偉達算力芯片時,由于需要兼容傳統(tǒng)通 FP8 格式,硬件設(shè)計仍保留符號位邏輯,導(dǎo)致 UE8M0 的加速潛力無法完全釋放。
但在國產(chǎn)芯片上,由于主流的 GPU 早已完成 FlashMLA 和 DeepGEMM 的適配,因此在 DeepSeek-V3.1 版本上可以實現(xiàn)無縫接入。
因此,至少在 DeeSeek 的模型訓(xùn)練上,國產(chǎn) GPU 眼下仍具備一定的優(yōu)勢。