文 | 半導(dǎo)體產(chǎn)業(yè)縱橫
在 ASIC 市場(chǎng),近日聽到的一些言論是相悖的。
" 全球眾多 ASIC 項(xiàng)目中,90% 會(huì)失敗 " 這句話來自英偉達(dá) CEO 黃仁勛。
黃仁勛對(duì)于 ASIC 的評(píng)價(jià)并不算多。因此相關(guān)言論一出,市場(chǎng)上關(guān)于 ASIC 成長(zhǎng)性的討論瞬間多了起來,各種猜測(cè)層出不窮。
黃仁勛表示,相較于英偉達(dá)主打通用 GPU 架構(gòu),ASIC 專為特定任務(wù)打造,雖在單一用途上效能與效率極高,但缺乏靈活性與擴(kuò)展性。這種 " 單點(diǎn)優(yōu)化 " 策略,難以應(yīng)對(duì) AI 應(yīng)用快速演進(jìn)的現(xiàn)實(shí)。黃仁勛評(píng)價(jià) ASIC 時(shí)并非否認(rèn)其價(jià)值,而是強(qiáng)調(diào) " 入場(chǎng)門檻與運(yùn)維難度都很高 "。他以谷歌 TPU 為例稱,其團(tuán)隊(duì)是 " 全球最強(qiáng) ASIC 團(tuán)隊(duì) ",但即便如此,谷歌 Gemini 模型仍同時(shí)部署在英偉達(dá) GPU 上。
但市場(chǎng)上另一種聲音同樣有依據(jù)——在 ASIC 的迅猛發(fā)展中,英偉達(dá)已嗅到危險(xiǎn)的信號(hào)。
01 ASIC,趕超 GPU?
在算力芯片市場(chǎng),ASIC 的 " 簇?fù)碚?" 可并不算少。在 ASIC 芯片大廠、云巨頭等助推下,AI 算力市場(chǎng)正在迎來新的臨界點(diǎn)。
根據(jù)野村證券的最新報(bào)告,目前英偉達(dá) GPU 占 AI 服務(wù)器市場(chǎng) 80% 以上,ASIC 僅占 8%-11%。
然而,從出貨量的角度來看,情況正在發(fā)生變化。到 2025 年,谷歌的 TPU 出貨量預(yù)計(jì)將達(dá)到 150-200 萬(wàn)臺(tái),亞馬遜 AWS Trainium 2 ASIC 約為 140-150 萬(wàn)臺(tái),而英偉達(dá)的 AI GPU 供應(yīng)量將超過 500-600 萬(wàn)臺(tái)。
供應(yīng)鏈調(diào)查顯示,Google 和 AWS 的 AI TPU/ASIC 的總出貨量已經(jīng)達(dá)到 Nvidia AI GPU 出貨量的 40%-60%。
隨著 Meta 于 2026 年開始大規(guī)模部署其自主開發(fā)的 ASIC 解決方案,Microsoft 將于 2027 年開始大規(guī)模部署,預(yù)計(jì) ASIC 總出貨量將在 2026 年的某個(gè)時(shí)候超過英偉達(dá) GPU 出貨量。
這也意味著,屬于 ASIC 的時(shí)代將正式到來。
OpenAI 宣布測(cè)試谷歌 TPU 的消息也進(jìn)一步點(diǎn)燃市場(chǎng)熱情。據(jù)悉,人工智能(AI)技術(shù)大廠 OpenAI 已開始租用谷歌的 AI 芯片,以支持旗下 ChatGPT 和其他產(chǎn)品的計(jì)算需求。對(duì)此 OpenAI 回應(yīng)稱,目前沒有使用谷歌自研芯片來驅(qū)動(dòng)產(chǎn)品的計(jì)劃。
不過,OpenAI 發(fā)言人指出,雖然公司的 AI 實(shí)驗(yàn)室確實(shí)正在初步測(cè)試部分谷歌的 TPU,但目前尚無(wú)計(jì)劃大規(guī)模采用。
目前,OpenAI 主要依賴英偉達(dá)的 GPU 以及 AMD 的 AI 芯片來滿足其日益成長(zhǎng)的 AI 計(jì)算需求。為了降低對(duì)于英偉達(dá)、AMD 的依賴,OpenAI 也正在開發(fā)自家芯片,計(jì)劃今年達(dá)成 "tape-out" 里程碑,即芯片設(shè)計(jì)完成并送交制造。
上一位采用谷歌 TPU 而引起轟動(dòng)的是蘋果。去年 7 月,蘋果在官網(wǎng)的一篇論文中披露,其訓(xùn)練模型采用了谷歌研發(fā)的第四代 AI ASIC 芯片 TPUv4 和更新一代的芯片 TPUv5。
在去年之前,與英偉達(dá) GPU 相比,谷歌的 TPU 還像是一位 " 名不見經(jīng)傳 " 的小將,如今看來,似乎已有實(shí)力與英偉達(dá) GPU 展開一番較量。
但是在筆者看來,"ASIC 芯片是否在未來有望碾壓 GPU?" 這更像一個(gè)偽命題。
02 ASIC,核心優(yōu)勢(shì)
市場(chǎng)普遍認(rèn)為,ASIC 芯片正成為 AI 芯片的重要分支。但是 ASIC 究竟以何種優(yōu)勢(shì)給 GPU 帶來沖擊?以及具體帶來哪些沖擊,相關(guān)討論卻較少。
針對(duì)一系列問題,筆者將對(duì)此展開討論。
根據(jù)承擔(dān)任務(wù)的不同,AI 芯片主要可以分為兩類,它們分別是 AI 訓(xùn)練芯片和 AI 推理芯片。
2025 年,全球 AI 推理算力需求呈現(xiàn)爆發(fā)式增長(zhǎng),特別是在端側(cè)應(yīng)用場(chǎng)景中。這對(duì)于 ASIC 來說,也是一個(gè)契機(jī)。
首先說一下什么是推理。
推理是 " 用已訓(xùn)練好的模型處理數(shù)據(jù) " 的過程(比如用訓(xùn)練好的圖像識(shí)別模型識(shí)別照片、用語(yǔ)音模型轉(zhuǎn)寫語(yǔ)音)。一旦模型部署,其算法邏輯(如 CNN 的卷積層、Transformer 的注意力機(jī)制)、計(jì)算流程(輸入輸出格式、精度需求)會(huì)長(zhǎng)期固定,幾乎不需要調(diào)整。
這種 " 固定性 " 正好匹配 ASIC 的核心優(yōu)勢(shì) ——為單一任務(wù)定制硬件架構(gòu):可以直接將推理算法的計(jì)算邏輯、數(shù)據(jù)路徑 " 固化 " 到芯片中,去掉所有無(wú)關(guān)的通用計(jì)算單元(如 GPU 中用于訓(xùn)練的動(dòng)態(tài)調(diào)度模塊、通用內(nèi)存控制器),讓硬件資源 100% 服務(wù)于推理計(jì)算。
同理,ASIC 在訓(xùn)練任務(wù)中的能力就相對(duì)弱一點(diǎn)。因?yàn)橛?xùn)練任務(wù)算法迭代快,需求靈活。ASIC 若用于訓(xùn)練,算法更新時(shí),芯片面臨失效風(fēng)險(xiǎn),性價(jià)比要低得多。
推理場(chǎng)景對(duì)" 能效比 "(每瓦功耗能提供的算力)和 " 成本 " 的敏感度遠(yuǎn)高于訓(xùn)練,而 ASIC 在這兩方面具有碾壓性優(yōu)勢(shì)。
能效比方面,谷歌 TPU v5e TPU 的能效比是英偉達(dá) H100 的 3 倍。
成本方面,AWS 的 Trainium 2 在推理任務(wù)中性價(jià)比比 H100 高 30%-40%,谷歌的 TPUv5、亞馬遜的 Trainium2 單位算力成本僅為英偉達(dá) H100 的 70% 和 60%。
一個(gè)大模型可能只需要幾十到幾百?gòu)堄?xùn)練芯片(如 GPU),但推理階段可能需要數(shù)萬(wàn)甚至數(shù)十萬(wàn)張芯片(比如 ChatGPT 的推理集群規(guī)模是訓(xùn)練集群的 10 倍以上)。因此 ASIC 的 " 定制化 " 設(shè)計(jì)可以降低單芯片成本。
VerifiedMarketResearch 數(shù)據(jù)顯示,2023 年 AI 推理芯片市場(chǎng)規(guī)模為 158 億美元,預(yù)計(jì)到 2030 年將達(dá)到 906 億美元,在 2024-2030 年預(yù)測(cè)期內(nèi)的復(fù)合年增長(zhǎng)率為 22.6%。
當(dāng)前的推理場(chǎng)景正呈現(xiàn) ASIC 與 GPU 共存競(jìng)爭(zhēng)的格局,ASIC 芯片市場(chǎng)空間巨大。
近日,博通 CEO Hock Tan 與 CFO Kirsten Spears 也在會(huì)議中強(qiáng)調(diào),該公司 AI 推理領(lǐng)域的訂單顯著增加,該公司目前正與四個(gè)潛在的 AI XPU 客戶緊密合作,計(jì)劃在今年為摩根大通認(rèn)為的 Arm/ 軟銀和 OpenAI 等主要客戶完成第一代 AI XPU 產(chǎn)品的流片。
再看訓(xùn)練市場(chǎng)的競(jìng)爭(zhēng)態(tài)勢(shì)。AI 訓(xùn)練芯片市場(chǎng),幾乎沒有幾家競(jìng)爭(zhēng)者,英偉達(dá)一家就占據(jù)了 AI 訓(xùn)練市場(chǎng) 90% 以上份額,其 Blackwell 架構(gòu)支持 1.8 萬(wàn)億參數(shù)模型訓(xùn)練,且 NVLink 6 技術(shù)實(shí)現(xiàn) 72 卡集群無(wú)縫互聯(lián)。
上文提到,訓(xùn)練任務(wù)的 " 靈活性 " 與 GPU 架構(gòu)天然契合,此外,英偉達(dá)通過 CUDA 平臺(tái)構(gòu)建了難以撼動(dòng)的軟件生態(tài):90% 以上的 AI 框架(TensorFlow、PyTorch)原生支持 CUDA,開發(fā)者無(wú)需重寫代碼即可調(diào)用 GPU 算力。這種生態(tài)慣性使得即使 AMD、華為等廠商推出性能接近的訓(xùn)練芯片,用戶遷移成本依然極高。
有業(yè)內(nèi)人士向半導(dǎo)體產(chǎn)業(yè)縱橫表示,模型架構(gòu)的穩(wěn)定性是 ASIC 發(fā)揮價(jià)值的核心前提——模型穩(wěn)定時(shí),ASIC 的低成本、高效能優(yōu)勢(shì)能充分釋放;模型快速迭代甚至出現(xiàn)革命性變革時(shí),ASIC 容易因適配滯后而失效。
這也是為什么業(yè)內(nèi)一些專家將 ASIC 市場(chǎng)規(guī)模爆發(fā)的節(jié)點(diǎn)指向 2026 年。ASIC 的設(shè)計(jì)周期長(zhǎng)達(dá) 1-2 年,而 AI 模型迭代速度極快(如大模型從 GPT-3 到 GPT-4 僅用 1 年)。若 ASIC 設(shè)計(jì)時(shí)錨定的模型過時(shí)(如 Transformer 替代 CNN),芯片可能直接失效。
而如今隨著大模型的發(fā)展,算法初步固化。再加上 ASIC 成本的持續(xù)下探,它也便有了更好展示自己的舞臺(tái)。
至于 ASIC 是否會(huì)替代 GPU?在筆者看來這個(gè)問題為時(shí)尚早。
短時(shí)間內(nèi)看,ASIC 和 GPU 的競(jìng)爭(zhēng),本質(zhì)是 " 效率 " 與 " 靈活性 " 的權(quán)衡,二者暫時(shí)并非互相替代關(guān)系。ASIC 在特定場(chǎng)景的優(yōu)勢(shì),無(wú)法打破 GPU 的生態(tài)壁壘;而 GPU 的通用性,讓它在復(fù)雜任務(wù)中難以被替代。未來,兩者會(huì)借助混合架構(gòu)(如 GPU + ASIC 加速卡)和異構(gòu)計(jì)算(如 CUDA 與定制指令集協(xié)同),實(shí)現(xiàn)資源最優(yōu)配置。
未來隨著 AI 市場(chǎng)的發(fā)展,究竟需要何種芯片,尚難定論。
03 芯片龍頭,紛紛切入 ASIC
除了谷歌,國(guó)內(nèi)外均有多家 AI 芯片公司選擇擁抱 ASIC。
Meta
Meta 的核心算力負(fù)載來源于推薦系統(tǒng)場(chǎng)景,具備自研強(qiáng)調(diào)專用性的 ASIC 芯片的土壤。
Meta 于 2023 年和 2024 年分別推出 MTIA V1 和 MTIA V2 芯片。此外,Meta 還計(jì)劃 2026 年推出 MTIA V3 芯片,預(yù)計(jì)將搭載高端 HBM,與 V1/V2 芯片專注于廣告與社交網(wǎng)絡(luò)等特定任務(wù)不同,有望擴(kuò)展應(yīng)用至模型的訓(xùn)練與推理任務(wù)。
亞馬遜 AWS
AWS 在 AI 芯片的布局主要包含推理芯片 Inferentia 和訓(xùn)練芯片 Trainium 兩大系列。
自 2020 年以來,亞馬遜發(fā)布了三代 Trainium 芯片。其中 Trainium3 性能或較上一代提升 2 倍,能效提升 40%,搭載該芯片的 UltraServers 性能預(yù)計(jì)提升 4 倍。
微軟
2023 年 11 月,微軟在 Ignite 技術(shù)大會(huì)上發(fā)布了首款自家研發(fā)的 AI 芯片 Azure Maia 100,以及應(yīng)用于云端軟件服務(wù)的芯片 Azure Cobalt。兩款芯片將由臺(tái)積電代工,采用 5nm 制程技術(shù)。
Cobalt 是基于 Arm 架構(gòu)的通用型芯片,具有 128 個(gè)核心,Maia 100 是一款專為 Azure 云服務(wù)和 AI 工作負(fù)載設(shè)計(jì)的 ASIC 芯片,用于云端訓(xùn)練和推理的,晶體管數(shù)量達(dá)到 1050 億個(gè)。這兩款芯片將導(dǎo)入微軟 Azure 數(shù)據(jù)中心,支持 OpenAI、Copilot 等服務(wù)。
下一代 Maia v2 的設(shè)計(jì)已確定,后端設(shè)計(jì)及量產(chǎn)交付由 GUC 負(fù)責(zé)。除深化與 GUC 的合作外,微軟還引入美滿電子共同參與 Maiav2 進(jìn)階版的設(shè)計(jì)開發(fā),以強(qiáng)化自研芯片的技術(shù)布局,有效分散開發(fā)過程中的技術(shù)與供應(yīng)鏈風(fēng)險(xiǎn)。
華為海思旗下昇騰系列處理器自誕生以來,憑借其強(qiáng)勁的算力和創(chuàng)新的設(shè)計(jì),特別是昇騰 910B,在技術(shù)和應(yīng)用上都取得了顯著突破。
寒武紀(jì)作為國(guó)內(nèi) AI 芯片設(shè)計(jì)領(lǐng)域的佼佼者,在推理計(jì)算及邊緣設(shè)備 AI 加速方面市場(chǎng)競(jìng)爭(zhēng)力日益凸顯。寒武紀(jì)的旗艦產(chǎn)品 MLU590 專注于 AI 訓(xùn)練與推理。
在全球 AI 芯片競(jìng)爭(zhēng)中,國(guó)產(chǎn) ASIC 芯片既面臨挑戰(zhàn),也迎來歷史性機(jī)遇。通過持續(xù)創(chuàng)新和技術(shù)突破,國(guó)產(chǎn) ASIC 正逐步擴(kuò)大市場(chǎng)份額。
04 ASIC 芯片,兩大受益者
在 ASIC 市場(chǎng),目前博通以 55%~60% 的份額位居第一,Marvell 以 13%~15% 的份額位列第二。
博通在 AI 芯片領(lǐng)域的核心優(yōu)勢(shì)在于定制化 ASIC 芯片和高速數(shù)據(jù)交換芯片,其解決方案廣泛應(yīng)用于數(shù)據(jù)中心、云計(jì)算、HPC(高性能計(jì)算)和 5G 基礎(chǔ)設(shè)施等領(lǐng)域。博通的 ASIC 芯片業(yè)務(wù)已成為其核心增長(zhǎng)點(diǎn)。財(cái)報(bào)披露,定制 AI 芯片(ASIC)銷售額預(yù)計(jì)占第二季度總 AI 半導(dǎo)體收入的 70%,達(dá) 308 億美元(約合 450 億美元)。
目前,博通已與三家超大規(guī)模云服務(wù)提供商(如谷歌、Meta、字節(jié)跳動(dòng))合作,并新增 OpenAI、蘋果等客戶,未來計(jì)劃擴(kuò)展至七家大型科技企業(yè)。其中博通有兩個(gè)大合作備受關(guān)注:第一是 Meta 與博通已合作開發(fā)了前兩代 AI 訓(xùn)練加速處理器,目前雙方正加速推進(jìn)第三代 MTIA 芯片的研發(fā),預(yù)計(jì) 2024 年下半年至 2025 年將取得重要進(jìn)展。
Marvell 的定制 ASIC 業(yè)務(wù)正成為其強(qiáng)勁增長(zhǎng)的核心動(dòng)力之一。Marvell 的具體業(yè)務(wù)中,數(shù)據(jù)中心業(yè)務(wù)占據(jù) 75% 左右,屬于高成長(zhǎng)業(yè)務(wù)。這部分業(yè)務(wù)包括 SSD 控制器、高端以太網(wǎng)交換機(jī)(Innovium)及定制 ASIC 業(yè)務(wù)(亞馬遜 AWS 等定制化芯片),主要應(yīng)用于云服務(wù)器、邊緣計(jì)算等場(chǎng)景。
根據(jù)公司交流及產(chǎn)業(yè)鏈信息推測(cè),Marvell 當(dāng)前的 ASIC 收入主要來自亞馬遜的 Trainium 2 和谷歌的 Axion Arm CPU 處理器,而公司與亞馬遜合作的 Inferential ASIC 項(xiàng)目也將在 2025 年(即 2026 財(cái)年)開始量產(chǎn)。公司與微軟合作的 Microsoft Maia 項(xiàng)目,有望在 2026 年(即 2027 財(cái)年)。