AMD 在 COMPUTEX 2025 上正式宣布了 Zen5 架構(gòu)的 AMD 銳龍 Threadripper PRO 9000WX/9000 系列處理器和 RDNA 4 架構(gòu)的 Radeon AI PRO R9700 專業(yè)顯卡。而在當?shù)貢r間 6 月 10 日,AMD 在美國加州圣何塞又舉辦了一場深入的 Workshop 技術(shù)溝通會,分享了更多相關(guān)的技術(shù)細節(jié)與性能數(shù)據(jù)。
Zen5 架構(gòu)加持,新一代線程撕裂者再創(chuàng)性能巔峰
在工作站領(lǐng)域,AMD 可以說做到了全面覆蓋,提供了全平臺的解決方案支持。包括搭載銳龍 AI MAX PRO/AI PRO 系列處理器的工作站筆記本、搭載銳龍線程撕裂者 PRO 的桌面工作站與搭載 Radeon AI PRO 系列顯卡的工作站。
Threadripper(線程撕裂者)系列可以說是 AMD 歷代處理器產(chǎn)品中的傳奇,從初代的 Ryzen Threadripper 1950X 到上代 Ryzen Threadripper PRO 7995WX,核心數(shù)量增長了 5 倍;內(nèi)存帶寬增長了 3 倍;PCIe 帶寬也提升了 3 倍。
而現(xiàn)在,Ryzen Threadripper 9000 系列將與 Radeon 9000 系列打造出強大的新一代 AI 工作站解決方案。
Ryzen Threadripper 9000 系列采用了 Zen5 架構(gòu),同時在 SoC 部分也進行了升級。之前我們在銳龍 9000 系列處理器首發(fā)時已經(jīng)詳細介紹過 Zen5 架構(gòu),簡單來講就是大幅提升了 IPC 和能效表現(xiàn),同時得益于新的制程,可以做到更高的加速頻率。Ryzen Threadripper 9000 系列擁有最多 96 個 Zen5 核心、192 線程,為高負載計算進行了全面優(yōu)化,支持 512bit 數(shù)據(jù)通道的 " 滿血版 "AVX512,增強了 ISA 性能。SoC 部分,將內(nèi)存頻率支持提升到了 DDR5 6400 水平,支持最多 12 個 4nm CCX 芯片,同時還改進了能效表現(xiàn)。
Zen5 架構(gòu)的改進我們之前詳細介紹過,這里簡單提一下重點。Zen5 架構(gòu)增加到了 6 個 ALU,提升了執(zhí)行性能,使用了新一代的分支預(yù)測,大幅提升了緩存效率,同時還具備 4 條管道支持雙倍的 512bit/AVX512 加載。
Zen5 架構(gòu)還大幅增強了 L2 緩存,包括將 L2 緩存連接性能翻倍、L2 緩存到 L1 緩存的數(shù)據(jù)路徑加倍、L2 緩存帶寬加倍等等。同時,還大幅降低了 L3 緩存的延遲。
經(jīng)過一系列的改進,Zen5 在頻率相同的情況下相對 Zen4 帶來了 16% 的工作站性能提升,在 AI&ML 應(yīng)用中更是獲得了高達 25% 的性能提升。
從平臺來看的話,Ryzen Threadripper 9000 系列的重要改進包含幾大方面。內(nèi)存部分,它支持最高 8 通道 DDR5 6400 內(nèi)存,總帶寬可達 410GB/s,甚至還能支持內(nèi)存超頻到 DDR5 7000+ 水平;主板部分,依然兼容現(xiàn)有 sTR5 平臺,支持 AMD PRO 技術(shù);I/O 部分,同樣最多提供 128 條 PCIe 5.0 通道,但得益于 SoC 的改進,PCIe 帶寬也得到了提升。
綜合來講,Ryzen Threadripper 9000 系列的重要賣點就是 IPC 相對上代提升 16%、支持 512bit 數(shù)據(jù)通道滿血 AVX512、支持 8 通道 DDR5 6400 內(nèi)存。
得益于一系列的改進和升級,Ryzen Threadripper 9000 系列堪稱世界上最強的工作站處理器。它在設(shè)計與制造、建筑工程與施工、多媒體與娛樂、軟件與科學計算方面都能提供極為強大的性能支持。
AMD 放出了 Ryzen Threadripper PRO 9995WX 與上代 Ryzen Threadripper PRO 7995WX 的性能對比數(shù)據(jù)。從圖中可以看到,在多媒體和娛樂方面,PRO 9995WX 領(lǐng)先 PRO 7995WX 的幅度大約在 17%~26%;在設(shè)計與制造方面,領(lǐng)先幅度也是 17%~26%;在建筑工程與施工方面,領(lǐng)先幅度為 13%~15%;在軟件和科學計算方面,大約領(lǐng)先 22%~23%。
如果拿 Ryzen Threadripper PRO 9995WX 和競品的 Xeon W9-3595X 對比的話,純 CPU 建模速度大約快 70%、渲染速度大約快 119%;如果搭載 GPU 進行對比,建模速度和渲染速度也分別快出 56% 和 22%。因此,AMD 也宣稱 Ryzen Threadripper PRO 9000 是最好的設(shè)計與制造處理器。
在多媒體和娛樂方面,Ryzen Threadripper PRO 9995WX 和競品的 Xeon W9-3595X 對比,純 CPU 渲染速度大約快 118%~145%;如果搭載 GPU 進行對比,渲染速度快出 78%~83%。毫無懸念,Ryzen Threadripper PRO 9000 也是最好的多媒體與娛樂內(nèi)容創(chuàng)作的高效利器。
在建筑工程和施工方面,Ryzen Threadripper PRO 9995WX 和競品的 Xeon W9-3595X 對比,純 CPU 建模速度最高提升 40%、渲染速度大約快 118%;如果搭載 GPU 進行對比,創(chuàng)作速度快出 40%、剪輯速度快出 34%。因此,在這個領(lǐng)域 Ryzen Threadripper PRO 9000 也是最強大的存在。
在軟件和科學計算方面,Ryzen Threadripper PRO 9995WX 和競品的 Xeon W9-3595X 對比,純 CPU 編譯,在 Chromium 中領(lǐng)先 52%、UE5.5 中領(lǐng)先 73%;MATLAB 中領(lǐng)先 75%。對于這方面的用戶來講,Ryzen Threadripper PRO 9000 同樣是最高效的選擇。
在 AI 方面,Ryzen Threadripper PRO 9995WX 和競品的 Xeon W9-3595X 對比,在 DeepSeek R1 32B LLM 中 Toks/s 領(lǐng)先 49%,在 ComfyUI 中文生圖領(lǐng)先 34%、Pugetbench Davinci Resolve Studio AI Extend Tests 中領(lǐng)先 28%,更多的核心 / 線程數(shù)量和更高的內(nèi)存帶寬功不可沒。
具體產(chǎn)品規(guī)格部分,我們之前也介紹過。本次首發(fā)的銳龍 Threadripper 新品分為 PRO 9000WX 系列和 9000 系列,其中銳龍 Threadripper PRO 9000WX 系列針對專業(yè)高性能工作站,最高規(guī)格方面相對 9000 系列更高,一共擁有 6 款型號。
頂級旗艦 AMD 銳龍 Threadripper Pro 9995WX 擁有 96 核 192 線程,基礎(chǔ)頻率 2.5 GHz,最高加速頻率 5.4 GHz,384MB 三級緩存。
AMD 銳龍 Threadripper Pro 9985WX 擁有 64 核 128 線程,基礎(chǔ)頻率 3.2 GHz,最高加速頻率 5.4 GHz,256MB 三級緩存。
AMD 銳龍 Threadripper Pro 9975WX 擁有 32 核 64 線程,基礎(chǔ)頻率 4.0 GHz,最高加速頻率 5.4 GHz,128MB 三級緩存。
AMD 銳龍 Threadripper Pro 9965WX 擁有 24 核 48 線程,基礎(chǔ)頻率 4.2 GHz,最高加速頻率 5.4 GHz,128MB 三級緩存。
AMD 銳龍 Threadripper Pro 9955WX 擁有 16 核 32 線程,基礎(chǔ)頻率 4.5 GHz,最高加速頻率 5.4 GHz,64MB 三級緩存。
AMD 銳龍 Threadripper Pro 9945WX 擁有 12 核 24 線程,基礎(chǔ)頻率 4.7 GHz,最高加速頻率 5.4 GHz,64MB 三級緩存。
所有型號的 TDP 都是 350W,與上代保持了一致,但細心的朋友可能已經(jīng)發(fā)現(xiàn)了,和上代核心越多加速頻率越低不一樣的是銳龍 Threadripper Pro 9000WX 系列的最高加速頻率都是 5.4 GHz,可見 4nm Zen5 架構(gòu)在體質(zhì)和電氣性能方面確實更為強悍。
接口方面,銳龍 Threadripper Pro 9000WX 依然使用了 sTR5,因此可以兼容 WRX90 和 TRX50 主板,上代線程撕裂者用戶可以無縫升級。值得注意的是,WRX90 只支持 PRO 9000WX 系列,而 TRX50 可以同時支持 PRO 9000WX 和 HEDT 的 9000X 系列。當然,如果把銳龍 Threadripper Pro 9000WX 裝到 TRX50 主板上,那么它也只能支持 4 通道 DDR5 6400 和 80 條 PCIe 5.0 通道。
接下來就是針對 HEDT 平臺的銳龍 Threadripper 9000X 系列,這個系列面向 HEDT 用戶,用來打造頂級的高性能 PC。
從 AMD 給出的 9 項測試數(shù)據(jù)來看,銳龍 Threadripper 9980X 相對競品 Xeon W9-3595X 在內(nèi)容創(chuàng)作方面領(lǐng)先 22%~92%;在 3D 制圖和可視化處理方面領(lǐng)先 41%~108%;在軟件和科學計算方面領(lǐng)先 41%~68%,可以說優(yōu)勢非??鋸埩恕?/p>
銳龍 Threadripper 9000 系列目前包含 3 款產(chǎn)品,分別是 64 核 128 線程的 AMD 銳龍 Threadripper 9980X、32 核 64 線程的 AMD 銳龍 Threadripper 9970X 與 24 核 48 線程的 AMD 銳龍 Threadripper 9960X。這 3 款型號與核心數(shù)量相同的 AMD 銳龍 Threadripper Pro 9000WX 系列擁有同樣的頻率、緩存、PCIe 版本、TDP 設(shè)定與主板接口標準,只是精簡了針對企業(yè)用戶的 AMD PRO 安全技術(shù)。此外,由于只能搭配 TRX50 主板使用,它們也只能最多支持到 4 通道 DDR5 內(nèi)存。
Radeon AI PRO R9700 顯存量大管飽,跑超大模型更給力
目前 AMD 針對不同規(guī)模的 AI 應(yīng)用都有對應(yīng)的 AI 生態(tài)解決方案。對于個人用戶和中小型 LLM,可以使用搭載統(tǒng)一內(nèi)存的 Ryzen AI MAX 平臺;針對多 GPU 邊緣計算用戶和中小型 LLM,可以使用搭載超大顯存的 Radeon AI PRO 平臺;而對于機架擴展級別、需要訓練超大 LLM 模型的用戶,則可以選擇 AMD Instinct 解決方案。
所以這次 Radeon AI PRO R9700 顯卡就配備了更加高效的 RDNA 4 架構(gòu)。主要帶來了幾大改進:優(yōu)化的單片設(shè)計,使用 4nm 工藝、支持 PCIe 5.0 接口;改進了命令處理器,增強了包加速器;搭載高速 GDDR6 顯存,最高提供 256bit/20Gbps/32GB 的規(guī)格,并增強了內(nèi)存壓縮;優(yōu)化了緩存系統(tǒng),內(nèi)置 64MB 第三代無限緩存,配備 8MB L2 緩存,擁有 2MB CU 緩存;配備第二代 AI 加速器,提升了 Tensor 頻率,支持新的 FP8 數(shù)據(jù)類型和結(jié)構(gòu)化稀疏。
而在 RDNA 4 的 CU 單元方面,也帶來了幾大改進。包括:增強了矩陣操作;升級了標量單元;升級了調(diào)度器;提升了光線加速單元。
具體顯卡部分,Radeon AI PRO R9700 擁有 128 個 AI 加速器,搭載 256bit/20Gbps/32GB GDDR6 顯存,最高 FP16 稠算力可達 191 TFLOPS、INT4 稀疏算力可達 1531 TOPS。整板功率為 300W。
綜合來看,Radeon AI PRO R9700 算力最高可達上代 Radeon PRO W7800 的 4 倍,從圖中可以看到,對比每時鐘 / 每 CU 的算力,Radeon AI PRO R9700 在 FP16/BF16 方面領(lǐng)先一倍;在 INT8 方面領(lǐng)先三倍;在 INT4 方面也領(lǐng)先三倍,并且新增了對 FP8 以及結(jié)構(gòu)化稀疏的支持。
我們知道,現(xiàn)在流行的 AI 大模型由于參數(shù)的增加,對顯存的需求越來越大,譬如 DeepSeek R1 Distill Qwen 32B Q6,就需要高達 28GB 顯存。這就意味著顯存低于 32GB 的顯卡在運行它時就會爆顯存。而具備 32GB 顯存的 Radeon AI PRO R9700 自然就毫無壓力了。
此外,更大的模型也意味著更高的精度和更好的計算結(jié)果。從圖中可以看到,使用 8B 參數(shù)和 1B 參數(shù)實現(xiàn)的文生圖完全不是一個檔次的效果,參數(shù)越多越真實。同時,參數(shù)越多,最終得到的結(jié)果準確度也越高,8B 的時候只有 4/20 的準確度,而 32B 可以達到 20/20。
在單 GPU 配置下比較稀疏化 AI 性能,Radeon AI PRO R9700 在 DeepSeek R1 Distill Qwen 的 1.5B、7B、14B 和 Llama 8B 模型中分別領(lǐng)先 Radeon PRO W7800 大約 34%、74%、63% 和 105%,升級幅度巨大。
Radeon AI PRO R9700 還支持 4 卡并聯(lián),最高支持 180 個并發(fā)實例。從圖中可以看到,在使用 DeepSeeK R1 Distill Qwen 32B 模型 /180 個并發(fā)實例時,4 塊 Radeon AI PRO R9700 的 Tokens/s 可達 1780,性能是非常搶眼的。
AMD 的合作伙伴已經(jīng)推出了搭載銳龍 Threadripper PRO 9000WX 和 Radeon AI PRO R9700 的工作站和服務(wù)器產(chǎn)品。例如 Supermicro 的 WS 2115HV-TNRT,就搭載了單顆銳龍 Threadripper PRO 9000WX 處理器、8 通道 DDR5 ECC RDIMM 內(nèi)存和最多 4 塊 Radeon AI PRO R9700。特別值得一提的是,這款 2U 機型還支持內(nèi)存超頻。
從 Supermicro 展示的數(shù)據(jù)來看,這顆 64 核 128 線程的銳龍 Threadripper PRO 9000WX 工程版在搭載 4 通道 DDR5 的情況下,已經(jīng)將內(nèi)存超頻到了 7200MT/s??梢婁J龍 Threadripper PRO 9000WX 這一代的 SoC 確實相當給力。
總結(jié):AMD 在 AI 和高性能計算方面繼續(xù)創(chuàng)造巔峰
最后簡單總結(jié)一下 AMD 本次 Workshop 技術(shù)溝通會的內(nèi)容重點。首先是 AMD 銳龍 Threadripper PRO 9000WX/9000 系列將架構(gòu)升級到了 Zen5,IPC 和能效方面都得到了大幅提升,同時還加強了 SoC,支持最多 8 通道 DDR5 6400 內(nèi)存,因此在各種專業(yè)應(yīng)用領(lǐng)域都繼續(xù)保持了絕對領(lǐng)先的地位;然后是 Radeon AI PRO R9700 專業(yè)顯卡,它采用全面增強的 RDNA 4 架構(gòu),擁有 32GB 大顯存和支持多卡并聯(lián),用它和 AMD 銳龍 Threadripper PRO 9000WX/9000 系列搭配打造的工作站 / 服務(wù)器,能夠更好地面對更多參數(shù)的 AI 大模型、提供更高的推理準確度,為用戶提供了強大而高效的 AI 硬件平臺解決方案,對于高端內(nèi)容創(chuàng)建者來說堪稱無論如何都必須擁有的高效裝備。搭載 AMD 銳龍 Threadripper PRO 9000WX/9000 系列和 Radeon AI PRO R9700 專業(yè)顯卡的具體產(chǎn)品將在接下來的時間陸續(xù)上市,有需求的專業(yè)用戶一定不要錯過。