Nature 封面認證!DeepSeek R1 成果,又拿下了最新殊榮。
就在最新的 Nature 新刊中,DeepSeek 一舉成為首家登上《Nature》封面的中國大模型公司,創(chuàng)始人梁文鋒擔(dān)任通訊作者。
縱觀全球,之前也只有極少數(shù)如 DeepMind 者,憑借 AlphaGo、AlphaFold 有過類似榮譽。
評審該論文的 Hugging Face 機器學(xué)習(xí)工程師 Lewis Tunstall 表示,R1 是首個經(jīng)歷同行評審的大型語言模型,這是一個非常值得歡迎的先例。
而俄亥俄州立大學(xué)人工智能研究員 Huan Sun 更是盛贊 R1 ,稱其自發(fā)布以來,幾乎影響了所有在大語言模型中使用強化學(xué)習(xí)的研究。
截至發(fā)文前,其數(shù)據(jù)如下:
谷歌學(xué)術(shù)引用:3596 次
Hugging Face 下載量:1090 萬次(開源模型下載量第一)
GitHub Star:91.1K
不過也是因為 DeepSeek,中國 AI 公司的下一篇工作,恐怕已經(jīng)不再滿足于 CVPR、ICLR、ICML 這些 AI 頂會了,
是不是得對齊 Nature、Science 的封面了?
在這次的 Nature 版本中,DeepSeek 在其最新的補充材料中對訓(xùn)練成本、數(shù)據(jù)及安全性進行了進一步的澄清。
在訓(xùn)練花費方面, R1-Zero 和 R1 都使用了 512 張 H800GPU,分別訓(xùn)練了198個小時和80個小時,以 H800 每 GPU 小時 2 美元的租賃價格換算的話,R1 的總訓(xùn)練成本為29.4萬美元。
相比之下,它不到 30 萬美元的訓(xùn)練成本,直接讓那些動輒燒掉上千萬美元的同行們 " 抬不起頭 "。
也難怪它在年初發(fā)布時,會在美股掀起一場海嘯,讓那些關(guān)于 " 巨額投入才能打造頂級 AI 模型 " 的傳言不再那么漂亮。
(奧特曼:干脆報我身份證號得了)
此外,在數(shù)據(jù)來源方面,DeepSeek 也是一舉打破了拿彼模型之輸出當(dāng) R1 之輸入的傳聞。
根據(jù)補充材料,DeepSeek-R1 的數(shù)據(jù)集包含數(shù)學(xué)、編程、stem、邏輯、通用等 5 個類型的數(shù)據(jù)。
代碼數(shù)據(jù)集包含 1.7 萬道算法競賽題和 8 千道代碼修復(fù)問題;
STEM 數(shù)據(jù)集包含 2.2 萬道選擇題,涵蓋物理、化學(xué)和生物等學(xué)科;
邏輯數(shù)據(jù)集包含真實問題和合成問題等共 1.5 萬道題;
通用數(shù)據(jù)集包含 6.6 萬道題,用于評估模型的有用性,涵蓋創(chuàng)意寫作、文本編輯、事實問答、角色扮演以及評估無害性等多種類別。
在安全性方面,雖然開源共享有助于技術(shù)在社區(qū)中的傳播,但同時也可能帶來被濫用的潛在風(fēng)險。因此 DeepSeek 又一進步發(fā)布了詳細的安全評估,涵蓋以下幾個方面;
DeepSeek-R 官方服務(wù)的風(fēng)險控制系統(tǒng)
在六個公開安全基準上與其他最先進模型的對比評估
基于內(nèi)部安全測試集的分類學(xué)研究
R1 模型的多語言安全性評估
模型對越獄攻擊的魯棒性評估。
評估表明,DeepSeek-R1 模型的固有安全水平總體處于中等水平,與 GPT-4o 相當(dāng),通過結(jié)合風(fēng)險控制系統(tǒng)可進一步提高模型的安全水平。
接下來,我們來一起回顧一下這篇經(jīng)典論文
將強化學(xué)習(xí)應(yīng)用于大語言模型的里程碑
總的來說,DeepSeek-R1(zero)旨在解決大型語言模型在處理復(fù)雜問題和對人工數(shù)據(jù)的依賴,提出了一種純強化學(xué)習(xí)(RL)框架來提升大語言模型的推理能力。
這一方法不依賴人工標注的推理軌跡,而是通過自我演化發(fā)展推理能力,核心在于獎勵信號僅基于最終答案的正確性,而不對推理過程本身施加限制。
具體來說,他們使用 DeepSeek-V3-Base 作為基礎(chǔ)模型,并采用 GRPO(Group Relative Policy Optimization)作為強化學(xué)習(xí)框架來提高模型在推理任務(wù)上的表現(xiàn)。
經(jīng)過數(shù)千步強化學(xué)習(xí)訓(xùn)練后,DeepSeek-R1-Zero 在推理基準測試上表現(xiàn)出卓越性能。
例如,在 AIME 2024 上,pass@1 分數(shù)從 15.6% 提升至 71.0%,通過多數(shù)表決進一步提高至 86.7%,與 o1 的表現(xiàn)相當(dāng)。
具體而言,團隊首先收集數(shù)千條冷啟動數(shù)據(jù),對 DeepSeek-V3-Base 模型進行微調(diào)。隨后,模型進行了類似 DeepSeek-R1-Zero 的面向推理的強化學(xué)習(xí)訓(xùn)練。
在強化學(xué)習(xí)接近收斂時,團隊通過在強化學(xué)習(xí)檢查點上進行拒絕采樣,結(jié)合來自 DeepSeek-V3 在寫作、事實問答、自我認知等領(lǐng)域的監(jiān)督數(shù)據(jù),生成新的 SFT 數(shù)據(jù),并重新訓(xùn)練 DeepSeek-V3-Base 模型。
經(jīng)過新數(shù)據(jù)微調(diào)后,模型還經(jīng)歷了覆蓋各種提示場景的額外的強化學(xué)習(xí)過程,DeepSeek-R1 就由此而來。
此外,將大模型涌現(xiàn)出的推理模式用于指導(dǎo)并提升小模型的推理能力也成為了一種經(jīng)典方法。
論文中使用 Qwen2.5-32B 作為基礎(chǔ)模型,結(jié)果顯示,從 DeepSeek-R1 蒸餾出的性能,優(yōu)于直接在該基礎(chǔ)模型上應(yīng)用強化學(xué)習(xí)。
DeepSeek 已在 HuggingFace 上公開了 DeepSeek-R1 和 DeepSeek-R1-Zero 的模型權(quán)重,同時將基于 Qwen2.5 和 Llama3 系列的蒸餾模型一并開源,供社區(qū)自由使用。
回想年初 DeepSeek 在海外爆火時,梁文鋒一句 " 中國 AI 不可能永遠跟隨 " 的豪言壯志令人振奮。
如今,DeepSeek 影響力獲得 Nature 封面認可,如果 AI 研究機構(gòu)有 S 級認可,那 DeepSeek 毫無疑問已經(jīng)拿到了 S 級認證。
下一個,阿里通義、字節(jié) Seed、騰訊混元、百度文心、華為、智譜、Kimi、階躍……
Who?
參考鏈接
[ 1 ] https://www.nature.com/articles/d41586-025-03015-6
[ 2 ] https://www.nature.com/articles/s41586-025-09422-z
一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評論區(qū)留下你的想法!
— 完 —
年度科技風(fēng)向標「2025 人工智能年度榜單」評選報名開啟啦!我們正在尋找 AI+ 時代領(lǐng)航者 點擊了解詳情
企業(yè)、產(chǎn)品、人物 3 大維度,共設(shè)立了 5 類獎項,歡迎企業(yè)報名參與
一鍵關(guān)注 點亮星標
科技前沿進展每日見