中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>

量子位 24分鐘前

中國大模型首登 Nature 封面！DeepSeek 首次披露：R1 訓(xùn)練只花了 200 萬

Nature 封面認證！DeepSeek R1 成果，又拿下了最新殊榮。

就在最新的 Nature 新刊中，DeepSeek 一舉成為首家登上《Nature》封面的中國大模型公司，創(chuàng)始人梁文鋒擔(dān)任通訊作者。

縱觀全球，之前也只有極少數(shù)如 DeepMind 者，憑借 AlphaGo、AlphaFold 有過類似榮譽。

Nature 版本的 R1 論文不僅首次披露了 R1 的訓(xùn)練成本——僅約29.4萬美元（折合人民幣約 208 萬），還進一步補充了包括模型訓(xùn)練所使用的數(shù)據(jù)類型及安全性的技術(shù)細節(jié)。

評審該論文的 Hugging Face 機器學(xué)習(xí)工程師 Lewis Tunstall 表示，R1 是首個經(jīng)歷同行評審的大型語言模型，這是一個非常值得歡迎的先例。

而俄亥俄州立大學(xué)人工智能研究員 Huan Sun 更是盛贊 R1 ，稱其自發(fā)布以來，幾乎影響了所有在大語言模型中使用強化學(xué)習(xí)的研究。

截至發(fā)文前，其數(shù)據(jù)如下：

谷歌學(xué)術(shù)引用：3596 次

Hugging Face 下載量：1090 萬次（開源模型下載量第一）

GitHub Star：91.1K

不過也是因為 DeepSeek，中國 AI 公司的下一篇工作，恐怕已經(jīng)不再滿足于 CVPR、ICLR、ICML 這些 AI 頂會了，

是不是得對齊 Nature、Science 的封面了？

澄清訓(xùn)練細節(jié)

在這次的 Nature 版本中，DeepSeek 在其最新的補充材料中對訓(xùn)練成本、數(shù)據(jù)及安全性進行了進一步的澄清。

在訓(xùn)練花費方面， R1-Zero 和 R1 都使用了 512 張 H800GPU，分別訓(xùn)練了198個小時和80個小時，以 H800 每 GPU 小時 2 美元的租賃價格換算的話，R1 的總訓(xùn)練成本為29.4萬美元。

要知道，R1 可是實打?qū)嵉?strong>660B參數(shù)的大模型。

相比之下，它不到 30 萬美元的訓(xùn)練成本，直接讓那些動輒燒掉上千萬美元的同行們 " 抬不起頭 "。

也難怪它在年初發(fā)布時，會在美股掀起一場海嘯，讓那些關(guān)于 " 巨額投入才能打造頂級 AI 模型 " 的傳言不再那么漂亮。

（奧特曼：干脆報我身份證號得了）

此外，在數(shù)據(jù)來源方面，DeepSeek 也是一舉打破了拿彼模型之輸出當(dāng) R1 之輸入的傳聞。

根據(jù)補充材料，DeepSeek-R1 的數(shù)據(jù)集包含數(shù)學(xué)、編程、stem、邏輯、通用等 5 個類型的數(shù)據(jù)。

具體來說，數(shù)學(xué)數(shù)據(jù)集包含 2.6 萬道定量推理題，包括數(shù)學(xué)考試題和競賽題；

代碼數(shù)據(jù)集包含 1.7 萬道算法競賽題和 8 千道代碼修復(fù)問題；

STEM 數(shù)據(jù)集包含 2.2 萬道選擇題，涵蓋物理、化學(xué)和生物等學(xué)科；

邏輯數(shù)據(jù)集包含真實問題和合成問題等共 1.5 萬道題；

通用數(shù)據(jù)集包含 6.6 萬道題，用于評估模型的有用性，涵蓋創(chuàng)意寫作、文本編輯、事實問答、角色扮演以及評估無害性等多種類別。

在安全性方面，雖然開源共享有助于技術(shù)在社區(qū)中的傳播，但同時也可能帶來被濫用的潛在風(fēng)險。因此 DeepSeek 又一進步發(fā)布了詳細的安全評估，涵蓋以下幾個方面；

DeepSeek-R 官方服務(wù)的風(fēng)險控制系統(tǒng)

在六個公開安全基準上與其他最先進模型的對比評估

基于內(nèi)部安全測試集的分類學(xué)研究

R1 模型的多語言安全性評估

模型對越獄攻擊的魯棒性評估。

評估表明，DeepSeek-R1 模型的固有安全水平總體處于中等水平，與 GPT-4o 相當(dāng)，通過結(jié)合風(fēng)險控制系統(tǒng)可進一步提高模型的安全水平。

接下來，我們來一起回顧一下這篇經(jīng)典論文

將強化學(xué)習(xí)應(yīng)用于大語言模型的里程碑

總的來說，DeepSeek-R1（zero）旨在解決大型語言模型在處理復(fù)雜問題和對人工數(shù)據(jù)的依賴，提出了一種純強化學(xué)習(xí)（RL）框架來提升大語言模型的推理能力。

這一方法不依賴人工標注的推理軌跡，而是通過自我演化發(fā)展推理能力，核心在于獎勵信號僅基于最終答案的正確性，而不對推理過程本身施加限制。

具體來說，他們使用 DeepSeek-V3-Base 作為基礎(chǔ)模型，并采用 GRPO（Group Relative Policy Optimization）作為強化學(xué)習(xí)框架來提高模型在推理任務(wù)上的表現(xiàn)。

經(jīng)過數(shù)千步強化學(xué)習(xí)訓(xùn)練后，DeepSeek-R1-Zero 在推理基準測試上表現(xiàn)出卓越性能。

例如，在 AIME 2024 上，pass@1 分數(shù)從 15.6% 提升至 71.0%，通過多數(shù)表決進一步提高至 86.7%，與 o1 的表現(xiàn)相當(dāng)。

更進一步，為了解決 DeepSeek-R1-Zero 在可讀性和語言混合上的問題，研究又引入 DeepSeek-R1，采用少量冷啟動數(shù)據(jù)和拒絕采樣、強化學(xué)習(xí)和監(jiān)督微調(diào)相結(jié)合的多階段訓(xùn)練框架。

具體而言，團隊首先收集數(shù)千條冷啟動數(shù)據(jù)，對 DeepSeek-V3-Base 模型進行微調(diào)。隨后，模型進行了類似 DeepSeek-R1-Zero 的面向推理的強化學(xué)習(xí)訓(xùn)練。

在強化學(xué)習(xí)接近收斂時，團隊通過在強化學(xué)習(xí)檢查點上進行拒絕采樣，結(jié)合來自 DeepSeek-V3 在寫作、事實問答、自我認知等領(lǐng)域的監(jiān)督數(shù)據(jù)，生成新的 SFT 數(shù)據(jù)，并重新訓(xùn)練 DeepSeek-V3-Base 模型。

經(jīng)過新數(shù)據(jù)微調(diào)后，模型還經(jīng)歷了覆蓋各種提示場景的額外的強化學(xué)習(xí)過程，DeepSeek-R1 就由此而來。

實驗表明，DeepSeek-R1 與當(dāng)時的頂尖模型 OpenAI-o1-1217 不相上下。

此外，將大模型涌現(xiàn)出的推理模式用于指導(dǎo)并提升小模型的推理能力也成為了一種經(jīng)典方法。

論文中使用 Qwen2.5-32B 作為基礎(chǔ)模型，結(jié)果顯示，從 DeepSeek-R1 蒸餾出的性能，優(yōu)于直接在該基礎(chǔ)模型上應(yīng)用強化學(xué)習(xí)。

當(dāng)然，在開拓性論文的基礎(chǔ)上，更讓人津津樂道、也贏得 Nature 盛贊的，是 DeepSeek 的透明性與開源精神：

DeepSeek 已在 HuggingFace 上公開了 DeepSeek-R1 和 DeepSeek-R1-Zero 的模型權(quán)重，同時將基于 Qwen2.5 和 Llama3 系列的蒸餾模型一并開源，供社區(qū)自由使用。

回想年初 DeepSeek 在海外爆火時，梁文鋒一句 " 中國 AI 不可能永遠跟隨 " 的豪言壯志令人振奮。

如今，DeepSeek 影響力獲得 Nature 封面認可，如果 AI 研究機構(gòu)有 S 級認可，那 DeepSeek 毫無疑問已經(jīng)拿到了 S 級認證。

下一個，阿里通義、字節(jié) Seed、騰訊混元、百度文心、華為、智譜、Kimi、階躍……

Who？

參考鏈接

[ 1 ] https://www.nature.com/articles/d41586-025-03015-6

[ 2 ] https://www.nature.com/articles/s41586-025-09422-z

一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評論區(qū)留下你的想法！

— 完 —

年度科技風(fēng)向標「2025 人工智能年度榜單」評選報名開啟啦！我們正在尋找 AI+ 時代領(lǐng)航者點擊了解詳情

企業(yè)、產(chǎn)品、人物 3 大維度，共設(shè)立了 5 類獎項，歡迎企業(yè)報名參與

一鍵關(guān)注點亮星標

科技前沿進展每日見

宙世代

ZAKER旗下Web3.0元宇宙平臺

一起剪

ZAKER旗下免費視頻剪輯工具

相關(guān)標簽

ai 人工智能創(chuàng)始人

相關(guān)閱讀

華為HarmonyOS 6系統(tǒng)取消“NEXT”后綴：以后都是原生鴻蒙

數(shù)碼測評 1小時前

中國科學(xué)家研發(fā)“神經(jīng)蠕蟲”：如頭發(fā)絲般纖細可在顱內(nèi)游走

快科技 27分鐘前

iPhone 17系列明天開售！胖東來：不溢價先到先得需現(xiàn)場開箱驗機

快科技 8小時前

特斯拉FSD被指在鐵路口無法識別火車美監(jiān)管機構(gòu)已介入調(diào)查

快科技 8小時前

曝MacBook塞進iPhone處理器：售價親民

快科技 9小時前

跨境二維碼統(tǒng)一網(wǎng)關(guān)有何影響

北京商報 8小時前

我國科學(xué)家成功開發(fā)首例氫負離子原型電池成功點亮LED燈

快科技 9小時前

4億臺PC無法升級Win11系統(tǒng)：都怪2大硬件強制性要求

快科技 10小時前

iPhone 17 Pro系列首發(fā)上手：性能、快充大升級

快科技 10小時前

特斯聯(lián)與優(yōu)必選達成戰(zhàn)略合作，將構(gòu)建下一代智能體機器人

36氪 11小時前

AMD擺脫低價形象：銳龍?zhí)幚砥髟絹碓劫F 均價提升42%

快科技 11小時前

清華學(xué)霸小紅書曬1.67億元年薪引調(diào)查，被指控多項罪名

21世紀經(jīng)濟報道 12小時前

大疆發(fā)布DJI Mini 5 Pro一英寸大底全能迷你航拍機

數(shù)碼測評 15小時前

算力市場火熱 AIDC成競賽“新節(jié)點”

21世紀經(jīng)濟報道 12小時前

索尼手機率先推送Android 16穩(wěn)定版面向Xperia 1 VII

數(shù)碼測評 12小時前

最新評論

沒有更多評論了

量子位

訂閱

覺得文章不錯，微信掃描分享好友

掃碼分享

熱門推薦

查看更多內(nèi)容

熱門訂閱換一批

Z科技

專注科技財經(jīng)新聞報道

Blockchain News