中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      量子位 24分鐘前

      中國大模型首登 Nature 封面!DeepSeek 首次披露:R1 訓(xùn)練只花了 200 萬

      Nature 封面認證!DeepSeek R1 成果,又拿下了最新殊榮。

      就在最新的 Nature 新刊中,DeepSeek 一舉成為首家登上《Nature》封面的中國大模型公司,創(chuàng)始人梁文鋒擔(dān)任通訊作者。

      縱觀全球,之前也只有極少數(shù)如 DeepMind 者,憑借 AlphaGo、AlphaFold 有過類似榮譽。

      Nature 版本的 R1 論文不僅首次披露了 R1 的訓(xùn)練成本——僅約29.4萬美元(折合人民幣約 208 萬),還進一步補充了包括模型訓(xùn)練所使用的數(shù)據(jù)類型及安全性的技術(shù)細節(jié)。

      評審該論文的 Hugging Face 機器學(xué)習(xí)工程師 Lewis Tunstall 表示,R1 是首個經(jīng)歷同行評審的大型語言模型,這是一個非常值得歡迎的先例。

      而俄亥俄州立大學(xué)人工智能研究員 Huan Sun 更是盛贊 R1 ,稱其自發(fā)布以來,幾乎影響了所有在大語言模型中使用強化學(xué)習(xí)的研究。

      截至發(fā)文前,其數(shù)據(jù)如下:

      谷歌學(xué)術(shù)引用:3596 次

      Hugging Face 下載量:1090 萬次(開源模型下載量第一)

      GitHub Star:91.1K

      不過也是因為 DeepSeek,中國 AI 公司的下一篇工作,恐怕已經(jīng)不再滿足于 CVPR、ICLR、ICML 這些 AI 頂會了,

      是不是得對齊 Nature、Science 的封面了?

      澄清訓(xùn)練細節(jié)

      在這次的 Nature 版本中,DeepSeek 在其最新的補充材料中對訓(xùn)練成本、數(shù)據(jù)及安全性進行了進一步的澄清。

      在訓(xùn)練花費方面, R1-Zero 和 R1 都使用了 512 張 H800GPU,分別訓(xùn)練了198個小時和80個小時,以 H800 每 GPU 小時 2 美元的租賃價格換算的話,R1 的總訓(xùn)練成本為29.4萬美元。

      要知道,R1 可是實打?qū)嵉?strong>660B參數(shù)的大模型。

      相比之下,它不到 30 萬美元的訓(xùn)練成本,直接讓那些動輒燒掉上千萬美元的同行們 " 抬不起頭 "。

      也難怪它在年初發(fā)布時,會在美股掀起一場海嘯,讓那些關(guān)于 " 巨額投入才能打造頂級 AI 模型 " 的傳言不再那么漂亮。

      (奧特曼:干脆報我身份證號得了)

      此外,在數(shù)據(jù)來源方面,DeepSeek 也是一舉打破了拿彼模型之輸出當(dāng) R1 之輸入的傳聞。

      根據(jù)補充材料,DeepSeek-R1 的數(shù)據(jù)集包含數(shù)學(xué)、編程、stem、邏輯、通用等 5 個類型的數(shù)據(jù)。

      具體來說,數(shù)學(xué)數(shù)據(jù)集包含 2.6 萬道定量推理題,包括數(shù)學(xué)考試題和競賽題;

      代碼數(shù)據(jù)集包含 1.7 萬道算法競賽題和 8 千道代碼修復(fù)問題;

      STEM 數(shù)據(jù)集包含 2.2 萬道選擇題,涵蓋物理、化學(xué)和生物等學(xué)科;

      邏輯數(shù)據(jù)集包含真實問題和合成問題等共 1.5 萬道題;

      通用數(shù)據(jù)集包含 6.6 萬道題,用于評估模型的有用性,涵蓋創(chuàng)意寫作、文本編輯、事實問答、角色扮演以及評估無害性等多種類別。

      在安全性方面,雖然開源共享有助于技術(shù)在社區(qū)中的傳播,但同時也可能帶來被濫用的潛在風(fēng)險。因此 DeepSeek 又一進步發(fā)布了詳細的安全評估,涵蓋以下幾個方面;

      DeepSeek-R 官方服務(wù)的風(fēng)險控制系統(tǒng)

      在六個公開安全基準上與其他最先進模型的對比評估

      基于內(nèi)部安全測試集的分類學(xué)研究

      R1 模型的多語言安全性評估

      模型對越獄攻擊的魯棒性評估。

      評估表明,DeepSeek-R1 模型的固有安全水平總體處于中等水平,與 GPT-4o 相當(dāng),通過結(jié)合風(fēng)險控制系統(tǒng)可進一步提高模型的安全水平。

      接下來,我們來一起回顧一下這篇經(jīng)典論文

      將強化學(xué)習(xí)應(yīng)用于大語言模型的里程碑

      總的來說,DeepSeek-R1(zero)旨在解決大型語言模型在處理復(fù)雜問題和對人工數(shù)據(jù)的依賴,提出了一種純強化學(xué)習(xí)(RL)框架來提升大語言模型的推理能力。

      這一方法不依賴人工標注的推理軌跡,而是通過自我演化發(fā)展推理能力,核心在于獎勵信號僅基于最終答案的正確性,而不對推理過程本身施加限制。

      具體來說,他們使用 DeepSeek-V3-Base 作為基礎(chǔ)模型,并采用 GRPO(Group Relative Policy Optimization)作為強化學(xué)習(xí)框架來提高模型在推理任務(wù)上的表現(xiàn)。

      經(jīng)過數(shù)千步強化學(xué)習(xí)訓(xùn)練后,DeepSeek-R1-Zero 在推理基準測試上表現(xiàn)出卓越性能。

      例如,在 AIME 2024 上,pass@1 分數(shù)從 15.6% 提升至 71.0%,通過多數(shù)表決進一步提高至 86.7%,與 o1 的表現(xiàn)相當(dāng)。

      更進一步,為了解決 DeepSeek-R1-Zero 在可讀性和語言混合上的問題,研究又引入 DeepSeek-R1,采用少量冷啟動數(shù)據(jù)和拒絕采樣、強化學(xué)習(xí)和監(jiān)督微調(diào)相結(jié)合的多階段訓(xùn)練框架。

      具體而言,團隊首先收集數(shù)千條冷啟動數(shù)據(jù),對 DeepSeek-V3-Base 模型進行微調(diào)。隨后,模型進行了類似 DeepSeek-R1-Zero 的面向推理的強化學(xué)習(xí)訓(xùn)練。

      在強化學(xué)習(xí)接近收斂時,團隊通過在強化學(xué)習(xí)檢查點上進行拒絕采樣,結(jié)合來自 DeepSeek-V3 在寫作、事實問答、自我認知等領(lǐng)域的監(jiān)督數(shù)據(jù),生成新的 SFT 數(shù)據(jù),并重新訓(xùn)練 DeepSeek-V3-Base 模型。

      經(jīng)過新數(shù)據(jù)微調(diào)后,模型還經(jīng)歷了覆蓋各種提示場景的額外的強化學(xué)習(xí)過程,DeepSeek-R1 就由此而來。

      實驗表明,DeepSeek-R1 與當(dāng)時的頂尖模型 OpenAI-o1-1217 不相上下。

      此外,將大模型涌現(xiàn)出的推理模式用于指導(dǎo)并提升小模型的推理能力也成為了一種經(jīng)典方法。

      論文中使用 Qwen2.5-32B 作為基礎(chǔ)模型,結(jié)果顯示,從 DeepSeek-R1 蒸餾出的性能,優(yōu)于直接在該基礎(chǔ)模型上應(yīng)用強化學(xué)習(xí)。

      當(dāng)然,在開拓性論文的基礎(chǔ)上,更讓人津津樂道、也贏得 Nature 盛贊的,是 DeepSeek 的透明性與開源精神:

      DeepSeek 已在 HuggingFace 上公開了 DeepSeek-R1 和 DeepSeek-R1-Zero 的模型權(quán)重,同時將基于 Qwen2.5 和 Llama3 系列的蒸餾模型一并開源,供社區(qū)自由使用。

      回想年初 DeepSeek 在海外爆火時,梁文鋒一句 " 中國 AI 不可能永遠跟隨 " 的豪言壯志令人振奮。

      如今,DeepSeek 影響力獲得 Nature 封面認可,如果 AI 研究機構(gòu)有 S 級認可,那 DeepSeek 毫無疑問已經(jīng)拿到了 S 級認證。

      下一個,阿里通義、字節(jié) Seed、騰訊混元、百度文心、華為、智譜、Kimi、階躍……

      Who?

      參考鏈接

      [ 1 ] https://www.nature.com/articles/d41586-025-03015-6

      [ 2 ] https://www.nature.com/articles/s41586-025-09422-z

      一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」

      歡迎在評論區(qū)留下你的想法!

      年度科技風(fēng)向標「2025 人工智能年度榜單」評選報名開啟啦!我們正在尋找 AI+ 時代領(lǐng)航者 點擊了解詳情

      企業(yè)、產(chǎn)品、人物 3 大維度,共設(shè)立了 5 類獎項,歡迎企業(yè)報名參與

      一鍵關(guān)注 點亮星標

      科技前沿進展每日見

      相關(guān)標簽

      相關(guān)閱讀

      最新評論

      沒有更多評論了