中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      鈦媒體 12小時(shí)前

      精讀 DeepSeek OCR 論文,我遠(yuǎn)遠(yuǎn)看到了「世界模型」的輪廓

      文 | X 研究媛

      DeepSeek OCR 是一個(gè)不錯(cuò)的 OCR 小模型,但過(guò)譽(yù)了。

      知乎網(wǎng)友指出,即使橫向?qū)Ρ?OCR 最優(yōu)秀的幾個(gè)模型,它也不是最靠前的那個(gè)。

      在下面兩個(gè)案例里,3B 大小(30 億參數(shù))的 DeepSeek OCR 在數(shù)學(xué)公式展開(kāi)里沒(méi)有識(shí)別出 " 極坐標(biāo) ",識(shí)別表格結(jié)構(gòu)也是錯(cuò)的。相比之下,僅僅有 0.9B(9 億參數(shù))模型尺寸的 PaddleOCR-VL(來(lái)自百度飛漿開(kāi)源)卻更勝一籌。

      DeepSeek OCR 也并非足夠獨(dú)創(chuàng)。外界猜測(cè),谷歌 Gemini 支持百萬(wàn) Token 上下文可能早早使用了視覺(jué)壓縮 Token,同一天清華大學(xué)和智譜團(tuán)隊(duì)發(fā)布的、幾乎同樣思路「將長(zhǎng)文本壓縮為視覺(jué) Token 作為模型輸入」的 Glyph,后者似乎沒(méi)引發(fā)任何的「延伸解讀」。

      DeepSeek 每一次出手都能虹吸巨大的關(guān)注。但仔細(xì)想想,也正常。

      在中國(guó)做大了的互聯(lián)網(wǎng)巨頭,壟斷了某個(gè)賺錢賽道后還懷揣著人類未來(lái)福祉去探索前沿技術(shù)的,幾乎找不出一個(gè)范例。DeepSeek 被美國(guó)同行形容為「實(shí)力深不可測(cè)」,其內(nèi)稟的價(jià)值觀、組織形態(tài)更是中國(guó)企業(yè)里罕見(jiàn)的異類。

      梁文峰掌下的 DeepSeek 不怎么缺錢,渾身外溢著極致浪漫的技術(shù)理想主義。開(kāi)源最前沿最有價(jià)值的模型訓(xùn)練細(xì)節(jié),V3 和 R1 引發(fā)全球轟動(dòng)后幾乎主動(dòng)放棄巨大流量,也不去模仿 OpenAI 構(gòu)建唾手可得的 AI 商業(yè)帝國(guó) ... 那種不按正常路徑去「做大做強(qiáng)」,活在未來(lái)而非當(dāng)下,一行一言去追逐高度不確定的 AGI。在一個(gè)跟風(fēng)、內(nèi)卷、抄襲、金錢至上的中國(guó),能誕生這樣的公司,屬實(shí)是 " 國(guó)運(yùn) "。

      外行看熱鬧,內(nèi)行看 Paper。言歸正傳,DeepSeek OCR 的深層價(jià)值不是什么「真 · 無(wú)限上下文」,或者在各項(xiàng)評(píng)測(cè)集、各個(gè)大模型競(jìng)技場(chǎng)刷新了 OCR 模型的某個(gè)記錄,而是探索「連續(xù)視覺(jué)表征壓縮」在隱隱指向一個(gè)終極追求——「世界模型」。

      Karpathy 評(píng)價(jià)里想說(shuō)卻未明說(shuō)的:把大模型的前沿焦點(diǎn)從離散的語(yǔ)言 Token,「重新轉(zhuǎn)向」了連續(xù)視覺(jué)表征的視覺(jué) Token。

      壓縮即智能

      如果把大腦看作一臺(tái)生物計(jì)算機(jī),Ilya 說(shuō)我們終將突破。人類思維最幽暗深微之處,也許出奇地「大道至簡(jiǎn)」。

      Ilya 有個(gè)信念,「如果你能高效壓縮信息,你一定已經(jīng)得到知識(shí),不然你沒(méi)法壓縮信息。當(dāng)你實(shí)現(xiàn)了信息高效壓縮,you got to have some knowledge」。

      壓縮通過(guò)識(shí)別模式和規(guī)律高效表征信息,這與智能行為密切相關(guān)。有相當(dāng)一部分研究人員認(rèn)為,壓縮可能是通用智能的基礎(chǔ),甚至可能等同于智能,Ilya 所堅(jiān)信的「壓縮即智能」

      Ilya 可能只說(shuō)對(duì)了一半。相比語(yǔ)言這種一維的離散信息,語(yǔ)言的成功壓縮誕生了轟動(dòng)世界的 ChatGPT。而視覺(jué)作為更高維的連續(xù)信息,端到端的壓縮和統(tǒng)一表征提取,卻異常困難。

      如今強(qiáng)大無(wú)比的各類預(yù)訓(xùn)練大語(yǔ)言模型,它們?cè)诘讓釉砩细叨冉y(tǒng)一:使用互聯(lián)網(wǎng)上龐大語(yǔ)料訓(xùn)練出超大規(guī)模神經(jīng)網(wǎng)絡(luò),它可以看作一大堆參數(shù),當(dāng)用戶輸入時(shí),將激活固定的網(wǎng)絡(luò)節(jié)點(diǎn)參數(shù)參與計(jì)算,從而「預(yù)測(cè)最大概率的輸出 Token」。具體過(guò)程中,用戶的輸入文本會(huì)被 Tokenization 固定劃分的詞和符號(hào)(即分詞過(guò)程)轉(zhuǎn)化為向量,這些輸入向量會(huì)在超高維的向量空間去做模式匹配,即以激活的神經(jīng)網(wǎng)絡(luò)參數(shù)參與計(jì)算,計(jì)算出最高概率的下一個(gè)詞。

      LLM 用大白話解釋,就是根據(jù)模型參數(shù)和上下文去才猜下一個(gè)詞?;仡櫞笳Z(yǔ)言模型的發(fā)展,通用算法的發(fā)現(xiàn),Transformer 架構(gòu)讓 Scaling 變得真正可行,簡(jiǎn)單算法、超大數(shù)據(jù)、GPGPU 算力的暴漲三者合力,成功地壓縮互聯(lián)網(wǎng)上幾乎所有的文本資料,打造出一臺(tái)非常智能的「Token 預(yù)測(cè)器」。

      LLM 的輸出是「Token by Token」,自回歸方式,意味著每一個(gè) Token 都要跟前文 " 交互 " 一次。輸入十萬(wàn)個(gè) Token,模型就要進(jìn)行十萬(wàn) · 十萬(wàn)的百億次 " 交互 " 計(jì)算。輸入越長(zhǎng)的上下文,預(yù)測(cè)下一個(gè)詞就需要指數(shù)級(jí)的計(jì)算增長(zhǎng)。

      再大的顯存帶寬和顯存容量,也無(wú)法一次吃掉計(jì)算過(guò)程中天量的中間矩陣,推理延遲會(huì)越來(lái)越大。LLM 近年的創(chuàng)新,比如注意力層計(jì)算的稀疏和優(yōu)化,誕生了 MTP、NSA、DSA,還有稠密 FFN 層的稀疏激活,以及超大規(guī)模 MoE 專家網(wǎng)絡(luò)的路由激活,本質(zhì)都是在解決計(jì)算層面的問(wèn)題。

      以 DeepSeek 為例,除了 R1 以開(kāi)源模型首次公開(kāi)了預(yù)訓(xùn)練 + 后訓(xùn)練強(qiáng)化學(xué)習(xí)方法,復(fù)現(xiàn)了 O1 推理思維鏈的效果引發(fā)轟動(dòng),其它幾乎所有的創(chuàng)新都集中在改進(jìn)注意力機(jī)制、激活參數(shù)計(jì)算和推理解碼的高效,以及訓(xùn)練時(shí)如何降低硬件開(kāi)銷和提升數(shù)據(jù)通信可靠性。

      DeepSeek OCR 表面上是一個(gè) OCR 模型,實(shí)際也是指向計(jì)算效率,嘗試實(shí)現(xiàn)模型輸入過(guò)長(zhǎng)上下文的高效壓縮。

      DeepSeek OCR 的核心是 DeepEncoder,一個(gè)用 vision tokens 去 Encode 輸入上下文信息的編碼器,它實(shí)現(xiàn)了 9 – 10 倍 文本壓縮下 96%+ 的 OCR 解碼精度,10 – 12 倍壓縮下約 90% 的精度,20 倍壓縮下仍保持約 60% 的精度。

      在壓縮比 10 倍的時(shí)候,幾乎可以做到無(wú)損。這意味著原來(lái)輸入十萬(wàn) Token 的模型上下文,視覺(jué)編碼僅需一萬(wàn) Token。

      而且,DeepSeek 論文說(shuō)我們可以連續(xù)調(diào)節(jié)壓縮率,在壓縮率和識(shí)別精度之間平滑地做出權(quán)衡。關(guān)鍵來(lái)了,DeepSeek 將這種動(dòng)態(tài)的視覺(jué)壓縮還與人類的記憶遺忘做了類比。

      DeepSeek 提出一種類生物遺忘機(jī)制的壓縮策略:

      - 近期上下文:保持高分辨率,token 消耗高,信息清晰;

      - 遠(yuǎn)期上下文:逐步降低分辨率,token 減少,信息模糊;

      - 這種機(jī)制模擬人類記憶的自然衰減:

      時(shí)間越久,記憶越模糊;

      距離越遠(yuǎn),視覺(jué)感知越弱;

      兩者都表現(xiàn)出漸進(jìn)式信息丟失的模式(如圖所示)

      在論文里,DeepSeek 解釋 OCR 的工作代表了對(duì)視覺(jué) - 文本壓縮邊界的初步探索,研究了解碼 N 個(gè)文本 token 需要多少個(gè)視覺(jué) token 這一核心問(wèn)題。初步結(jié)果令人鼓舞:

      光學(xué)上下文壓縮不僅是技術(shù)可行的,更是生物學(xué)合理的。它為長(zhǎng)上下文建模提供了全新視角。 DeepSeek 相信,這一方向?qū)⒊蔀槲磥?lái) LLM 與 VLM 研究的重要突破口。

      DeepSeek-OCR 在 約 10 × 壓縮比 下實(shí)現(xiàn)了接近無(wú)損的 OCR 壓縮,在 20 × 壓縮比下,仍能保持 60% 的準(zhǔn)確率,這些發(fā)現(xiàn)意味著:在多輪對(duì)話中,對(duì)超過(guò) k 輪的歷史記錄進(jìn)行光學(xué)處理,實(shí)現(xiàn) 10 × 壓縮效率;對(duì)舊上下文逐步縮小渲染圖像,進(jìn)一步減少 token 消耗; 模擬人類記憶的遺忘機(jī)制,越久遠(yuǎn)的內(nèi)容,壓縮率越高,圖像越模糊,信息逐漸丟失。

      在論文里,DeepSeek 強(qiáng)調(diào),光學(xué)上下文壓縮仍然是一個(gè)剛剛起步、充滿潛力的研究方向。DeepSeek-OCR 不僅僅是一個(gè)常用的優(yōu)秀 OCR 工具,本身是一個(gè)極具實(shí)用價(jià)值的模型,具備大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)生產(chǎn)能力,可作為 LLM 訓(xùn)練過(guò)程中不可或缺的助手。在實(shí)際應(yīng)用中,該模型每天可生成數(shù)千萬(wàn)頁(yè)級(jí)別的訓(xùn)練數(shù)據(jù),顯著提升了多模態(tài)數(shù)據(jù)構(gòu)建的效率。

      世界模型的「輪廓」

      人腦若以 " 生物計(jì)算機(jī) " 視角觀察,可以粗略概括為:它以多模態(tài)、某種統(tǒng)一表征進(jìn)行極為高效的信息壓縮,實(shí)現(xiàn)對(duì)現(xiàn)實(shí)世界建模和預(yù)測(cè)。

      LLM 則是 " 通過(guò)語(yǔ)言單一模態(tài)對(duì)現(xiàn)實(shí)世界建模和預(yù)測(cè) "。

      如果大語(yǔ)言模型能夠?qū)?AGI,等同于人類是通過(guò)語(yǔ)言理解一切,通過(guò)語(yǔ)言就可以建模世界?但這其中有一個(gè)明顯 Bug,人類并沒(méi)有 LLM Tokenization 這種「后天而非先驗(yàn)」的分詞器,Karpathy 形容 Tokenization 的過(guò)程是丑陋且笨拙。

      用戶的文本輸入變成 AI" 可讀 " 的內(nèi)容,是通過(guò)一個(gè)叫 "Tokenizer"(分詞器)的東西,把句子切成一個(gè)個(gè) " 詞元 "(Token),比如 "Hello, world!" 可能被切成 [ Hello ] 、 [ , ] 、 [ world ] 、 [ ! ] ,四個(gè)詞元。分詞的標(biāo)準(zhǔn)并不是統(tǒng)一的,不同的詞表和分詞器也意味著各家模型不同的 Tokenization 方法,它對(duì)模型的最終性能有一定影響。

      LLM 文本輸入轉(zhuǎn)化為 Token 的分詞過(guò)程是不是必不可少的? 而 DeepSeek-OCR 這篇論文無(wú)意中提供了一個(gè)佐證:它證明了,AI 可以只用 100 個(gè) " 視覺(jué)詞元 "(Vision Tokens),就高精度地 " 解壓縮 " 出包含 1000 個(gè) " 文本詞元 " 的原文內(nèi)容。而且不需要文本分詞這個(gè)過(guò)程。

      語(yǔ)言深度依賴視覺(jué)經(jīng)驗(yàn)和多模態(tài)基礎(chǔ),文字本身是對(duì)感知世界的二次抽象。為什么我們的 AI 系統(tǒng),要繞過(guò)更原始、更豐富的表征層?當(dāng)模型直接在像素層面理解文字,它看到的不只是語(yǔ)言,而是習(xí)得了更加豐富、更加深層的學(xué)習(xí)機(jī)制。

      就像前文所說(shuō),相比語(yǔ)言這樣的一維離散信息,更高維且連續(xù)的視覺(jué)信息,端到端的信息壓縮、統(tǒng)一表征提取和預(yù)測(cè),困難且毫無(wú)進(jìn)展。

      三句不離世界模型的 Yan LeCun,曾在公開(kāi)訪談中談及連續(xù)視覺(jué)信息的處理有多么困難:

      " 一個(gè)典型的大語(yǔ)言模型大約是在 200 億到 2 萬(wàn)億個(gè) Token 上訓(xùn)練的。Token 差不多就是一個(gè)詞。通常,一個(gè) Token 用三個(gè)字節(jié)表示,200 億到 2 萬(wàn)億個(gè) Token,總共大約是 10 的 14 次方字節(jié),也就是 1 后面跟著 14 個(gè)零。這幾乎是互聯(lián)網(wǎng)上所有公開(kāi)文本的總和。

      一個(gè)人要花幾十萬(wàn)年才能讀完這些材料,這是海量的信息。現(xiàn)在,我們來(lái)比較一下這個(gè)數(shù)據(jù)量:一個(gè)四歲的孩子總共清醒了 16000 個(gè)小時(shí)。每秒大約有 2 M 字節(jié)信息通過(guò)我們的視神經(jīng)進(jìn)入我們的視覺(jué)皮層。每秒 2 M 字節(jié),在四年內(nèi),通過(guò)視覺(jué)輸入大約是 10 的 14 次方字節(jié)的數(shù)據(jù)。四歲孩子 " 看到 " 的數(shù)據(jù)量與需要你 40 萬(wàn)年才能閱讀的文本一樣多。

      這表明,僅僅依靠文本訓(xùn)練,我們永遠(yuǎn)無(wú)法實(shí)現(xiàn)接近人類水平的 AI。我們必須學(xué)會(huì)讓 AI 理解真實(shí)世界,而這非常困難。如果我們不用單詞,而是用視頻中的幀,將這些幀轉(zhuǎn)換成類似于單詞的 Token,然后嘗試訓(xùn)練系統(tǒng)預(yù)測(cè)視頻中將要發(fā)生的事情,這是行不通的。

      我們可能無(wú)法預(yù)測(cè)某個(gè)特定單詞會(huì)出現(xiàn)在文本的哪個(gè)位置,但我們可以預(yù)測(cè)所有可能單詞的概率分布。對(duì)于視頻,我們做不到這一點(diǎn)。我們無(wú)法表示所有可能的視頻幀的概率分布。因此,那些在文本、DNA 序列或蛋白質(zhì)上非常有效的技術(shù),在視頻或其他自然信號(hào)上卻不起作用。"

      回過(guò)頭來(lái)看,DeepSeek-OCR 這篇論文的真正價(jià)值,不在于它提供了一個(gè)多好的 OCR 工具,而在于它充當(dāng)了一次 " 概念驗(yàn)證 "(Proof-of-Concept)。它用實(shí)驗(yàn)數(shù)據(jù)證明了:AI 的主要信息入口,可以從語(yǔ)言轉(zhuǎn)向視覺(jué),不僅效率更高,似乎更符合生物特性。

      Karpathy 還給出了一個(gè)關(guān)鍵洞察:

      Vision → Text 的任務(wù)空間,其實(shí)完全包含了 Text → Text 的任務(wù)空間,任何文本都可以無(wú)損 " 渲染 " 成圖像。但反過(guò)來(lái)從圖像到文本就會(huì)丟失大量信息。這種不對(duì)稱暗示了一個(gè)激進(jìn)的方向:把所有輸入統(tǒng)一為視覺(jué)模態(tài),輸出保持文本不變。

      這不僅僅是 " 文本到文本 " 任務(wù)變成了 " 視覺(jué)到文本 " 任務(wù),這是一個(gè)更根本的轉(zhuǎn)變。

      如果輸入端徹底轉(zhuǎn)向像素,我們實(shí)際上構(gòu)建的,不再是傳統(tǒng)意義上的 " 大語(yǔ)言模型 ",而是一個(gè)視覺(jué)條件下的文本生成系統(tǒng)。模型看到的,不再是固定劃分的字符,而是更凌亂、更無(wú)序但信息更豐富的原始信號(hào)。沿著這條全新的發(fā)展道路,似乎遠(yuǎn)遠(yuǎn)能夠望到世界模型的輪廓。

      再看一遍 DeepSeek 在 OCR 論文的總結(jié),「這一范式將為解決長(zhǎng)上下文建模中的效率瓶頸、記憶機(jī)制設(shè)計(jì)與多模態(tài)融合等核心問(wèn)題提供全新的思路和廣闊的研究空間」,措辭謹(jǐn)慎且謙虛。

      DeepSeek 值得尊敬。

      相關(guān)標(biāo)簽

      相關(guān)閱讀

      最新評(píng)論

      沒(méi)有更多評(píng)論了

      覺(jué)得文章不錯(cuò),微信掃描分享好友

      掃碼分享

      熱門推薦

      查看更多內(nèi)容