中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      硅星人 昨天

      Meta 發(fā)布 V ? JEPA ? 2:無(wú)需標(biāo)注,讓 AI 像人類一樣看世界、推理、行動(dòng)

      6 月 11 日,Meta AI 研究團(tuán)隊(duì)最新發(fā)布的開(kāi)源模型 V JEPA 2,通過(guò)對(duì)超過(guò)一百萬(wàn)小時(shí)的原始視頻學(xué)習(xí),建立起對(duì)物理世界的 " 直覺(jué)世界模型 ",無(wú)需人工標(biāo)注,能幫助 AI Agents 像人類一樣理解重力、物體交互并規(guī)劃行動(dòng)。

      " 像人一樣推理 " 不再是幻想

      傳統(tǒng)機(jī)器視覺(jué)只能 " 看 " 但不會(huì) " 想 "。V JEPA 2 則突破了這一局限:它學(xué)會(huì)了 " 球掉下桌子不會(huì)消失 "" 拿鍋鏟會(huì)把食物轉(zhuǎn)移到盤(pán)子里 " 這類從嬰幼兒就具備的直觀物理常識(shí) 。

      目標(biāo)是讓 AI Agents 在物理世界中實(shí)現(xiàn) " 理解—預(yù)測(cè)—規(guī)劃—執(zhí)行 " 閉環(huán)能力。

      Meta 副總裁兼首席人工智能科學(xué)家楊立昆 Yann LeCun 強(qiáng)調(diào):" 世界模型將引領(lǐng)機(jī)器人進(jìn)入新時(shí)代,讓機(jī)器行動(dòng)前先思考,即使面對(duì)從未見(jiàn)過(guò)的環(huán)境 "。

      零標(biāo)注訓(xùn)練:原始視頻 + 行為微調(diào)就能用

      V-JEPA 2 采用聯(lián)合嵌入預(yù)測(cè)架構(gòu) ( JEPA ) 構(gòu)建,包含兩個(gè)主要組件:

      編碼器:接收原始視頻并輸出嵌入,以捕獲有關(guān)觀察世界狀態(tài)的有用語(yǔ)義信息。

      預(yù)測(cè)器:接收視頻嵌入和關(guān)于要預(yù)測(cè)的內(nèi)容的附加上下文,并輸出預(yù)測(cè)的嵌入。

      基于視頻的自監(jiān)督學(xué)習(xí)來(lái)訓(xùn)練 V-JEPA 2,無(wú)需額外的人工注釋即可在視頻上進(jìn)行訓(xùn)練。

      V-JEPA 2 訓(xùn)練包含兩個(gè)階段:無(wú)動(dòng)作預(yù)訓(xùn)練,以及后續(xù)的動(dòng)作微調(diào)。

      無(wú)動(dòng)作預(yù)訓(xùn)練:利用超過(guò)一百萬(wàn)小時(shí)視頻,通過(guò)自監(jiān)督學(xué)習(xí)(masked latent prediction)方式,學(xué)習(xí)抽象特征的上下文關(guān)系。

      動(dòng)作微調(diào):使用 62 小時(shí)機(jī)械臂操作視頻微調(diào),使其將視覺(jué)理解轉(zhuǎn)化為實(shí)際行動(dòng)指令,且無(wú)需為每個(gè)新環(huán)境重建數(shù)據(jù)集。

      在 Meta 的實(shí)驗(yàn)室測(cè)試中,搭載 V-JEPA 2 的機(jī)器人成功完成了涉及不可見(jiàn)物體的拾取和放置任務(wù),僅使用視覺(jué)子目標(biāo)作為指導(dǎo),成功率高達(dá) 65% 至 80%。該系統(tǒng)的工作原理是設(shè)想候選動(dòng)作的結(jié)果,并在每一步中選擇最佳動(dòng)作。

      多任務(wù)能力提高:不僅看視頻,還能具體做

      數(shù)據(jù)顯示,V JEPA 2 在 Something Something v2 ( SSv2 ) 、EK 100(Epic Kitchens 100)Diving48 等動(dòng)作識(shí)別任務(wù)中全面超越此前模型,提升顯著。

      在機(jī)器人執(zhí)行任務(wù)時(shí),V JEPA 2 AC 通過(guò) latent predictor (潛在預(yù)測(cè))生成動(dòng)作序列,控制流暢,這一過(guò)程比傳統(tǒng)模型如 Nvidia Cosmos 快約30 倍。

      在實(shí)驗(yàn)中,V JEPA 2 能夠通過(guò)輸入目標(biāo)圖像(例如 " 將杯子拿到桌子右側(cè) "),在完全未見(jiàn)過(guò)的環(huán)境中預(yù)測(cè)一系列合理步驟并逐步實(shí)現(xiàn)目標(biāo)。

      這種 " 看到目標(biāo)就能推斷下一步 " 的能力,體現(xiàn)出模型在視覺(jué)空間下自回歸規(guī)劃的強(qiáng)大zero shot 通用性。

      為 AI 積累 " 常識(shí) ":不僅看,還能推理頻率和因果

      除了 V JEPA 2 之外,Meta 還發(fā)布了三個(gè)新的基準(zhǔn)來(lái)評(píng)估 AI 對(duì)物理現(xiàn)象的理解:

      IntPhys 2:檢測(cè)配對(duì)視頻中不合理的物理現(xiàn)象。

      下載 IntPhys 2:https://github.com/facebookresearch/IntPhys2

      MVPBench:使用最少的視頻對(duì)來(lái)測(cè)試因果理解。

      下載 MVPBench:https://github.com/facebookresearch/minimal_video_pairs

      CausalVQA:評(píng)估模型是否可以根據(jù)物理因果關(guān)系回答 " 如果 " 和 " 下一步做什么 " 的問(wèn)題。

      下載 CausalVQA:https://github.com/facebookresearch/CausalVQA

      Meta 指出,雖然人類在這些任務(wù)上的準(zhǔn)確率高達(dá) 95%,但當(dāng)前的視頻模型(包括 V-JEPA 2)仍然遠(yuǎn)遠(yuǎn)落后,凸顯了改進(jìn)的空間。

      開(kāi)源資源:想試就能試

      Meta 已在 GitHub 上發(fā)布完整 PyTorch 代碼與預(yù)訓(xùn)練模型,遵循 MIT/Apache-2.0 開(kāi)源許可 。

      GitHub 開(kāi)源地址:https://github.com/facebookresearch/jepa

      開(kāi)發(fā)者只需幾行代碼加載模型,就能用于視頻理解、物理推理、甚至 robotics 應(yīng)用,這意味著研究和商業(yè)團(tuán)隊(duì)都能快速上手。

      在 V JEPA 2 基礎(chǔ)上,研究者正探索更強(qiáng)的 seq JEPA 架構(gòu):它能處理多視角短視頻,通過(guò)自回歸學(xué)習(xí)視角不變性與層級(jí)預(yù)測(cè),具備更強(qiáng)情境理解與規(guī)劃深度。

      V JEPA 2 的意義,遠(yuǎn)不止是一項(xiàng)模型能力的躍升。在這個(gè)模型中,機(jī)器第一次具備了 " 觀察–理解–行動(dòng) " 的閉環(huán)能力:無(wú)需腳本,不靠標(biāo)簽,只憑模糊的視覺(jué)目標(biāo),它就能推演出合理的路徑,像個(gè)學(xué)徒一樣,在世界中 " 試著做 "。

      Meta 的下一站,是多時(shí)間尺度的分層世界模型、多模態(tài)的感知整合系統(tǒng)——那些曾屬于人類認(rèn)知系統(tǒng)的復(fù)雜能力,正逐漸被建構(gòu)出來(lái)。我們所處的,或許正是那個(gè) " 機(jī)器獲得常識(shí)、具備直覺(jué) " 的臨界點(diǎn)。

      * 文中插圖來(lái)源于 Meta 官方論文和 GitHub 圖表

      參考資料:

      https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/

      https://github.com/facebookresearch/vjepa2?tab=readme-ov-file

      相關(guān)標(biāo)簽

      相關(guān)閱讀

      最新評(píng)論

      沒(méi)有更多評(píng)論了