" 像人一樣推理 " 不再是幻想
傳統(tǒng)機(jī)器視覺(jué)只能 " 看 " 但不會(huì) " 想 "。V JEPA 2 則突破了這一局限:它學(xué)會(huì)了 " 球掉下桌子不會(huì)消失 "" 拿鍋鏟會(huì)把食物轉(zhuǎn)移到盤(pán)子里 " 這類從嬰幼兒就具備的直觀物理常識(shí) 。
目標(biāo)是讓 AI Agents 在物理世界中實(shí)現(xiàn) " 理解—預(yù)測(cè)—規(guī)劃—執(zhí)行 " 閉環(huán)能力。
零標(biāo)注訓(xùn)練:原始視頻 + 行為微調(diào)就能用
V-JEPA 2 采用聯(lián)合嵌入預(yù)測(cè)架構(gòu) ( JEPA ) 構(gòu)建,包含兩個(gè)主要組件:
編碼器:接收原始視頻并輸出嵌入,以捕獲有關(guān)觀察世界狀態(tài)的有用語(yǔ)義信息。
預(yù)測(cè)器:接收視頻嵌入和關(guān)于要預(yù)測(cè)的內(nèi)容的附加上下文,并輸出預(yù)測(cè)的嵌入。
V-JEPA 2 訓(xùn)練包含兩個(gè)階段:無(wú)動(dòng)作預(yù)訓(xùn)練,以及后續(xù)的動(dòng)作微調(diào)。
動(dòng)作微調(diào):使用 62 小時(shí)機(jī)械臂操作視頻微調(diào),使其將視覺(jué)理解轉(zhuǎn)化為實(shí)際行動(dòng)指令,且無(wú)需為每個(gè)新環(huán)境重建數(shù)據(jù)集。
在 Meta 的實(shí)驗(yàn)室測(cè)試中,搭載 V-JEPA 2 的機(jī)器人成功完成了涉及不可見(jiàn)物體的拾取和放置任務(wù),僅使用視覺(jué)子目標(biāo)作為指導(dǎo),成功率高達(dá) 65% 至 80%。該系統(tǒng)的工作原理是設(shè)想候選動(dòng)作的結(jié)果,并在每一步中選擇最佳動(dòng)作。
數(shù)據(jù)顯示,V JEPA 2 在 Something Something v2 ( SSv2 ) 、EK 100(Epic Kitchens 100)和Diving48 等動(dòng)作識(shí)別任務(wù)中全面超越此前模型,提升顯著。
在實(shí)驗(yàn)中,V JEPA 2 能夠通過(guò)輸入目標(biāo)圖像(例如 " 將杯子拿到桌子右側(cè) "),在完全未見(jiàn)過(guò)的環(huán)境中預(yù)測(cè)一系列合理步驟并逐步實(shí)現(xiàn)目標(biāo)。
這種 " 看到目標(biāo)就能推斷下一步 " 的能力,體現(xiàn)出模型在視覺(jué)空間下自回歸規(guī)劃的強(qiáng)大zero shot 通用性。
為 AI 積累 " 常識(shí) ":不僅看,還能推理頻率和因果
除了 V JEPA 2 之外,Meta 還發(fā)布了三個(gè)新的基準(zhǔn)來(lái)評(píng)估 AI 對(duì)物理現(xiàn)象的理解:
IntPhys 2:檢測(cè)配對(duì)視頻中不合理的物理現(xiàn)象。
MVPBench:使用最少的視頻對(duì)來(lái)測(cè)試因果理解。
CausalVQA:評(píng)估模型是否可以根據(jù)物理因果關(guān)系回答 " 如果 " 和 " 下一步做什么 " 的問(wèn)題。
Meta 指出,雖然人類在這些任務(wù)上的準(zhǔn)確率高達(dá) 95%,但當(dāng)前的視頻模型(包括 V-JEPA 2)仍然遠(yuǎn)遠(yuǎn)落后,凸顯了改進(jìn)的空間。
開(kāi)源資源:想試就能試
Meta 已在 GitHub 上發(fā)布完整 PyTorch 代碼與預(yù)訓(xùn)練模型,遵循 MIT/Apache-2.0 開(kāi)源許可 。
GitHub 開(kāi)源地址:https://github.com/facebookresearch/jepa
開(kāi)發(fā)者只需幾行代碼加載模型,就能用于視頻理解、物理推理、甚至 robotics 應(yīng)用,這意味著研究和商業(yè)團(tuán)隊(duì)都能快速上手。
在 V JEPA 2 基礎(chǔ)上,研究者正探索更強(qiáng)的 seq JEPA 架構(gòu):它能處理多視角短視頻,通過(guò)自回歸學(xué)習(xí)視角不變性與層級(jí)預(yù)測(cè),具備更強(qiáng)情境理解與規(guī)劃深度。
V JEPA 2 的意義,遠(yuǎn)不止是一項(xiàng)模型能力的躍升。在這個(gè)模型中,機(jī)器第一次具備了 " 觀察–理解–行動(dòng) " 的閉環(huán)能力:無(wú)需腳本,不靠標(biāo)簽,只憑模糊的視覺(jué)目標(biāo),它就能推演出合理的路徑,像個(gè)學(xué)徒一樣,在世界中 " 試著做 "。
Meta 的下一站,是多時(shí)間尺度的分層世界模型、多模態(tài)的感知整合系統(tǒng)——那些曾屬于人類認(rèn)知系統(tǒng)的復(fù)雜能力,正逐漸被建構(gòu)出來(lái)。我們所處的,或許正是那個(gè) " 機(jī)器獲得常識(shí)、具備直覺(jué) " 的臨界點(diǎn)。
* 文中插圖來(lái)源于 Meta 官方論文和 GitHub 圖表
參考資料:
https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/
https://github.com/facebookresearch/vjepa2?tab=readme-ov-file