作者 | 賴文昕
編輯 | 陳彩嫻
2018 年 6 月,在澳大利亞機(jī)器人視覺研究中心(ACRV)做博士后研究員的吳琦和博士生 Peter Anderson 首次將 VL(視覺 - 語(yǔ)言)和彼時(shí)機(jī)器人領(lǐng)域主流的導(dǎo)航方向聯(lián)系起來(lái),在 CVPR 2018 發(fā)表了第一篇 VLN(視覺 - 語(yǔ)言 - 導(dǎo)航)工作;緊接著,Abhishek Das 作為一作發(fā)表的 "EmbodiedQA(具身問答)" 又讓 "Embodied" 一詞走入科研視野。
一個(gè)月后,一年一度的 NLP 領(lǐng)域頂會(huì) ACL 在冬季的墨爾本召開。在火熱的會(huì)場(chǎng)里,吳琦、Peter Anderson 和 Abhishek Das 舉辦了一場(chǎng)題為 " 將語(yǔ)言和視覺與動(dòng)作聯(lián)系起來(lái) " 的 tutorial,真正地開啟了 VLA(視覺 - 語(yǔ)言 - 動(dòng)作)這個(gè)全新領(lǐng)域。
對(duì) VLN 的探索也讓吳琦意識(shí)到,除了學(xué)習(xí)和理解多模態(tài)信息,機(jī)器還要能與真實(shí)環(huán)境進(jìn)行一定程度的交互,才能解決實(shí)際問題,便在原有的 VL 基礎(chǔ)上加進(jìn) " 動(dòng)作(Action)",提出 "V3A" 的概念,即 "Vision(視覺),Ask(提問),Answer(回答) and Act(行動(dòng))"。
作為最早一批研究 VL 的學(xué)者,吳琦在 MS COCO 數(shù)據(jù)集發(fā)布提出了圖像描述方向后立即在 2015 年跟進(jìn),又立即在視覺問答(VQA)此新方向上發(fā)表工作 "Ask Me Anything",并于 2018 年開啟了 VLA 領(lǐng)域。
而開啟了新領(lǐng)域的吳琦,則選擇在 VLN 方向上繼續(xù)扎根,并從去年開始著力于一系列真機(jī)研究。目前他正在澳大利亞阿德萊德大學(xué)任副教授,帶領(lǐng)自己的實(shí)驗(yàn)室 "V3A Lab",還在澳大利亞機(jī)器學(xué)習(xí)研究中心(AIML)里擔(dān)任視覺與語(yǔ)言研究方向的實(shí)驗(yàn)室主任。
聊到具身智能與 VLA,吳琦表示 VLA 不應(yīng)局限于上半身的操作任務(wù)," 很多人認(rèn)為導(dǎo)航問題已經(jīng)被解決,manipulation 更好和產(chǎn)業(yè)結(jié)合并落地,但其實(shí) VLN 仍有很多尚待突破的空間。"
以下是 AI 科技評(píng)論與吳琦的對(duì)話。
VLA 的 " 七年之癢 "
AI 科技評(píng)論:2018 年您提出了 "V3A" 的概念,在原有的 VL 上加進(jìn) action,當(dāng)時(shí)是受到什么啟發(fā)促使您開始了 VLA 的研究?
吳琦:最早在 CVPR 2018 上我和 Peter、Abhishek (Embodied VQA 作者) 碰在一起,覺得大家的論文都很有意思,決定在馬上舉行的 ACL 上一起辦一個(gè) tutorial。當(dāng)時(shí)我認(rèn)為 VL 已經(jīng)被講過很多次,再辦 tutorial 的意義不大,應(yīng)該加些新東西進(jìn)來(lái),而我們做的導(dǎo)航和 Abhishek 做的問答都屬于 action,那不如就做一個(gè)關(guān)于視覺(Vision),語(yǔ)言(Language)和動(dòng)作(Action)結(jié)合的講座,算是非常早期的 VLA 的概念。
我們的首篇 VLN 工作打開了這個(gè)新領(lǐng)域,但主要是提出了 R2R 數(shù)據(jù)集和任務(wù),不溫不火。到了下一年,CVPR 的最佳學(xué)生論文,即王鑫用模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)一起去解決 VLN 的工作,徹底讓此領(lǐng)域火了起來(lái)。
因?yàn)楹芟矚g VLA 的概念,我就提出了 "V3A",即 "Vision(視覺),Ask(提問),Answer(回答) and Act(行動(dòng))"。先是希望機(jī)器人或虛擬的 agent 基于視覺輸入能回答,這說明它能聽懂;接著是當(dāng)時(shí) VQG(視覺問題生成)的研究認(rèn)為提問比回答更難,這說明它有更強(qiáng)的推理能力;而在有自然語(yǔ)言對(duì)話能力后,我們希望模型能執(zhí)行如導(dǎo)航等動(dòng)作,也提出了 "Remote Embodied Visual Referring Expression(遠(yuǎn)程具身視覺指稱表達(dá))",就是讓機(jī)器人能完成 " 幫我找個(gè)勺子 " 這類導(dǎo)航任務(wù)。
AI 科技評(píng)論:在您看來(lái),2018 年前后的那波 VLA 與現(xiàn)在具身智能領(lǐng)域的 VLA,有什么不同之處?VLA 的發(fā)展經(jīng)歷過哪幾個(gè)比較重要的階段呢?
吳琦:我們剛提出 VLA 的概念時(shí),manipulation 這一塊還不熱門,那時(shí)的 action 可能更 high level,離機(jī)器人還更遠(yuǎn)一些,比如理解對(duì)應(yīng)場(chǎng)景去回答問題或?qū)Ш阶叩街付ㄎ恢萌フ夷骋粬|西。而且數(shù)據(jù)量的差距也比較大,以前 VLA 的數(shù)據(jù)量相對(duì)于現(xiàn)在來(lái)說都是小量級(jí)的。
Embodied QA 出來(lái)后 VLA 有一段停滯期,因其所用的數(shù)據(jù)存在版權(quán)問題導(dǎo)致大家沒法繼續(xù)使用;而 VLN 在 VLA 里發(fā)揮了非常大的作用,我們的工作很早期地把 VL 和 action 結(jié)合起來(lái),再加上王鑫在 CVPR 2019 的工作,VLN 和 VLA 受到了很大關(guān)注;時(shí)間再往后就是上交大盧策吾老師把 manipulation 和具身智能結(jié)合起來(lái),提出了很多新的數(shù)據(jù)集和任務(wù)。
接著是非常關(guān)鍵的節(jié)點(diǎn),GPT 系列的出現(xiàn)。此前盡管有 VL 大模型,但在解決很多 VQA 問題上的表現(xiàn)都一般,當(dāng)時(shí)普遍認(rèn)為在解決好 VL 問題前,還去結(jié)合 action 是不太可能實(shí)現(xiàn)的。而 GPT 的出現(xiàn)(特別是引入多模態(tài)后)解決了很多 VL 解決不了和解決不好的任務(wù),甚至是其零樣本的表現(xiàn)都遠(yuǎn)超當(dāng)時(shí)最大的 VL 預(yù)訓(xùn)練模型,因此大家就普遍認(rèn)為 VL 的一些基礎(chǔ)任務(wù)已被解決,所以開始引入更高層次的維度,即利用將視覺語(yǔ)言結(jié)合起來(lái)去預(yù)測(cè)、輸出 action,而不是單純地做 VQA 這種難以落地的東西。
AI 科技評(píng)論:具身智能熱潮之前爆火的是自動(dòng)駕駛行業(yè),在您看來(lái),自駕與機(jī)器人分別對(duì) VLA 提出了怎樣的獨(dú)特要求?如果單純從導(dǎo)航的角度來(lái)看,對(duì)人形機(jī)器人(雙足)的研究意義大嗎?
吳琦:自駕某種意義是也是 VLA,V 是戶外場(chǎng)景,L 是用戶需求,A 就是汽車所執(zhí)行的操作。當(dāng)然這里 A 的操作可能會(huì)分為汽車本身的動(dòng)作,比如轉(zhuǎn)彎,加速, 減速等等,也可以車機(jī)系統(tǒng)的操作,比如執(zhí)行播放音樂,導(dǎo)航至某地這類動(dòng)作。
機(jī)器人的 VLA 除了無(wú)人機(jī)之外,大部分可能還是在室內(nèi)場(chǎng)景中,V 主要是針對(duì)室內(nèi)場(chǎng)景和物體,而 A 則是要求動(dòng)作精度更高的 manipulation 或者移動(dòng)精度更高的 navigation。
我們?nèi)ツ昊景?VLN,就是的單純視覺語(yǔ)言導(dǎo)航這一塊,在實(shí)體機(jī)器人上實(shí)現(xiàn)了部署和運(yùn)行,包括四足的機(jī)器狗掃地機(jī)器人和輪式的機(jī)器人。我覺得在雙足上的部署問題也不大,因?yàn)槲覀兡壳按竽X和小腦的開發(fā)還是分開的,雙足這邊的控制沒有問題的話,對(duì)于我們 VLN 來(lái)說是一樣的,就是根據(jù)當(dāng)前 VL 信息,輸出一個(gè)機(jī)器人要執(zhí)行的線速度和角速度,而據(jù)我所知,無(wú)論底盤式還是足式,都可以接受這兩個(gè)信息完成下層的動(dòng)作指令。
AI 科技評(píng)論:在經(jīng)歷了 VLA 從坐冷板凳到如今大熱的過程后,您是如何看待現(xiàn)在大家對(duì) VLA 的熱情呢?
吳琦:VLA 的大熱其實(shí)是產(chǎn)業(yè)和學(xué)術(shù)發(fā)展的雙重結(jié)果。從產(chǎn)業(yè)視角來(lái)看,任何落地場(chǎng)景均需處理多模態(tài)輸入,并依賴一個(gè) high level 的推理模型輔助完成復(fù)雜的規(guī)劃與行為決策。人類大腦的工作機(jī)制即是典型例證——通過整合視覺、聽覺、觸覺等多模態(tài)感知信息,經(jīng)中樞神經(jīng)處理后生成具體動(dòng)作指令,這一整合決策過程在日常場(chǎng)景中不可或缺。從學(xué)術(shù)研究趨勢(shì)而言,自然語(yǔ)言處理(NLP)與計(jì)算機(jī)視覺(CV)領(lǐng)域的核心任務(wù)已取得顯著進(jìn)展,研究者正積極探索新的前沿方向。
值得一提的是,VLA 領(lǐng)域的研究者需精準(zhǔn)定位應(yīng)用場(chǎng)景,弄清楚 L(語(yǔ)言)的核心價(jià)值,即為機(jī)器人提供了一種更簡(jiǎn)便的人機(jī)交互方式。這種交互模式具有高度的靈活性與自然性,能夠支持用戶以隨意的方式下達(dá)指令,由此衍生出一系列全新的技術(shù)挑戰(zhàn)——不同于傳統(tǒng)預(yù)設(shè)任務(wù)的固定模式,VLA 面臨的任務(wù)往往具有顯著的臨時(shí)性特征,需要實(shí)時(shí)響應(yīng)非預(yù)定義的動(dòng)態(tài)需求。
VLN 之于 VLA
AI 科技評(píng)論:那您認(rèn)為導(dǎo)航的難點(diǎn)和重要性在哪里?怎么理解 VLN 跟 VLA 之間的關(guān)系?
吳琦:視覺導(dǎo)航作為任務(wù)本身可能是簡(jiǎn)單的,但視覺語(yǔ)言導(dǎo)航(VLN)還是比較難的。
舉個(gè)例子,食物掉下餐桌后讓現(xiàn)有的掃地機(jī)器人清掃,要不選全屋清掃,要不把機(jī)器人搬到附近讓它轉(zhuǎn)圈掃,或者再聰明一些的能在 APP 上把餐桌的區(qū)域畫出來(lái)讓它轉(zhuǎn)圈掃。
但 VLN 能實(shí)現(xiàn)的是——給一個(gè)指令讓它去餐桌附近清理食物,它能利用這信息知道,先導(dǎo)航到廚房餐桌的位置,使用視覺信息找到食物殘?jiān)恢?,只去清掃這一塊區(qū)域,而且相比過去的導(dǎo)航任務(wù)和方法,VLN 更擅長(zhǎng)處理很臨時(shí)性的事件。我們最近在掃地機(jī)器人上也基本上實(shí)現(xiàn)了這些功能,對(duì)這個(gè)技術(shù)感興趣的掃地機(jī)器人或家用機(jī)器人公司,也可以和我們聯(lián)系討論。
當(dāng)然,VLA 中的 action 有很多,VLN 只是其中一個(gè)子集,需要具體場(chǎng)景具體分析。有些時(shí)候可能并不需要 VLN,比如機(jī)器人如果處在工廠、超市這樣的固定場(chǎng)景下,做分揀或清理貨架這些聚焦上半身的任務(wù),它們以非常固定的軌跡去運(yùn)動(dòng)就可以了。
但是將來(lái)如果到了家用的實(shí)際場(chǎng)景,還是需要機(jī)器人不斷移動(dòng)的,這時(shí)的導(dǎo)航問題就比較難解決。我和北大的王鶴老師也討論過,室內(nèi)場(chǎng)景還是有很多挑戰(zhàn),除了建模不準(zhǔn)外,還有人移動(dòng)或交互的影響。
AI 科技評(píng)論:人的移動(dòng)或交互這類動(dòng)態(tài)場(chǎng)景對(duì) VLN 最大的挑戰(zhàn)或難點(diǎn)在哪里?目前都有哪些可行的探索方向?
吳琦:其實(shí)動(dòng)態(tài)場(chǎng)景帶來(lái)最大的影響就是之前基于 slam 建圖式的導(dǎo)航不再適用了,提前利用地圖信息規(guī)劃好的導(dǎo)航路線因?yàn)閯?dòng)態(tài)場(chǎng)景可能不再能完成任務(wù)。
這個(gè)時(shí)候就需要類似于 VLN 的技術(shù)來(lái)輔助,就是利用當(dāng)前的視覺信息以及最初的語(yǔ)言指令,來(lái)做出短程的導(dǎo)航路徑規(guī)劃,甚至是只預(yù)測(cè)下一步往哪里走,而到了下一步,再結(jié)合信息做出新的預(yù)測(cè)。
我們最近也提出了一個(gè)新的數(shù)據(jù)叫 Obstructed VLN,考慮的就是這個(gè)問題,就是在行走過程中發(fā)現(xiàn)出現(xiàn)了路徑的遮擋,需要做出臨時(shí)性的調(diào)整,大家可以關(guān)注。
AI 科技評(píng)論:之前林倞老師團(tuán)隊(duì)發(fā)表的綜述也將 VLN 列為具身智能的一大關(guān)鍵任務(wù),那 VLN 發(fā)展至今已經(jīng)七年了,除了開山之作外,您認(rèn)為哪些工作是關(guān)鍵呢?
吳琦:很榮幸我們主導(dǎo)了 VLN 領(lǐng)域多個(gè)關(guān)鍵節(jié)點(diǎn)工作。在提出三個(gè)數(shù)據(jù)集后,相繼采用 CNN、RNN 及注意力機(jī)制等方法開展研究。
Transformer 架構(gòu)誕生后,率先基于該架構(gòu)提出 "VLN-BERT",能基于 Transformer 處理 VLN 任務(wù);2022 年 CVPR 發(fā)表的 "Discrete-Continuous-VLN" 則首次探索 VLN 在離散與連續(xù)環(huán)境間的學(xué)習(xí)鴻溝彌合;去年推出的 NavGPT 是首個(gè)將 LLM 引入 VLN 的工作;而今年 ICRA 的 Open-Nav 則首次實(shí)現(xiàn) VLN 在真實(shí)機(jī)器人上的落地應(yīng)用。
其他組也作出了很多關(guān)鍵的工作,比如早期的,Hao Tan 在 NAACL 上提出的 EnvDrop,還是有 Chen Shizhe 也提出過好幾個(gè)非常關(guān)鍵的模型,比如現(xiàn)在常用作 baseline 的 DUET。我們的 ScalVLN(目前的 SOTA)也是基于 DUET 的工作過。要提一下,Shizhe 也曾經(jīng)在我們 V3Alab 訪問過一段時(shí)間,非常優(yōu)秀。
AI 科技評(píng)論:當(dāng)前具身智能領(lǐng)域里大家對(duì)操作任務(wù)的熱情高漲,但您更關(guān)注具身導(dǎo)航。
吳琦:可能還是落地導(dǎo)向吧,現(xiàn)在很多落地場(chǎng)景式工業(yè)場(chǎng)景,或者商業(yè)理貨場(chǎng)景,大部分時(shí)候機(jī)器人可以以固定路徑,并且在相對(duì)固定的場(chǎng)景里移動(dòng)。而家用場(chǎng)景目前落地還比較難,所以很多人還沒有體會(huì)到室內(nèi)視覺導(dǎo)航這塊的難度。
很多人認(rèn)為導(dǎo)航已經(jīng)是被解決完的問題,室內(nèi)導(dǎo)航只需建好圖就能讓機(jī)器人指哪到哪,不像 manipulation 那么難。但事實(shí)上,假如把它放在具身智能領(lǐng)域,其實(shí)還要一定的時(shí)間。畢竟,機(jī)器人只有在走到對(duì)應(yīng)的位置上,才能完成之后的動(dòng)作。
如果認(rèn)為具身行動(dòng)就是和上半身有關(guān)的抓取或 manipulation,其實(shí)是沒有真正思考清楚什么是具身智能。關(guān)于具身智能眾多的定義里,我最喜歡的是 CVPR 2024 的一個(gè)關(guān)于具身智能的討論,即 AI agent 需具備看、聽、說、行動(dòng)和推理五項(xiàng)基本能力,再能將模擬的機(jī)器人解決方案遷移到真實(shí)的機(jī)器人和現(xiàn)實(shí)世界中。
也就是說,只有把視覺信息、語(yǔ)言能力和具體執(zhí)行的任務(wù)(無(wú)論是上半身還是下半身的動(dòng)作)最后實(shí)現(xiàn)在真實(shí)機(jī)器人上,才能稱之為一篇真正的具身智能研究。
AI 科技評(píng)論:那這和自動(dòng)駕駛中的導(dǎo)航有哪些不同呢?
吳琦:自駕的導(dǎo)航是室外導(dǎo)航,有很多可利用的信息,比如 GPS 提供精準(zhǔn)定位,結(jié)合高精度地圖、視覺感知(如車道識(shí)別、路標(biāo)檢測(cè))及雷達(dá)系統(tǒng)(實(shí)現(xiàn)障礙物檢測(cè)與規(guī)避)。
而我們做的 VLN 其實(shí)是室內(nèi)導(dǎo)航,面臨多重限制。由于缺乏 GPS 信號(hào)且環(huán)境信息(如地標(biāo)、紋理)稀疏,無(wú)法直接復(fù)制室外方案。早期技術(shù)主要依靠視覺 SLAM(同步定位與地圖構(gòu)建)實(shí)現(xiàn)環(huán)境建圖,通過攝像頭實(shí)時(shí)采集數(shù)據(jù)構(gòu)建局部地圖以確定自身位置。但該方案對(duì)環(huán)境依賴性強(qiáng),常需人工預(yù)處理(如標(biāo)記特征點(diǎn)、優(yōu)化場(chǎng)景紋理)以提升建圖精度,難以實(shí)現(xiàn)完全自動(dòng)化。
最大的難點(diǎn)在于收集數(shù)據(jù),尤其是大量的室內(nèi) 3D 環(huán)境數(shù)據(jù)。我們希望獲取盡量真實(shí)的 3D 環(huán)境,但這些環(huán)境數(shù)據(jù)本身就很少,也沒有一個(gè)特別好的仿真器,而掃地機(jī)器人這類真實(shí)數(shù)據(jù)又存在隱私問題。我們因此也曾做過室內(nèi)設(shè)計(jì)相關(guān)的工作,是基于視覺和語(yǔ)言的裝修風(fēng)格生成,和裝修設(shè)計(jì)公司酷家樂合作,他們所提供的 3D 場(chǎng)景數(shù)據(jù)就特別有幫助。
AI 科技評(píng)論:盡管室內(nèi)不受天氣影響,但也可能會(huì)在低光、煙霧等極端感知條件下,視覺輸入失效。是否需為 VLN 引入多模態(tài)備份方案(如超聲波雷達(dá)、紅外傳感)?如何實(shí)現(xiàn)多模態(tài)信號(hào)與語(yǔ)言指令的實(shí)時(shí)對(duì)齊?
吳琦:確實(shí),隨著 simulator 變得越來(lái)越好,我們可以模擬出這些復(fù)雜的情景,也可以考慮引入其他的傳感器來(lái)輔助導(dǎo)航。我覺得這點(diǎn)上倒是可以參考無(wú)人駕駛的一些解決方案,實(shí)現(xiàn)多模態(tài)信息的對(duì)齊和處理。
卡脖子的數(shù)據(jù)也最易突破
AI 科技評(píng)論:在 VLN 和 VLA 領(lǐng)域里,當(dāng)前 Top 3 的研究問題都有哪些?
吳琦:我認(rèn)為目前面臨的核心挑戰(zhàn)首要是數(shù)據(jù)問題。當(dāng)前缺乏足夠優(yōu)質(zhì)、大規(guī)模的數(shù)據(jù)集支撐 VLN 或 VLA 模型訓(xùn)練,這與 GPT 依賴海量語(yǔ)料形成鮮明對(duì)比。具體而言,數(shù)據(jù)問題可拆解為三部分——
一是模擬器(Simulator)的必要性,與機(jī)器人技術(shù)結(jié)合的場(chǎng)景中,模擬器是訓(xùn)練和測(cè)試的基礎(chǔ)載體,其性能直接影響數(shù)據(jù)生成質(zhì)量。這里有很多東西可以去考慮,像材質(zhì)摩擦力、摩擦系數(shù)、環(huán)境重力、甚至是熱交互等物理特性,我們常見的物理定律在目前的模擬器里面體現(xiàn)得并不夠,要做真正的世界模型( word model ),數(shù)字孿生不能只是孿生表面,還要涵蓋其本身的物理特性。
二是高質(zhì)量 3D 環(huán)境構(gòu)建的稀缺性,僅有模擬器不足夠,還需在其中構(gòu)建多樣化真實(shí)場(chǎng)景(如家庭、工廠、購(gòu)物中心等),這類 3D 環(huán)境不僅稀缺,且制作成本高昂。
三是專用應(yīng)用數(shù)據(jù)的獨(dú)特性,區(qū)別于傳統(tǒng) AI 數(shù)據(jù)(如 NLP 的純文本、CV 的圖像標(biāo)簽),VLA/VLN 需要特定任務(wù)數(shù)據(jù)(如抓取、操作、導(dǎo)航等數(shù)據(jù)),其數(shù)據(jù)格式需整合模擬器、環(huán)境及應(yīng)用場(chǎng)景三類要素,缺一不可。因此,構(gòu)建大規(guī)模復(fù)合數(shù)據(jù)集是 VLA/VLN 的關(guān)鍵發(fā)展方向。
第二個(gè)挑戰(zhàn)是 Sim-to-Real 的遷移鴻溝。模型在模擬器中完成高效訓(xùn)練后,需在真實(shí)機(jī)器人和環(huán)境中部署,但二者存在多重差距——包括環(huán)境差異(如光照、物體物理屬性)和機(jī)器人硬件差異(如執(zhí)行器精度),如何彌合這些 Gap 是技術(shù)落地的核心難點(diǎn)。
第三個(gè)挑戰(zhàn)與工程部署相關(guān)。VLA/VLN 任務(wù)涉及復(fù)雜推理和模型計(jì)算(如導(dǎo)航模塊與 GPT 大模型的結(jié)合),依賴高性能 GPU 支持,而在機(jī)器人終端實(shí)現(xiàn)高效模型壓縮,平衡算力需求與設(shè)備輕量化,是亟待突破的技術(shù)瓶頸。
AI 科技評(píng)論:在這些瓶頸中,哪一個(gè)是最有可能率先被突破的?
吳琦:雖然數(shù)據(jù)是最大的難題,但其實(shí)它也是最容易突破的,尤其是圍繞著如何構(gòu)造更好的數(shù)據(jù)集、仿真器和環(huán)境出發(fā),并利用好它們?nèi)ビ?xùn)練一個(gè)更好的 VLA 模型。
比如我最近在思考環(huán)境生成的工作,之前和酷家樂的合作就是通過輸入語(yǔ)言描述生成三維的房間環(huán)境,包括房間、家具的布局、墻壁的顏色、地板的材質(zhì)等,但因當(dāng)時(shí)模型還不夠強(qiáng),效果比較一般,但現(xiàn)在或許可以重新拿出來(lái)實(shí)現(xiàn)一下。輸入可以是各種模態(tài)的,如對(duì)環(huán)境的語(yǔ)言描述、已有環(huán)境的圖片、視頻、結(jié)構(gòu)信息,希望模型能按照用戶需求快速地生成一個(gè)精準(zhǔn)的符合要求的環(huán)境,再把此環(huán)境導(dǎo)入到桃源或 Isaac Sim 等模擬器里供大家進(jìn)行訓(xùn)練。
AI 科技評(píng)論:那針對(duì)最關(guān)鍵的數(shù)據(jù)問題,現(xiàn)在都有哪幾種技術(shù)路徑呢?
吳琦:數(shù)據(jù)構(gòu)建主要存在三種技術(shù)路徑。第一是真人操控采集,通過人工控制機(jī)器人完成行走、抓取、家具組裝等任務(wù),同步記錄動(dòng)作軌跡與環(huán)境交互數(shù)據(jù),直接用于模型訓(xùn)練。這種方式依賴真實(shí)場(chǎng)景操作,數(shù)據(jù)貼合實(shí)際應(yīng)用但采集成本較高。
第二是 Sim2Real 模擬生成,借助高逼真度物理模擬器(如 NVIDIA Isaac Sim、上海 AI Lab 桃源系統(tǒng))構(gòu)建虛擬環(huán)境,通過算法自動(dòng)生成機(jī)器人執(zhí)行各類任務(wù)的數(shù)據(jù)。該路徑優(yōu)勢(shì)在于低成本批量生產(chǎn)數(shù)據(jù)——無(wú)需真實(shí)硬件介入,即可在模擬環(huán)境中完成海量訓(xùn)練,訓(xùn)練后的模型直接部署至真實(shí)機(jī)器人。
第三是視頻數(shù)據(jù)驅(qū)動(dòng),聚焦互聯(lián)網(wǎng)海量公開視頻(如導(dǎo)航、烹飪等場(chǎng)景),通過分析視頻中的高層決策邏輯(如任務(wù)規(guī)劃、動(dòng)作序列)訓(xùn)練模型。此路徑規(guī)避了傳統(tǒng)數(shù)據(jù)采集的繁瑣,僅關(guān)注 " 做什么 " 的高層規(guī)劃,無(wú)需處理機(jī)器人 " 如何執(zhí)行 " 的底層控制細(xì)節(jié)。
AI 科技評(píng)論:您很早就開始做 VLA 相關(guān)的 simulation,在您看來(lái),這些年來(lái)仿真最大的進(jìn)展是什么?當(dāng)前最亟待突破的卡點(diǎn)又是什么?
吳琦:確實(shí)當(dāng)時(shí)我們?cè)谠O(shè)計(jì)和發(fā)布 VLN 這個(gè)任務(wù)的時(shí)候,就做了一個(gè)基于 MP3D 數(shù)據(jù)的 MP3D simulator,這個(gè) simulator 也僅僅是為 MP3D 提供的 environment 數(shù)據(jù)以及 VLN 這個(gè)任務(wù)來(lái)服務(wù)的,非常的簡(jiǎn)單。
我覺得隨著具身智能的發(fā)展,大家越來(lái)越關(guān)注 simulator,包括前期 Meta 發(fā)布的 Habitat 1.0、2.0,再到最近的 Nvidia 的 Issac-Sim。我覺得 simulator 還是要大廠來(lái)做,因?yàn)樗且粋€(gè)比較工程的問題。
而 simulator 這塊,我覺得有三塊內(nèi)容比較重要,一個(gè)是場(chǎng)景仿真,就是說這個(gè)場(chǎng)景看上去要非常真實(shí)。這個(gè)就涉及到渲染,追光,建模,紋理這些的內(nèi)容。第二個(gè)是物理仿真,就是能夠模擬我們的物理現(xiàn)實(shí),比如重力、摩擦力、碰撞等等物理現(xiàn)象。第三個(gè)我覺得是這個(gè) simulator 一定要高效,不能因?yàn)檫\(yùn)行的速度拖延模型的訓(xùn)練,尤其是加入 RL 之后,需要在訓(xùn)練時(shí)和 simulator 交互,那么 simulator 的運(yùn)行效率就很重要了。
AI 科技評(píng)論:那又有哪些方法能解決 Sim2Real Gap 和工程部署這兩大問題呢?
吳琦:如果說我們普遍選擇相信 scaling law 的話,我認(rèn)為解決 sim2real 的問題其實(shí)就是解決數(shù)據(jù)的問題。
想象一下我們?nèi)绻幸粋€(gè)非常龐大的 environment 的數(shù)據(jù)集,包含了各種各樣的場(chǎng)景,而這些場(chǎng)景又非常真實(shí)并且能夠?qū)氲?simulator 里供我們訓(xùn)練一個(gè)足夠大的模型,那我認(rèn)為是有可能解決這種 gap 的。我們目前就在和酷家樂(群核)這邊合作,在大量的生成這些 environment 數(shù)據(jù),因?yàn)樗麄冎胺e累了大量的 3D 資產(chǎn)。
說到部署,我覺得作為機(jī)器人本體公司(比如宇樹),可以發(fā)揮更好的作用,提供對(duì)應(yīng)的、相對(duì)易用的部署工具。這是一個(gè)生態(tài)問題。英偉達(dá)之所以成為英偉達(dá),關(guān)鍵還是生態(tài)做的好,推動(dòng)了整個(gè)行業(yè)的發(fā)展。硬件公司應(yīng)該要有這樣的前瞻性,提供好的工具,建立好生態(tài),硬件才賣的出去。
更多關(guān)于 VLA 和 VLN 的故事,歡迎與雷峰網(wǎng)作者 anna042023 交流。雷峰網(wǎng)