中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      雷鋒網(wǎng) 15分鐘前

      上海 AI Lab 龐江淼:開放平臺(tái)是具身智能“ ChatGPT 時(shí)刻”的前提

      置身機(jī)器人這樣的大熱賽道,明星研究員總被如此之多的目光注視著。

      但關(guān)于龐江淼,網(wǎng)絡(luò)查到的信息寥寥。為數(shù)不多的內(nèi)容是,聚焦計(jì)算機(jī)視覺,浙江大學(xué)博士,香港中文大學(xué) MMLab 研究員,接下來一份經(jīng)歷就是現(xiàn)在了——上海 AI 實(shí)驗(yàn)室青年科學(xué)家,具身智能團(tuán)隊(duì)負(fù)責(zé)人。30 歲出頭,屬實(shí)年輕。

      在今天的具身智能領(lǐng)域里,CV 出身的研究人員占據(jù)了相當(dāng)大的比重,龐江淼算得上是其中很典型但又很顛覆的一個(gè)。

      之所以說典型,是因?yàn)槠湓缙诔晒考杏趥鹘y(tǒng) CV 范疇。他曾連續(xù)兩年斬獲 MS COCO 目標(biāo)檢測(cè)挑戰(zhàn)賽冠軍,是 MMLab 視覺感知系列開源平臺(tái) MMDetection、MMTracking、MMDetection3D 的作者,取得 CVPR 2023 最有影響力論文和 ECCV 2024 最佳論文提名。

      而之所以又說顛覆,則是因?yàn)椋嫿挡⑽聪穸鄶?shù) CV 出身的其他人一樣,停留在感知層面向機(jī)器人領(lǐng)域漸進(jìn)過渡,而是從轉(zhuǎn)型之初就直接切入了底層的控制。

      由他主導(dǎo)開發(fā)的人形機(jī)器人多姿勢(shì)站起控制算法是一個(gè)典型例證,這篇文章獲得了機(jī)器人學(xué)習(xí)頂級(jí)會(huì)議 RSS 2025 的最佳系統(tǒng)論文提名獎(jiǎng)。這也是龐江淼第一次投稿 RSS,此后,他共有 6 篇文章相繼被 RSS 接收,中稿率 75%,主要涉及人形機(jī)器人與機(jī)械臂的運(yùn)動(dòng)控制方向。

      用他自己的話來說," 我切得很直接,決定去做具身之后,就不再是僅僅用視覺去解決具身的問題。所以,盡管我是 CV 出身,但我現(xiàn)在的 mindset 其實(shí)挺不 CV 的。科研最關(guān)鍵的還是定義問題和解決問題的思維邏輯。只要找到合適的問題,聚焦并追求極致,總會(huì)有好的結(jié)果。"

      這個(gè)跨越式的轉(zhuǎn)型發(fā)生在 2021 年前后。

      據(jù)他回憶,當(dāng)時(shí)," 老本行 " 目標(biāo)檢測(cè)觸到瓶頸,技術(shù) " 拱 " 不動(dòng)了。同時(shí),視覺本身很難產(chǎn)生閉環(huán)價(jià)值,業(yè)界開始熱議 " 感知與行為閉環(huán) ",視覺的獨(dú)立性被重新評(píng)估,成為機(jī)器人感知的一個(gè)模塊。驅(qū)動(dòng)機(jī)器人行動(dòng),才會(huì)帶來價(jià)值。

      而比這早一年,Marco Hutter 團(tuán)隊(duì)采用強(qiáng)化學(xué)習(xí)在仿真環(huán)境中訓(xùn)練,再將之遷移到真實(shí)的四足機(jī)器人 ANYmal 上,使機(jī)器人實(shí)現(xiàn)高動(dòng)態(tài)運(yùn)動(dòng)。這意味著機(jī)器人領(lǐng)域終于出現(xiàn)了 data driven(數(shù)據(jù)驅(qū)動(dòng))的解決方案,也逐漸掀翻了傳統(tǒng)認(rèn)知。

      " 舊的領(lǐng)域遇到了瓶頸,新的東西也出現(xiàn)了,那么轉(zhuǎn)型也是自然而然的了。"

      在向雷峰網(wǎng) AI 科技評(píng)論講述這段經(jīng)歷時(shí),龐江淼向后靠坐在椅背,整個(gè)人似乎松懈了一下,但語(yǔ)速仍然很快——這也是對(duì)談中他留給人最鮮明的印象,思維敏捷、語(yǔ)速極快,問與答之間基本沒有留下思考的空檔。

      在剛剛過去的 WAIC 期間,他帶領(lǐng)上海 AI 實(shí)驗(yàn)室具身智能團(tuán)隊(duì)發(fā)布了『書生』具身全棧引擎 Intern-Robotics。發(fā)布結(jié)束后,雷峰網(wǎng) AI 科技評(píng)論與之進(jìn)行了對(duì)談。

      以 Intern-Robotics 為錨點(diǎn),你會(huì)發(fā)現(xiàn),他們的目標(biāo)不在某個(gè)單一的技術(shù)點(diǎn),而是一套開放共享的基礎(chǔ)設(shè)施,一個(gè)具身智能領(lǐng)域的 "ChatGPT" 時(shí)刻,讓整個(gè)行業(yè)的飛輪轉(zhuǎn)起來,轉(zhuǎn)得更快。這也是在對(duì)談中龐江淼數(shù)次想要強(qiáng)調(diào)的雄心。

      大小腦融合可能是大趨勢(shì)

      AI 科技評(píng)論:最近和很多行業(yè)內(nèi)人士聊,一部分聲音認(rèn)為具身智能的研究逐漸收斂到了三個(gè)大方向——具身大腦、全身控制、大小腦協(xié)調(diào)。您認(rèn)可嗎?

      龐江淼:我個(gè)人不完全認(rèn)同。所謂大小腦是更偏宏觀的劃分。

      具身智能目前還很難做到任務(wù)泛化,任務(wù)層面可能包括空間感知、導(dǎo)航、操作、人形運(yùn)控等;所有任務(wù)都可以有大腦負(fù)責(zé)推理,同時(shí)有小腦負(fù)責(zé)具體執(zhí)行,只不過有的任務(wù)側(cè)重大腦,有的任務(wù)側(cè)重小腦。現(xiàn)在無法融合才會(huì)存在所謂大、小腦,再發(fā)展幾年可能就是一個(gè)模型。

      AI 科技評(píng)論:所以大小腦融合是大趨勢(shì)?

      龐江淼:可以這么說。目前大小腦之所以無法快速融合,和端側(cè)算力水平有關(guān),端側(cè)芯片還推不起大模型,這就意味著,要做低頻的思考和高頻的行動(dòng),也就是雙系統(tǒng),前者相當(dāng)于大腦,后者相當(dāng)于小腦,這種架構(gòu)本質(zhì)上也符合人類行為學(xué)。

      AI 科技評(píng)論:你們?cè)谘芯烤呱泶竽P偷倪^程中會(huì)受限于算力水平嗎?

      龐江淼:算力分為云端和終端兩部分,模型訓(xùn)練肯定是在云端,但推理一定是在端側(cè),目前主要是端側(cè)算力受限。當(dāng)然,科研是可以用各種各樣的方式繞過它的,但如果走向了商業(yè)化落地場(chǎng)景,這個(gè)問題就繞不過去了。

      AI 科技評(píng)論:大腦層面,VLA 是現(xiàn)在的共識(shí)路線了嗎?

      龐江淼:VLA 是重要的技術(shù)路線,有助于泛化能力的提升,但只有 VLA 應(yīng)該也不夠,我們很關(guān)注一些傳統(tǒng)的控制理論,共同提升模型的能力。其實(shí)在 VLA 領(lǐng)域現(xiàn)在也標(biāo)準(zhǔn)不一,我們一直開玩笑說現(xiàn)在市面上有三種 VLA。

      Google 在 2023 年發(fā)布的 RT-2 算是第一個(gè)具身智能 VLA。當(dāng)時(shí)谷歌在 VL 大模型中加入了一個(gè) A 的模態(tài),將機(jī)器人動(dòng)作映射為文本標(biāo)記,和互聯(lián)網(wǎng)規(guī)模的視覺 - 語(yǔ)言數(shù)據(jù)集共同訓(xùn)練,既保留多模態(tài)大模型的識(shí)別和交互能力,又能讓機(jī)器人動(dòng)起來。這是最狹義的 VLA。

      但后來大家逐漸發(fā)現(xiàn)這種技術(shù)路線不是最優(yōu)的,因?yàn)闄C(jī)器人動(dòng)作數(shù)據(jù)很少,加入后無法泛化。那就基于一個(gè)多模態(tài)大模型微調(diào)出來一個(gè)模型,只具備執(zhí)行能力,不具備思考能力,我們一般把這種叫做 A 式的 VLA。

      第三種是只要有視覺、文本、行為的 encoder 就叫 VLA,這種可能就過于寬泛了。

      AI 科技評(píng)論:你剛剛提到任務(wù)劃分,具身領(lǐng)域的主流任務(wù)有哪些?

      龐江淼:主要是四個(gè)比較核心的方向:感知、操作、導(dǎo)航、人形運(yùn)控。

      這幾個(gè)任務(wù)之間是平行的,也許最終會(huì)融合但目前還沒有。比如巡檢機(jī)器人公司可能只關(guān)心導(dǎo)航能力,工業(yè)機(jī)器人公司可能只關(guān)心機(jī)械臂的操作能力,而人形機(jī)器人目前則只關(guān)心人形運(yùn)控……

      不同的任務(wù),VLA 大模型的技術(shù)方案和表現(xiàn)也會(huì)有所不同。和真實(shí)世界的交互越多,真機(jī)數(shù)據(jù)的價(jià)值就越大。所以導(dǎo)航,以及 pick and place 等簡(jiǎn)單任務(wù),合成數(shù)據(jù)可以占據(jù)大部分比重。但如果復(fù)雜度進(jìn)一步上升,仿真算法本身就會(huì)帶來新的挑戰(zhàn),也會(huì)帶來非常多有意思的研究課題。

      AI 科技評(píng)論:具身智能領(lǐng)域仍然有很多路線之爭(zhēng)。

      龐江淼:是的,我覺得有兩個(gè)原因。

      首先,復(fù)雜性太高了。拿計(jì)算機(jī)視覺舉例,這個(gè)領(lǐng)域在上個(gè)世紀(jì)就已經(jīng)形成了清晰的任務(wù)定義、數(shù)據(jù)集,比如目標(biāo)檢測(cè)、分割、跟蹤等高維視覺,去模糊、超分辨等低維視覺……而具身智能的復(fù)雜度更大,子任務(wù)的拆分定義還是模糊的。

      其次,高度復(fù)合,這意味著所有人都可以走向這個(gè)領(lǐng)域,NLP、視覺、機(jī)器人、IL、自動(dòng)駕駛等等的人都會(huì)有自己的視角,選擇離自己最近的路線切入。

      做平臺(tái)和賣芯片差不多

      AI 科技評(píng)論:在爭(zhēng)論仍舊很 " 嘈雜 " 的背景下,WAIC 期間團(tuán)隊(duì)發(fā)布的 Intern-Robotics 亮點(diǎn)在于什么?

      龐江淼:我覺得可以從兩個(gè)維度看,一方面,科研層面肯定有其先進(jìn)性,我們還會(huì)在接下來一段時(shí)間公開最新的工作;另一方面,定位比較清晰,它作為一個(gè)平臺(tái),一個(gè)基礎(chǔ)工具鏈,能夠跟更多的伙伴合作,為領(lǐng)域內(nèi)其他團(tuán)隊(duì)創(chuàng)造價(jià)值。

      通過這次發(fā)布,實(shí)驗(yàn)室把過去幾年的積累去以一種非常體系化的方式 " 給 " 了出去,我們也會(huì)以它為載體跟業(yè)內(nèi)交流、合作。也希望未來平臺(tái)用戶量越來越大,大家能聚集起來一起做一些事情,同時(shí)隨著數(shù)據(jù)積累形成公開數(shù)據(jù)集。

      AI 科技評(píng)論:但實(shí)驗(yàn)室離場(chǎng)景有點(diǎn)遠(yuǎn),在提升大腦能力方面會(huì)不會(huì)受局限?

      龐江淼:所以才需要跟公司合作,對(duì)方有數(shù)據(jù)和場(chǎng)景,我們提供模型能力,雙向助益。

      AI 科技評(píng)論:合作具體是怎么進(jìn)行的?

      龐江淼:以今年我們跟國(guó)地中心的合作為例,國(guó)地中心有場(chǎng)景、有本體,我們協(xié)助他們進(jìn)行任務(wù)定義和數(shù)據(jù)采集規(guī)則的制定。我們內(nèi)部有一條合成數(shù)據(jù)的管線,場(chǎng)景數(shù)據(jù)給過來后,我們?cè)僮鲆恍┖铣蓴?shù)據(jù),把兩種數(shù)據(jù)整合起來訓(xùn)練模型,模型會(huì)部署到 " 青龍 " 上。本體落地應(yīng)用的過程中又會(huì)產(chǎn)生一系列交互數(shù)據(jù),我們會(huì)利用這些逐步迭代模型能力、數(shù)據(jù)管線的能力。

      慢慢地,這個(gè)領(lǐng)域可能會(huì)出現(xiàn)基模型,搭配上一系列工具鏈,行業(yè)內(nèi)的任何本體公司都可以 " 開箱即用 ",輪子也就轉(zhuǎn)起來了。

      AI 科技評(píng)論:所以實(shí)驗(yàn)室在具身智能方向的定位是做平臺(tái)?最終想達(dá)成的愿景是什么?

      龐江淼:我們一直希望做平臺(tái),但不僅僅是平臺(tái)。

      最終目的是希望推動(dòng)整個(gè)領(lǐng)域有更加歸一化的基準(zhǔn),比如在任務(wù)劃分、數(shù)據(jù)等方面,大家的努力能匯到一塊去,推動(dòng)整個(gè)領(lǐng)域迭代更快一些。

      AI 科技評(píng)論:這種定位和團(tuán)隊(duì)的發(fā)展歷程、優(yōu)勢(shì)基礎(chǔ)有關(guān)嗎?

      龐江淼:實(shí)驗(yàn)室在具身智能這個(gè)領(lǐng)域積淀的時(shí)間算是比較長(zhǎng)了。2022 年初我們團(tuán)隊(duì)就已經(jīng)存在了,早期偏向前沿探索,最初是做足式機(jī)器人,但同期也有做操作。2024 年年中,具身智能團(tuán)隊(duì)更完善,方向也更加聚焦。

      另外我們團(tuán)隊(duì)組成足夠 diverse,NLP、AGC、自動(dòng)駕駛等等領(lǐng)域的人員都有,內(nèi)部還有一個(gè) AIGC 的團(tuán)隊(duì),能做 Real2Sim。

      總之,認(rèn)知積累早、技術(shù)儲(chǔ)備全,公立的研發(fā)機(jī)構(gòu)的身份也有助于開展類似的合作。所以我們有希望率先去解決領(lǐng)域內(nèi)關(guān)于任務(wù)定義、數(shù)據(jù)集等基礎(chǔ)問題。

      AI 科技評(píng)論:怎么吸引企業(yè)加入合作?

      龐江淼:其實(shí)做平臺(tái)和賣芯片差不多,本質(zhì)是把生態(tài)做好,靠模型算法取勝。同時(shí)把用戶體驗(yàn)做好,比如一套易用性很高的框架。

      AI 科技評(píng)論:平臺(tái)希望吸引更多人、沉淀更多數(shù)據(jù),對(duì)量級(jí)有沒有初步的規(guī)劃?

      龐江淼:無論是用戶,還是數(shù)據(jù),我認(rèn)為現(xiàn)在很難去判斷量級(jí),因?yàn)闆]什么參考。打個(gè)可能不太恰當(dāng)?shù)谋确?,大模型有點(diǎn)像互聯(lián)網(wǎng),具身智能有點(diǎn)像制造業(yè)。制造業(yè)的本質(zhì)是價(jià)值閉環(huán)的流程更長(zhǎng),例如,一家車企銷量過百萬已經(jīng)算是很高的數(shù)值,但一家互聯(lián)網(wǎng)企業(yè)用戶上億都不算什么。所以討論用戶數(shù)的量級(jí)意義不大。

      再者,數(shù)據(jù)量本身不產(chǎn)生價(jià)值,數(shù)據(jù)集的多樣性也不產(chǎn)生價(jià)值,利用這一數(shù)據(jù)集能訓(xùn)練出來什么樣的模型,才決定了價(jià)值。

      接下來的目標(biāo)是 " 三個(gè)泛化 "

      AI 科技評(píng)論:那接下來平臺(tái)還有什么重點(diǎn)方向嗎?

      龐江淼:現(xiàn)在具身智能主要的問題在于,泛化不足。包括今年以來很火的機(jī)器人跳舞,其實(shí)也是用模型去擬合一條軌跡。未來實(shí)驗(yàn)室的目標(biāo)是,在具身智能作業(yè) 100% 可靠性的前提下,實(shí)現(xiàn)本體泛化、場(chǎng)景泛化、任務(wù)泛化,這是總體的邏輯。

      具身智能和大模型有一個(gè)非常明顯的不同,就是對(duì)作業(yè)成功率趨近 100% 的要求。大模型可以有幻覺,可以 " 再想一想 ",但人形機(jī)器人摔倒了就是摔倒了。

      現(xiàn)在我們正在做人形運(yùn)控的基模型,當(dāng)然它目前只是基模型的概念,但在參數(shù)量上還是一個(gè)小模型。我們也一直在尋找一些更難的場(chǎng)景來展示模型能力,比如高動(dòng)態(tài)場(chǎng)景的交互,之后我們可能會(huì)出一個(gè) demo,讓異構(gòu)的機(jī)器人從不同速度轉(zhuǎn)動(dòng)的輪盤上把物體精準(zhǔn)拿下來,再去做協(xié)作,這就同時(shí)能夠體現(xiàn)出上述三種泛化。

      當(dāng)然,短周期內(nèi)我們會(huì)先做好聚焦場(chǎng)景下的局部泛化,先解決最基礎(chǔ)和關(guān)鍵的問題,再去拓寬。剛剛提到了 3 種泛化、4 種任務(wù),我們會(huì)在這個(gè)大框架下找一些具體場(chǎng)景,橫向拉幾條比較窄的線去做。

      AI 科技評(píng)論:所以 Intern-Robotics 的 " 一腦多形 " 也呼應(yīng)了其中的本體泛化?

      龐江淼:是的,具身智能要面向應(yīng)用需求,不限場(chǎng)景、任務(wù)。高成功率,本質(zhì)是需要一個(gè)好的后訓(xùn)練技術(shù)。那么只要有一條通用的管線,基于前期預(yù)訓(xùn)練的基模型,就可以在一定時(shí)間內(nèi)微調(diào)出一個(gè)具體行業(yè)領(lǐng)域的機(jī)器人。

      如果基模型是允許 " 多形 " 的,也就相當(dāng)于管線相通。在迭代過程中,我們可以逐漸把后訓(xùn)練過程干掉,這樣也許可以出現(xiàn)一個(gè)可以零樣本泛化的 "ChatGPT"。

      AI 科技評(píng)論:這也是業(yè)內(nèi)大家一直在追問的,具身智能領(lǐng)域的 ChatGPT 什么時(shí)候才能出現(xiàn)?這也是你們?cè)谧龅臇|西對(duì)嗎?

      龐江淼:其實(shí)我們是 " 沿途下蛋 "。ChatGPT 是終極目標(biāo),但并不是立刻就要做出來。這是一個(gè)一邊迭代、一邊落地,逐漸把后續(xù)微調(diào)工作壓縮下來的過程。

      AI 科技評(píng)論:除了本體泛化,還有場(chǎng)景泛化,之前你主導(dǎo)的可泛化地形人形機(jī)器人自主站立控制技術(shù)做了多久?

      龐江淼:這項(xiàng)工作的周期并不長(zhǎng),也就 3 — 6 個(gè)月。

      技術(shù)突破其實(shí)是跟著整個(gè)領(lǐng)域的迭代節(jié)奏走,如果你真的覺得一些工作做得很好,它本質(zhì)只是領(lǐng)先了整個(gè)領(lǐng)域 3 — 6 個(gè)月,并不會(huì)超脫出領(lǐng)域發(fā)展的客觀規(guī)律。

      AI 科技評(píng)論:當(dāng)時(shí)這個(gè)項(xiàng)目的 idea 是怎么出現(xiàn)的?

      龐江淼:我們當(dāng)時(shí)在做人形機(jī)器人運(yùn)控,第一階段是盲走。沒有視覺的情況下,機(jī)器人動(dòng)作是非常穩(wěn)定的,包括現(xiàn)在機(jī)器人打拳整個(gè)決策也是沒用到視覺的。

      接下來要讓它上臺(tái)階,這時(shí)候就必須加入視覺了,但視覺會(huì)給系統(tǒng)帶來噪聲,使機(jī)器人經(jīng)常摔倒,每摔倒一次都要重新調(diào)試。所以我們覺得,如果機(jī)器人能自主站起來,整個(gè)系統(tǒng)會(huì)更加魯棒。所以這個(gè)項(xiàng)目就出來了。

      其實(shí)從這個(gè)項(xiàng)目也能看出,我們的風(fēng)格還是以解決具體問題為導(dǎo)向去做項(xiàng)目的。

      AI 科技評(píng)論:怎么處理視覺帶來的這些噪聲?

      龐江淼:我們當(dāng)時(shí)有一篇論文叫 PIM(Perceptive Internal Model),利用傳統(tǒng)機(jī)器人領(lǐng)域的建圖技術(shù),把機(jī)器人周圍環(huán)境精盡量精準(zhǔn)構(gòu)建起來。仿真訓(xùn)練的過程可以直接拿到障礙物位置的真值,然后再把 Sim 和 Real 之間盡可能對(duì)齊。

      AI 科技評(píng)論:這套算法其實(shí)還解決了一些高難度地形上機(jī)器人的動(dòng)作穩(wěn)定性,比如梅花樁這樣的稀疏落足點(diǎn),甚至在機(jī)器人運(yùn)動(dòng)中突然加入障礙物。

      龐江淼:梅花樁很簡(jiǎn)單,只要在仿真里加一些這樣的地形,定向去微調(diào)一下。在通用的框架下,機(jī)器人就能完成相關(guān)動(dòng)作。

      動(dòng)態(tài)地形的問題比較難,現(xiàn)在所有 AI 處理動(dòng)態(tài)事物都非常困難,坦白講,我們最近并沒有什么能解決這個(gè)問題的辦法。動(dòng)態(tài)相當(dāng)于增加了多樣性,AI 的邏輯很簡(jiǎn)單,input 多樣性越小,模型表現(xiàn)越好;多樣性上去了,模型表現(xiàn)就會(huì)下來。

      數(shù)據(jù)匱乏的對(duì)策是 Real-Sim-Real

      AI 科技評(píng)論:從多樣性的維度看,機(jī)器人動(dòng)作仍然是背誦而非自學(xué)習(xí)的過程?

      龐江淼:你可以理解它是在背誦,但當(dāng)數(shù)據(jù)量足夠大,它會(huì)出現(xiàn)智能的涌現(xiàn)。

      這也是 ChatGPT 最厲害的地方,它證明了,AI 的本質(zhì)很有可能就是一種極致的 over fitting。它目前已經(jīng)在大語(yǔ)言模態(tài)下做到了,但語(yǔ)言是一維的,并且是結(jié)構(gòu)化的,有海量的互聯(lián)網(wǎng)數(shù)據(jù)支撐,所以可以堆上去。

      但在具身智能領(lǐng)域,數(shù)據(jù)的量級(jí)差距不可同日而語(yǔ),數(shù)據(jù)量小是最本質(zhì)的問題。

      AI 科技評(píng)論:具身智能領(lǐng)域最匱乏的是哪一類數(shù)據(jù)?

      龐江淼:主要是精準(zhǔn)行為數(shù)據(jù)。

      AI 科技評(píng)論:團(tuán)隊(duì)在訓(xùn)練模型時(shí)數(shù)據(jù)來源有哪些?

      龐江淼:現(xiàn)在還是一個(gè)數(shù)據(jù)金字塔的概念,最頂層是真機(jī)數(shù)據(jù),它最精準(zhǔn),但數(shù)量也最少;中間是仿真;下面是網(wǎng)絡(luò)視頻數(shù)據(jù),離機(jī)器人最遠(yuǎn),但數(shù)量最大。純粹依賴真機(jī)數(shù)據(jù)肯定不行,因?yàn)閿?shù)據(jù)不夠,且沒辦法解決采集成本高昂的問題;純粹的合成數(shù)據(jù)也不行,它沒辦法做到復(fù)雜交互場(chǎng)景的完全精準(zhǔn)合成。

      因此主要在于如何搭建這個(gè)金字塔,訓(xùn)練出一個(gè)足夠魯棒、泛化的模型。我們每種數(shù)據(jù)都會(huì)用,關(guān)鍵在于怎么融合。我個(gè)人會(huì)比較看好 Real to Sim to Real 這套技術(shù)路線,再配上一些真實(shí)世界的強(qiáng)化學(xué)習(xí)。

      AI 科技評(píng)論:你們會(huì)使用網(wǎng)絡(luò)視頻數(shù)據(jù)嗎?

      龐江淼:視頻數(shù)據(jù)更多是做預(yù)訓(xùn)練,但很難用于后訓(xùn)練。二者的區(qū)別在于,預(yù)訓(xùn)練的數(shù)據(jù)量非常大,含有更多領(lǐng)域的知識(shí);但后訓(xùn)練必須有非常精準(zhǔn)的行為標(biāo)簽。

      AI 科技評(píng)論:Real to Sim to Real 的過程中,如何消除 Sim 和 Real 之間的 gap?

      龐江淼:Sim 和 Real 之間最大的 gap 無非兩點(diǎn)。

      一點(diǎn)是關(guān)節(jié)運(yùn)動(dòng)本身帶來的誤差,但這一點(diǎn)是相對(duì)可控的,因?yàn)殡姍C(jī)是自己造的,所有的真值在機(jī)器人運(yùn)動(dòng)過程中都能拿到;

      另一點(diǎn)是視覺帶來的誤差。加入視覺后就意味著需要在仿真器里做一個(gè)相機(jī)的仿真,相機(jī)仿真本身和真實(shí)世界就是有差距的,再加上機(jī)器人看到的事物的多樣性是沒有約束的,這是最大的困擾點(diǎn),也是接下來需要重點(diǎn)研究的方向。

      AI 科技評(píng)論:大模型的 scaling law 會(huì)面臨瓶頸,具身智能也會(huì)如此嗎?

      龐江淼:先解決從無到有,再解決從有到優(yōu)。大模型已經(jīng)用互聯(lián)網(wǎng)數(shù)據(jù)提升到了很高水平,面對(duì)接下來的瓶頸,需要更高質(zhì)量的數(shù)據(jù)做調(diào)優(yōu)。但具身智能還停留在前一個(gè)階段,即怎么把數(shù)據(jù)堆上去,現(xiàn)在談?wù)?scaling law 瓶頸還為時(shí)尚早。

      我對(duì) scaling law 其實(shí)還有一個(gè)思考:它并不只是一條線性的增長(zhǎng)曲線。我們可以在很多維度找到這種數(shù)量和性能的線性關(guān)系。它的關(guān)鍵其實(shí)是一個(gè)可以讓你放心 scaling 資源投入的支點(diǎn),這也是我們正在探索的。

      AI 科技評(píng)論:之前元宇宙沒能做起來,也是類似的原因,比如 3D 內(nèi)容不夠豐富?,F(xiàn)在大家也會(huì)擔(dān)心具身智能會(huì)不會(huì)成為下一個(gè)元宇宙。你怎么看?

      龐江淼:不會(huì)。具身智能的能力確實(shí)遠(yuǎn)未達(dá)到落地的水平,但它和元宇宙最大的區(qū)別在于,它的行業(yè)需求是客觀且持續(xù)存在的,只要能做出來,下游有很多原本就存在的產(chǎn)業(yè)都在等待著。我對(duì)這個(gè)領(lǐng)域的感受是,絕對(duì)值不行,但動(dòng)量非常大。

      需求明確,只是當(dāng)前技術(shù)不成熟,那么技術(shù)可以往前迭代,在接下來的周期里,技術(shù)會(huì)繼續(xù)往前跑,然后慢慢落地,就像剛剛說的沿途下蛋。

      相關(guān)標(biāo)簽

      相關(guān)閱讀

      最新評(píng)論

      沒有更多評(píng)論了
      雷峰網(wǎng)

      雷峰網(wǎng)

      讀懂智能&未來

      訂閱

      覺得文章不錯(cuò),微信掃描分享好友

      掃碼分享