文 | 劃重點(diǎn) KeyPoints
劃重點(diǎn):
1、為期三天的首屆世界人形機(jī)器人運(yùn)動(dòng)會(huì)出現(xiàn)了不少搞笑名場面,究其原因是當(dāng)前機(jī)器人缺乏對(duì)環(huán)境感知和自身控制的能力。
2、在受控環(huán)境中,機(jī)器人已經(jīng)能自主完成感知—決策—執(zhí)行的完整閉環(huán);并且具身智能正在從 " 單一任務(wù) " 走向 " 多任務(wù)泛化 "。
3、要讓機(jī)器人真正具備與人類比肩的環(huán)境適應(yīng)力和任務(wù)執(zhí)行力,仍需在動(dòng)態(tài)平衡與姿態(tài)控制技術(shù)、低延遲環(huán)境感知與決策系統(tǒng)、高能效續(xù)航技術(shù)、多任務(wù)泛化學(xué)習(xí)能力,以及低成本高可靠性硬件方案等方面繼續(xù)發(fā)力。
為期整整三天,世界第一場機(jī)器人運(yùn)動(dòng)會(huì),可謂是受到了全球人類的圍觀。
因?yàn)楫?dāng)我們碳基生命以為會(huì)是一場科技感十足、未來感滿滿的技術(shù)盛宴時(shí),硅基生命們卻超級(jí)反差地呈現(xiàn)出了大型搞笑現(xiàn)場。
最最最經(jīng)典的名場面,莫過于宇樹機(jī)器人的 " 肇事逃逸 " 事件了:
這種違反阿西莫夫的機(jī)器人原則第一條(不得對(duì)人類造成傷害)的事件,一下子在外網(wǎng)火了起來。
不過網(wǎng)友們討論的另一個(gè)點(diǎn),就是為什么非得用遙控器才行。關(guān)于這個(gè)問題,具體原因主要有兩方面。
一方面是機(jī)器人自身的穩(wěn)定性問題,本質(zhì)上源于動(dòng)態(tài)平衡。跑步是一種極易失衡的運(yùn)動(dòng)形式,機(jī)器人必須在極短時(shí)間內(nèi)完成姿態(tài)調(diào)整。
然而,現(xiàn)有的傳感器、算法和執(zhí)行器在反應(yīng)速度和精度上仍然不足,難以在復(fù)雜地形中保持穩(wěn)定。這時(shí),人工遙控可以在機(jī)器人即將失衡時(shí)及時(shí)介入。
比如,宇樹的另一款機(jī)器人 G1 在今年 4 月被第三方用于參加半程馬拉松時(shí),就曾出現(xiàn)摔倒的情況。
另一方面是環(huán)境感知能力的不足。雖然傳感器能夠獲取周圍信息,但在高速奔跑狀態(tài)下,數(shù)據(jù)往往存在延遲或精度不夠,導(dǎo)致機(jī)器人無法像人類一樣迅速作出判斷。人工遙控正好可以彌補(bǔ)這種感知與決策上的短板。
這次機(jī)器人在短暫脫離遙控后就發(fā)生了撞人事故,也從側(cè)面印證了上述問題。
但在這場運(yùn)動(dòng)會(huì)另外的賽事中,烏龍和搞笑名場面也是不斷在上演。
例如在拳擊比賽中,趁著工作人員不注意,繞到他的身后,直接開始揮拳了:
但你以為世界人形機(jī)器人運(yùn)動(dòng)會(huì)就是來搞笑的嗎?非也非也,在各大賽事中,也有不少機(jī)器人給出了非常驚艷的表現(xiàn)。
而它們,或許正是代表了目前國產(chǎn)機(jī)器人的最高水平。
01 宇樹 H1 機(jī)器人:拿下田徑 1500 米首金
同樣是那位肇事逃逸的宇樹 H1 機(jī)器人,非常反差的一個(gè)表現(xiàn),就是它拿下了這屆 1500 米田徑賽的首金,共計(jì)耗時(shí) 6 分 34 秒。
宇樹 H1 的這一成績,換算下來相當(dāng)于長跑運(yùn)動(dòng)中的 " 四分配速 ",即每公里耗時(shí)約 4 分 22 秒。
這是一個(gè)什么概念?作為參照,中國國家二級(jí)運(yùn)動(dòng)員的男子 1500 米標(biāo)準(zhǔn)是 4 分 10 秒。這意味著,H1 的速度已經(jīng)超越了許多經(jīng)過長期訓(xùn)練的業(yè)余跑者,甚至接近了專業(yè)運(yùn)動(dòng)員的門檻。
這一成就之所以令人矚目,不僅在于其絕對(duì)速度,更在于其背后所展現(xiàn)的技術(shù)進(jìn)步。僅僅在幾個(gè)月前,機(jī)器人在馬拉松賽事中的表現(xiàn)還步履蹣跚,被戲稱為 " 老奶奶步伐 "。
而今,宇樹 H1 卻實(shí)現(xiàn)了從 " 站不穩(wěn) " 到 " 快成殘影 " 的驚人蛻變,這背后是硬件與算法協(xié)同進(jìn)化的必然結(jié)果。
宇樹 H1 之所以能夠取得如此突破性的表現(xiàn),其核心在于兩大支柱的協(xié)同作用:堅(jiān)實(shí)的硬件基礎(chǔ)和革命性的 AI 算法。
為了支撐高強(qiáng)度的奔跑運(yùn)動(dòng),H1 在硬件層面進(jìn)行了全面的優(yōu)化與升級(jí):
· 高爆發(fā)力矩電機(jī):機(jī)器人奔跑時(shí),關(guān)節(jié)需要瞬間輸出巨大的力量。H1 配備了自研的高性能電機(jī),其峰值扭矩高達(dá) 360 牛 · 米,同時(shí)具備出色的力矩 - 速度曲線和高效的散熱能力,確保在持續(xù)高強(qiáng)度運(yùn)動(dòng)中不會(huì)因過熱而降頻或損壞。
· 高強(qiáng)度輕量化結(jié)構(gòu):奔跑時(shí),足底與地面會(huì)產(chǎn)生劇烈的沖擊力。H1 的機(jī)身結(jié)構(gòu)采用了高強(qiáng)度合金與碳纖維等輕量化材料,在保證結(jié)構(gòu)剛性的同時(shí),最大限度地減輕了自身重量,從而降低了運(yùn)動(dòng)能耗和關(guān)節(jié)負(fù)荷。
· 高功率電池系統(tǒng):持續(xù)的高速奔跑對(duì)能源供應(yīng)提出了極高的要求。H1 搭載了大功率電池組,能夠提供穩(wěn)定且持久的高電壓輸出,為電機(jī)和控制系統(tǒng)提供充足的 " 彈藥 "。
相比之下,同期參賽的其他一些機(jī)器人在基礎(chǔ)的平衡控制上仍存在巨大挑戰(zhàn),出現(xiàn)了 " 下樓梯摔得頭掉,跑步兩米就原地打轉(zhuǎn) " 的窘?jīng)r。
如果說硬件為 H1 提供了強(qiáng)健的 " 體魄 ",那么先進(jìn)的 AI 算法則賦予了它智慧的 " 靈魂 "。
近年來,機(jī)器人行業(yè)正普遍從傳統(tǒng)的 ZMP(零力矩點(diǎn))等控制方法,轉(zhuǎn)向以深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL)為代表的 "Learning" 技術(shù)路線。
· 深度強(qiáng)化學(xué)習(xí)(DRL):通過這種算法,機(jī)器人可以在虛擬環(huán)境中進(jìn)行數(shù)百萬次的 " 試錯(cuò) " 訓(xùn)練。它不再依賴于工程師編寫的復(fù)雜運(yùn)動(dòng)規(guī)則,而是像人類學(xué)習(xí)走路和跑步一樣,自主探索并優(yōu)化步態(tài)、平衡和運(yùn)動(dòng)策略。在訓(xùn)練中,算法會(huì)根據(jù)預(yù)設(shè)的獎(jiǎng)勵(lì)函數(shù)(例如,速度最快、能耗最低、姿態(tài)最穩(wěn))對(duì)機(jī)器人的行為進(jìn)行打分,從而引導(dǎo)其學(xué)習(xí)到更高效、更穩(wěn)定的運(yùn)動(dòng)模式。
· 具身智能(Embodied AI):這種學(xué)習(xí)方式的成果,就是讓 H1 展現(xiàn)出了所謂的 " 具身智能 "。它不再是僵硬地執(zhí)行預(yù)設(shè)指令,而是在奔跑中表現(xiàn)出 " 絲滑、連貫的自適應(yīng)平衡能力 "。無論是微小的地面起伏還是自身姿態(tài)的動(dòng)態(tài)變化,它都能實(shí)時(shí)調(diào)整步態(tài)和重心,保持身體的穩(wěn)定。這種高度的自適應(yīng)能力,使其動(dòng)作完整度和流暢度遠(yuǎn)超同類產(chǎn)品,奠定了其在運(yùn)動(dòng)能力上 " 一騎絕塵 " 的領(lǐng)先地位。
然而,在為 " 四分配速 " 這一成就驚嘆的同時(shí),我們更應(yīng)看到其背后所暴露出的能量效率、結(jié)構(gòu)強(qiáng)度、環(huán)境適應(yīng)性等深層次的制約因素。
這場關(guān)于速度的競賽,其終點(diǎn)并非簡單地超越某個(gè)人類運(yùn)動(dòng)員的記錄,而是要讓機(jī)器人能夠真正安全、可靠、高效地走進(jìn)現(xiàn)實(shí)世界,在復(fù)雜的環(huán)境中完成多樣化的任務(wù)。
02 天工機(jī)器人:100 米奪冠
宇樹機(jī)器人無疑是本屆人形機(jī)器人運(yùn)動(dòng)會(huì)最大的亮點(diǎn),但除了它之外,其它機(jī)器人也給出了不俗的表現(xiàn)。
例如來自北京人形機(jī)器人創(chuàng)新中心的天工,便拿下 100 米的冠軍:
從近期披露的技術(shù)細(xì)節(jié)來看,我們可以把它背后的技術(shù)亮點(diǎn)歸結(jié)為四點(diǎn):
1. 具身世界模型體系:這一體系包括擁有物理時(shí)空理解與推理能力的 72B 多模態(tài)大模型,以及驅(qū)動(dòng)神經(jīng)網(wǎng)絡(luò)的世界模擬器,幫助機(jī)器人更好地理解現(xiàn)實(shí)、預(yù)測(cè)環(huán)境變化,相當(dāng)于它的 " 中樞大腦 "。
2. 跨本體 VLA(視覺 - 語言 - 動(dòng)作)模型:讓機(jī)器人能夠在不同場景和任務(wù)間自由切換,通過一個(gè)模型即可調(diào)用多種技能,極大降低了應(yīng)用開發(fā)的時(shí)間和成本。
3. 全身控制自主導(dǎo)航系統(tǒng):提供點(diǎn)對(duì)點(diǎn)導(dǎo)航、動(dòng)態(tài)障礙感知與避障能力,這是機(jī)器人在實(shí)際工作中必不可少的核心能力。
4. 千臺(tái)機(jī)器人真實(shí)場景數(shù)據(jù)采集計(jì)劃:通過讓機(jī)器人深入工廠、物流、酒店等真實(shí)場景運(yùn)行,持續(xù)收集大規(guī)模數(shù)據(jù),為算法迭代和模型優(yōu)化提供 " 燃料 "。
在感知能力方面,天工機(jī)器人搭載了強(qiáng)大的視覺傳感系統(tǒng),每秒可處理高達(dá) 550 萬億次運(yùn)算,并配合高精度慣性測(cè)量單元(IMU)和 3D 視覺傳感器。
與傳統(tǒng)的 2D 視覺相比,3D 視覺能更精準(zhǔn)識(shí)別缺陷、提升檢測(cè)速度,在自動(dòng)化生產(chǎn)和環(huán)境感知中更具優(yōu)勢(shì)。
除了視覺感知,天工機(jī)器人還裝備了六維力傳感器。這種傳感器能夠全面捕捉機(jī)器人在手腕、腳踝等關(guān)鍵部位的受力情況,從而實(shí)現(xiàn)柔順控制和精準(zhǔn)操作。
總體來看,天工機(jī)器人背后的技術(shù)突破,不僅讓其在賽場上展現(xiàn)了全自主奔跑的實(shí)力,更代表著人形機(jī)器人在感知、決策與執(zhí)行層面正逐步走向成熟,推動(dòng)具身智能從實(shí)驗(yàn)室邁向?qū)嶋H應(yīng)用場景。
03 星動(dòng) L7:跳高跳出新紀(jì)錄
在跳高賽事中,最亮眼的就當(dāng)屬清華系具身智能企業(yè)星動(dòng)紀(jì)元的星動(dòng) L7 了。它以 95.641cm 高度,不僅打破紀(jì)錄,更是斷崖式領(lǐng)先取得第一名的成績。
例如在硬件方面,要求機(jī)器人的關(guān)節(jié)具備極高的瞬時(shí)扭矩輸出和結(jié)構(gòu)強(qiáng)度,以克服自身重力并產(chǎn)生足夠的騰空動(dòng)力。
在動(dòng)態(tài)控制方面,還涉及復(fù)雜的多物理場耦合問題,機(jī)器人必須在毫秒之間實(shí)時(shí)優(yōu)化質(zhì)心軌跡、調(diào)控角動(dòng)量,并精準(zhǔn)控制落地姿態(tài),這對(duì)控制算法和傳感器精度構(gòu)成了嚴(yán)峻挑戰(zhàn)。
而身高 171cm、體重 65kg 的星動(dòng) L7,其核心動(dòng)力源于自研的高性能關(guān)節(jié)模組。該模組的峰值扭矩高達(dá) 400N · m,峰值轉(zhuǎn)速達(dá)到 25rad/s,為機(jī)器人提供了媲美人類運(yùn)動(dòng)員的爆發(fā)力。
它全身集成的 55 個(gè)準(zhǔn)直驅(qū) " 活動(dòng)關(guān)節(jié) " 協(xié)同工作,確保了力量的精準(zhǔn)傳導(dǎo)和動(dòng)作的高度靈活性。
無論是完成跳高所需的瞬間發(fā)力,還是此前展示的 360 度旋轉(zhuǎn)跳、高速奔跑(最高時(shí)速 4m/s)和復(fù)雜街舞動(dòng)作,都彰顯了其硬件設(shè)計(jì)的卓越性能與可靠性。
如果說頂級(jí)硬件構(gòu)筑了 L7 的身體素質(zhì)基礎(chǔ),那么其先進(jìn)的 " 大腦 " ——端到端強(qiáng)化學(xué)習(xí)能力,則是其奪冠的關(guān)鍵。
面對(duì)僅有幾天的備戰(zhàn)時(shí)間,研發(fā)團(tuán)隊(duì)依托自研的端到端強(qiáng)化學(xué)習(xí)平臺(tái),在虛擬環(huán)境中進(jìn)行了數(shù)百萬次模擬訓(xùn)練。通過將人類跳躍的動(dòng)作數(shù)據(jù)作為獎(jiǎng)勵(lì)信號(hào),L7 的算法模型快速迭代,自主學(xué)會(huì)了最優(yōu)的起跳角度與空中姿態(tài)協(xié)同策略。
這一快速學(xué)習(xí)能力的背后,是星動(dòng)紀(jì)元自主研發(fā)的端到端 VLA(視覺 - 語言 - 動(dòng)作)具身大模型 ERA-42。該模型不僅支撐了 L7 在運(yùn)動(dòng)場上的卓越表現(xiàn),更在倉儲(chǔ)物流等復(fù)雜場景中展現(xiàn)了強(qiáng)大的泛化能力。
無論是面對(duì)堆疊無序的貨物進(jìn)行智能分揀,還是精準(zhǔn)定位并掃描包裹條碼,ERA-42 都能驅(qū)動(dòng) L7 快速適應(yīng)并高效完成任務(wù)。
星動(dòng) L7 此次奪冠,是星動(dòng)紀(jì)元 " 算法 + 硬件 " 全棧自研技術(shù)路線的有力證明。從電機(jī)、減速器到驅(qū)動(dòng)器的硬件全鏈條自研,到融合視覺感知、語言理解與動(dòng)作規(guī)劃的具身大模型,軟硬件的深度協(xié)同,共同鑄就了 L7 的巔峰表現(xiàn)。
04 智元遠(yuǎn)征 A2:群舞《秦俑魂》奪冠
除了傳統(tǒng)的競技之外,這次的運(yùn)動(dòng)會(huì)還開設(shè)了一個(gè)別開生面的賽事——群舞比拼。
畢竟機(jī)器人跳舞這事,這幾年也是一直爆火。而拿下這個(gè)賽事冠軍的機(jī)器人本體,正是來自智元的遠(yuǎn)征 A2。
為了契合舞蹈的高難度需求,智元團(tuán)隊(duì)對(duì)機(jī)器人進(jìn)行了硬件與軟件的全面優(yōu)化。電機(jī)、關(guān)節(jié)、驅(qū)動(dòng)等關(guān)鍵部件均經(jīng)過重新設(shè)計(jì),以承受旋轉(zhuǎn)、騰躍等舞蹈動(dòng)作帶來的沖擊;在算法層面,采用先進(jìn)的運(yùn)動(dòng)規(guī)劃與仿真技術(shù),實(shí)現(xiàn)了動(dòng)作軌跡、速度與力度的精確控制,使機(jī)器人能夠精準(zhǔn)卡點(diǎn)音樂節(jié)奏,動(dòng)作既自然流暢又充滿力量感。
更為突出的是,智元機(jī)器人展現(xiàn)出優(yōu)秀的群體協(xié)同能力。通過傳感器與算法結(jié)合,機(jī)器人能夠?qū)崟r(shí)感知周邊環(huán)境并微調(diào)動(dòng)作,避免舞臺(tái)碰撞,實(shí)現(xiàn)九機(jī)同步的整齊走位。
這一能力不僅是舞蹈表演成功的關(guān)鍵,更為物流倉儲(chǔ)、服務(wù)導(dǎo)覽等實(shí)際場景提供了可靠借鑒。機(jī)器人在復(fù)雜環(huán)境中靈活穿梭、避障與協(xié)調(diào)的表現(xiàn),顯示了智元在運(yùn)動(dòng)控制與感知交互上的深厚技術(shù)積累。
當(dāng)然,人形機(jī)器人產(chǎn)業(yè)仍面臨成本高昂、續(xù)航不足等挑戰(zhàn)。但智元通過技術(shù)創(chuàng)新,已經(jīng)為未來的規(guī)?;瘧?yīng)用提供了范例。
05 具身智能,現(xiàn)在到了什么水平?
從這次機(jī)器人運(yùn)動(dòng)會(huì)的表現(xiàn)可以看出,具身智能正處在一個(gè)快速突破的階段。雖然機(jī)器人們?cè)谫悎錾先圆粩嗌涎?" 笑場名場面 ",但整體水平相比過去已有了質(zhì)的飛躍。從技術(shù)和產(chǎn)業(yè)角度來看,可以從以下幾個(gè)方面來理解當(dāng)下的進(jìn)展。
過去,人形機(jī)器人常常連 " 站穩(wěn) " 都是難題,如今像宇樹 H1 已經(jīng)能夠在 1500 米長跑中跑出接近人類運(yùn)動(dòng)員的成績。這背后體現(xiàn)了高功率電機(jī)、輕量化結(jié)構(gòu)和強(qiáng)化學(xué)習(xí)算法的協(xié)同進(jìn)化。機(jī)器人在高速運(yùn)動(dòng)中保持動(dòng)態(tài)平衡的能力,標(biāo)志著運(yùn)動(dòng)控制已進(jìn)入實(shí)用階段。
天工機(jī)器人在賽場上實(shí)現(xiàn)了完全自主導(dǎo)航,這在幾年前幾乎難以想象。這依賴于多模態(tài)感知系統(tǒng)、全身控制導(dǎo)航和具身世界模型的結(jié)合。雖然離真正媲美人類的環(huán)境理解還有差距,但在受控環(huán)境中,機(jī)器人已經(jīng)能自主完成感知—決策—執(zhí)行的完整閉環(huán)。
星動(dòng) L7 的跳高成績展示了端到端強(qiáng)化學(xué)習(xí)在復(fù)雜運(yùn)動(dòng)中的潛力。通過在虛擬環(huán)境中進(jìn)行數(shù)百萬次仿真,機(jī)器人可以快速掌握高難度動(dòng)作。再結(jié)合視覺 - 語言 - 動(dòng)作(VLA)大模型,機(jī)器人不僅能完成運(yùn)動(dòng)任務(wù),還能適應(yīng)多樣化的現(xiàn)實(shí)場景,如物流、倉儲(chǔ)等。這表明具身智能正在從 " 單一任務(wù) " 走向 " 多任務(wù)泛化 "。
目前的機(jī)器人依然面臨能耗高、可靠性不足、適應(yīng)復(fù)雜非結(jié)構(gòu)化環(huán)境的挑戰(zhàn)。但從技術(shù)路線來看,軟硬件一體化自研、多模態(tài)大模型驅(qū)動(dòng),以及大規(guī)模真實(shí)世界數(shù)據(jù)采集,正在加速推動(dòng)機(jī)器人走向產(chǎn)業(yè)化。無論是工廠、物流還是服務(wù)業(yè),具身智能的應(yīng)用窗口正在打開。
盡管機(jī)器人在速度和爆發(fā)力等單項(xiàng)能力上開始逼近甚至超越普通人類,但在靈活性、穩(wěn)定性、環(huán)境理解和能效方面仍遠(yuǎn)不及人類。這意味著,未來的發(fā)展方向不僅是 " 跑得更快、跳得更高 ",更是 " 更安全、更節(jié)能、更聰明 ",真正實(shí)現(xiàn)人機(jī)協(xié)作。
總體而言,具身智能正處于 " 從炫技到實(shí)用 " 的關(guān)鍵轉(zhuǎn)折點(diǎn)。機(jī)器人已經(jīng)能夠在一些特定場景中展現(xiàn)接近人類的運(yùn)動(dòng)能力,但距離真正大規(guī)模走入日常生活,還有一段技術(shù)和應(yīng)用上的長坡厚雪。
除此之外,有人將人形機(jī)器人的快速迭代解讀為 " 技術(shù)泡沫 ",認(rèn)為當(dāng)下的熱鬧不過是資本與流量催生的短期狂歡。但從這場機(jī)器人運(yùn)動(dòng)會(huì)的細(xì)節(jié)來看,這種判斷顯然失之偏頗。
宇樹、天工、星動(dòng)、智元,背后是高功率電機(jī)、深度強(qiáng)化學(xué)習(xí)、多模態(tài)感知等技術(shù)的實(shí)質(zhì)性突破,而非停留在概念層面的 " 炫技 "。這些進(jìn)步正在將 " 人形機(jī)器人走進(jìn)現(xiàn)實(shí) " 從科幻推向可觸摸的產(chǎn)業(yè)藍(lán)圖,因此絕非泡沫。
但不可否認(rèn)的是,要讓機(jī)器人真正具備與人類比肩的環(huán)境適應(yīng)力和任務(wù)執(zhí)行力,仍需在動(dòng)態(tài)平衡與姿態(tài)控制技術(shù)、低延遲環(huán)境感知與決策系統(tǒng)、高能效續(xù)航技術(shù)、多任務(wù)泛化學(xué)習(xí)能力,以及低成本高可靠性硬件方案等方面繼續(xù)發(fā)力。