文 | 極智 GeeTech
1950 年,圖靈在其論文《計(jì)算機(jī)器與智能》中,首次提出具身智能維形,為后來具身智能發(fā)展奠定了理論基礎(chǔ),同時(shí)他還預(yù)見了兩條可能的發(fā)展路徑。
一條是 " 做題家 " 路線——專注抽象計(jì)算,比如下棋、解數(shù)學(xué)題,現(xiàn)在的 ChatGPT、AlphaGo 都是這條路上的 " 學(xué)霸 ";另一條是 " 實(shí)干派 " 路線——讓機(jī)器像嬰兒一樣,靠看、聽、摸感知世界,在互動(dòng)中學(xué)習(xí),這就是今天的 " 具身智能 "。
70 多年過去," 做題家 " 們靠著大語言模型火出了圈,但輪到 " 實(shí)干派 " 機(jī)器人上場時(shí),問題來了:讓 ChatGPT 寫篇文案不難,可讓機(jī)器人在你家客廳避開拖鞋、準(zhǔn)確撿起遙控器,難如登天。
這就陷入了 " 莫拉維克悖論 ",實(shí)現(xiàn)邏輯推理等人類高級智慧的能力對計(jì)算機(jī)來說只需要相對較少的計(jì)算資源,而實(shí)現(xiàn)感知、運(yùn)動(dòng)等低等級智慧卻需要巨大的計(jì)算資源。
畢竟,真實(shí)世界從來沒有 " 標(biāo)準(zhǔn)答案 " ——地板可能滑、光線會(huì)變化,連你隨手放的水杯都可能讓機(jī)器人 " 卡殼 "。
具身智能必須跨越 " 三道關(guān)口 "
具身智能的終極目標(biāo),是讓機(jī)器人像人一樣在真實(shí)世界 " 生存 "。但這條路,比想象中難太多。特別是在理解力、聯(lián)想力和交互能力等方面,仍然未能完全滿足公眾的期望。
綜合來看,具身智能在其發(fā)展過程中面臨著多項(xiàng)挑戰(zhàn),這些挑戰(zhàn)源自于其發(fā)展過程中的復(fù)雜性和不斷變化的需求。
具身智能在這種環(huán)境中,信息的稀缺和場景的多變性,要求人工智能系統(tǒng)具備更加先進(jìn)和靈活的計(jì)算能力,以便能夠適應(yīng)環(huán)境的不斷變化和不確定性。這不僅是一個(gè)數(shù)據(jù)處理的問題,更是對人工智能系統(tǒng)感知和適應(yīng)能力的全面考驗(yàn)。
其次,要發(fā)展更高級的認(rèn)知策略,學(xué)會(huì)多感官聯(lián)動(dòng)。人類之所以厲害,是因?yàn)槟芡瑫r(shí)用眼睛看、耳朵聽、手觸摸,把信息 " 揉 " 在一起理解世界。比如看到一杯水,摸一下就知道燙不燙,不用先去查 " 水溫標(biāo)準(zhǔn) "。
具身智能同樣需要模仿這種高效的多模態(tài)融合過程,以更全面地理解和適應(yīng)其所處的環(huán)境。這包括但不限于對三維空間中物體的精確識別和定位,以及對環(huán)境變化和內(nèi)在聯(lián)系的動(dòng)態(tài)捕捉。
此外,具身智能還需要超越傳統(tǒng)的計(jì)算模型對靜態(tài)數(shù)據(jù)處理,發(fā)展出對事物的動(dòng)態(tài)變化和相互關(guān)系的深層次理解。這不僅關(guān)系到對時(shí)間和空間信息的處理,還涉及到理解其他生物(尤其是人類)的意圖和行為動(dòng)機(jī),從而實(shí)現(xiàn)更自然、更智能的人機(jī)協(xié)同。
第三,要補(bǔ)上人類同款的思考力。現(xiàn)在的機(jī)器人,更像高級工具——你說 " 掃地 ",它就掃;你沒說,它不會(huì)主動(dòng)想到 " 今天該擦窗了 ",問題出在元認(rèn)知能力上——即對信息處理過程本身的監(jiān)控和反思能力。簡單說,就是反思自己在做什么。人類會(huì)想 " 剛才記的事對不對 "" 這個(gè)方法好不好用 ",但機(jī)器人還不會(huì)。比如你讓它 " 把紅色杯子放桌上 ",它可能把粉色杯子當(dāng)成紅色遞過來,還自信滿滿。
更關(guān)鍵的是終身學(xué)習(xí)的能力。人類小時(shí)候?qū)W過走路,長大后學(xué)騎自行車一點(diǎn)不費(fèi)勁,可機(jī)器人換個(gè)場景就可能失憶。在工廠學(xué)會(huì)擰螺絲,到家里擰瓶蓋可能就傻眼了。想讓機(jī)器人真能獨(dú)當(dāng)一面,還得讓它們像人一樣,越用越聰明。
目前,具身智能在靈活性和應(yīng)變能力方面,尤其是在多變的實(shí)際應(yīng)用環(huán)境中,仍處于初級探索階段。要實(shí)現(xiàn)這一目標(biāo),具身智能不僅需要具備強(qiáng)大的決策和控制能力,還需對各種任務(wù)有深入的理解和精準(zhǔn)的規(guī)劃。
當(dāng)前的人工智能系統(tǒng)主要依賴于算法和數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)方法,但在實(shí)時(shí)學(xué)習(xí)和處理大量數(shù)據(jù)方面存在局限。因此,為了更好地適應(yīng)復(fù)雜環(huán)境,具身智能需要突破這些限制,向生物體那樣的自然和連續(xù)學(xué)習(xí)模式邁進(jìn)。
撕掉 " 機(jī)械執(zhí)行 " 標(biāo)簽
如果說,具身智能是機(jī)器人的 " 靈魂 ",那感知層就是它連接現(xiàn)實(shí)的 " 第一道門 "。這一層的核心任務(wù),是把雜亂無章的物理世界轉(zhuǎn)化為機(jī)器能理解的數(shù)字信號,就像人類用眼睛看、耳朵聽、皮膚感知溫度一樣,它的秘訣在于多模態(tài)傳感器融合和動(dòng)態(tài)環(huán)境建模兩項(xiàng)關(guān)鍵技術(shù)。
視覺上,雙目攝像頭和 3D 激光雷達(dá)能捕捉物體的形狀、位置甚至紋理;觸覺上,柔性電子皮膚能感知壓力和溫度,就像機(jī)器人的 " 指尖神經(jīng) ";力覺傳感器則能精準(zhǔn)測量關(guān)節(jié)受力,避免動(dòng)作過大損壞物體。
比如特斯拉 Optimus 機(jī)器人,其搭載了 28 個(gè)關(guān)節(jié)傳感器,這些傳感器能夠精確感知機(jī)器人關(guān)節(jié)的運(yùn)動(dòng)狀態(tài)和受力情況。同時(shí),配合先進(jìn)的視覺神經(jīng)網(wǎng)絡(luò),0ptimus 機(jī)器人能夠?qū)χ車h(huán)境中的物體進(jìn)行識別和定位,實(shí)現(xiàn)毫米級的物體定位精度,從而使其在復(fù)雜的環(huán)境中能夠準(zhǔn)確地執(zhí)行各種任務(wù),如抓取特定物體、避開障礙物等。
動(dòng)態(tài)環(huán)境建模讓機(jī)器人 " 畫 " 出實(shí)時(shí)地圖。真實(shí)世界永遠(yuǎn)在變化:倉庫里的貨架會(huì)被移動(dòng),客廳里的拖鞋可能被踢到新位置,馬路上的行人更是隨時(shí)改變路線。這就需要機(jī)器人能 " 邊走邊畫地圖 ",并預(yù)測障礙物的動(dòng)向——這正是 SLAM(同步定位與地圖構(gòu)建)技術(shù)的功勞。
比如物流倉庫的配送機(jī)器人,它能通過 SLAM 實(shí)時(shí)構(gòu)建三維空間模型,結(jié)合強(qiáng)化學(xué)習(xí)算法預(yù)測其他機(jī)器人或工人的行走軌跡。這項(xiàng)技術(shù)讓機(jī)器人在復(fù)雜場景中的路徑規(guī)劃成功率從 75% 飆升到 92%,再也不會(huì)像無頭蒼蠅一樣在貨架間打轉(zhuǎn),大大提升了配送效率。
光有 " 感知 " 還不夠,機(jī)器人還得學(xué)會(huì) " 思考 ",這就是認(rèn)知層的任務(wù)。它接收來自感知層的原始數(shù)據(jù),經(jīng)過分析、決策,最終生成行動(dòng)指令,相當(dāng)于給機(jī)器人裝上了 " 會(huì)推理的大腦 ",它主要包括分層決策架構(gòu)和世界模型構(gòu)建兩個(gè)關(guān)鍵部分。
分層決策架構(gòu)把復(fù)雜任務(wù)拆成 " 積木 "。面對 " 整理桌面 " 這樣的指令,人類會(huì)自然拆解為 " 識別物品→規(guī)劃擺放順序→動(dòng)手整理 ",機(jī)器人也需要類似的邏輯。以 OpenAI 的 Figure 01 為例,采用了一種高效的策略控制系統(tǒng)、環(huán)境交互系統(tǒng)和行為控制系統(tǒng)的分層設(shè)計(jì)。
策略控制系統(tǒng)先 " 讀懂 " 指令," 整理桌面 " 意味著要把散亂的文件、杯子分類歸位。
環(huán)境交互系統(tǒng)結(jié)合感知層的數(shù)據(jù) " 制定步驟 ",先撿離自己最近的杯子,再疊好文件,避開桌上的筆記本電腦。
行為控制系統(tǒng)最后 " 翻譯 " 成動(dòng)作,控制機(jī)械臂彎曲角度、調(diào)整移動(dòng)軌跡,確保每個(gè)動(dòng)作精準(zhǔn)執(zhí)行。
這種 " 拆解 - 執(zhí)行 " 模式,讓機(jī)器人能應(yīng)對多步驟復(fù)雜任務(wù),而不是只會(huì)做單一指令的工具人。
世界模型讓機(jī)器人像孩子一樣 " 積累經(jīng)驗(yàn) "。人類的智慧來自于 " 經(jīng)驗(yàn)歸納 " ——小時(shí)候摸過熱水杯,就知道燙的東西不能碰;機(jī)器人也需要通過互動(dòng)建立自己的知識庫,這就是世界模型的作用。
就像兒童在成長過程中通過觸碰不同溫度的物體,逐漸感知到 " 熱 " 與 " 冷 " 的概念。機(jī)器人在反復(fù)抓取不同物體后,會(huì)自主總結(jié)出規(guī)律:表面光滑的玻璃杯子要輕握,棱角分明的積木可以稍用力;溫度超過 70 ℃的物體需要戴 " 隔熱手套 "。這種 " 物體屬性→行動(dòng)策略 " 的映射,讓機(jī)器人越來越 " 懂 " 世界,遇到新物體時(shí)也能快速找到應(yīng)對方法,就像人類觸類旁通的能力。
認(rèn)知層的決策最終要靠行動(dòng)落地,行動(dòng)層就是機(jī)器人的 " 執(zhí)行終端 " ——它既要讓機(jī)器人動(dòng)得靈活,又要保證和人類協(xié)作時(shí)的安全,它主要涉及仿生驅(qū)動(dòng)技術(shù)和人機(jī)共融安全設(shè)計(jì)兩個(gè)方面。
想讓機(jī)器人像人類一樣跑跳、抓取,就得模仿生物的運(yùn)動(dòng)機(jī)制。波士頓動(dòng)力的 Atlas 機(jī)器人用液壓伺服系統(tǒng)提供強(qiáng)大動(dòng)力,能完成 2.5 米高跳,在崎嶇地面上健步如飛;越疆 Dobot 的靈巧手更厲害,12 個(gè)自由度的設(shè)計(jì)讓它能擰螺絲、疊紙船,操作誤差小于 0.1 毫米,能夠讓其在精密制造和手術(shù)領(lǐng)域大顯身手。
當(dāng)機(jī)器人走進(jìn)家庭、醫(yī)院," 不傷人 " 是底線。行動(dòng)層的安全設(shè)計(jì)暗藏玄機(jī):力控傳感器能實(shí)時(shí)監(jiān)測接觸力度,一旦超過 5N(大約相當(dāng)于拿起一個(gè)蘋果的力氣),緊急停機(jī)算法會(huì)在 0.2 秒內(nèi)讓機(jī)器人 " 凍住 ";柔性外殼則像給機(jī)器人套上 " 防撞墊 ",就算不小心碰到老人或孩子,也不會(huì)造成傷害。
從感知層的 " 捕捉世界 ",到認(rèn)知層的 " 理解世界 ",再到行動(dòng)層的 " 改造世界 ",這三層架構(gòu)讓機(jī)器人逐漸擺脫 " 機(jī)械執(zhí)行 " 的標(biāo)簽,向 " 能感知、會(huì)思考、善行動(dòng) " 的智能體進(jìn)化。
具身智能遭遇 " 成長的煩惱 "
" 在實(shí)驗(yàn)室是學(xué)霸,到了現(xiàn)實(shí)就變學(xué)渣 ",這是當(dāng)前具身智能最突出的痛點(diǎn)。
研究數(shù)據(jù)顯示,現(xiàn)有模型在非訓(xùn)練場景中的任務(wù)完成率僅為 65%。以機(jī)器人抓取任務(wù)為例,經(jīng)過大量訓(xùn)練的機(jī)器人,面對未在訓(xùn)練集中出現(xiàn)過的物體擺放角度時(shí),抓取成功率會(huì)大幅下降。
根源在于,模型難以將特定場景下學(xué)到的知識和技能,有效遷移到全新的、多樣化的場景中,就像學(xué)生只會(huì)做例題,換個(gè)題型就束手無策。
為了打破這一困局,研究人員將希望寄托于小樣本學(xué)習(xí)與元學(xué)習(xí)技術(shù)。小樣本學(xué)習(xí)讓模型在少量樣本中快速適應(yīng)新任務(wù),元學(xué)習(xí)則專注于 " 學(xué)習(xí)如何學(xué)習(xí) ",幫助模型掌握新任務(wù)的學(xué)習(xí)策略。兩種技術(shù)雙管齊下,正逐步提升機(jī)器人在不同場景中的 " 舉一反三 " 能力。
即便解決了泛化問題,能耗與成本仍是橫亙在具身智能大規(guī)模應(yīng)用前的兩座大山。
當(dāng)前主流人形機(jī)器人的續(xù)航普遍不足 2 小時(shí),這在物流配送等需要長時(shí)間作業(yè)的場景中,意味著頻繁充電會(huì)嚴(yán)重拖慢效率。
而成本問題更讓人卻步:核心部件如伺服電機(jī)、精密減速機(jī)等大多依賴進(jìn)口,單臺機(jī)器人成本超過 50 萬元,讓許多企業(yè)和個(gè)人望而卻步。
破局之道已在探索中。能耗優(yōu)化方面,新型電池技術(shù)和高效能源管理系統(tǒng)的研發(fā),正致力于延長機(jī)器人續(xù)航;成本控制方面,一方面加大核心部件自主研發(fā),推動(dòng)國產(chǎn)化替代,另一方面通過優(yōu)化生產(chǎn)工藝和供應(yīng)鏈,從源頭降低成本。
隨著具身智能在醫(yī)療、交通等關(guān)鍵領(lǐng)域的滲透,倫理與安全問題日益凸顯。
人機(jī)協(xié)作中的權(quán)責(zé)劃分至今模糊:醫(yī)療手術(shù)中若機(jī)器人誤操作致患者受傷,責(zé)任該歸制造商、醫(yī)生還是醫(yī)院?更復(fù)雜的是道德困境——自動(dòng)駕駛汽車面臨緊急情況時(shí),該如何做出符合倫理的決策?
這些問題的答案,藏在技術(shù)標(biāo)準(zhǔn)與法規(guī)體系的完善中。明確人機(jī)協(xié)作的權(quán)責(zé)關(guān)系,規(guī)范機(jī)器人設(shè)計(jì)、生產(chǎn)和使用的全流程,才能確保技術(shù)創(chuàng)新始終走在安全與倫理的軌道上。
三大方向改變具身智能成長軌跡
技術(shù)的突破從不因困境而止步,具身智能的未來正呈現(xiàn)三大清晰方向。
多模態(tài)大模型融合是具身智能未來發(fā)展的重要方向。以 Google RT-2 等端到端模型為代表,通過在互聯(lián)網(wǎng)上的海量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,這些模型能夠?qū)W習(xí)到豐富的通用概念,并將其轉(zhuǎn)化為機(jī)器人的動(dòng)作指令。
RT-2 模型可以讓機(jī)器人理解 " 把紅色杯子放到桌子上 " 這樣的自然語言指令,并通過視覺識別找到對應(yīng)的物體,完成抓取和放置動(dòng)作,大大提高了機(jī)器人與人類交互的效率和靈活性。
在面對新任務(wù)時(shí),它們僅需少量樣本即可快速適配,展現(xiàn)出強(qiáng)大的泛化能力和語義理解能力。這種融合模式推動(dòng)具身智能從 " 專用 " 走向 " 通用 ",使機(jī)器人能夠處理更加復(fù)雜多樣的任務(wù)。
其次,輕量化硬件創(chuàng)新對于提升具身智能的性能和降低成本具有重要意義。
仿生肌肉驅(qū)動(dòng)技術(shù)模仿生物肌肉的工作原理,為機(jī)器人提供更加靈活和高效的動(dòng)力輸出,同時(shí)降低能耗。神經(jīng)形態(tài)林片則模擬人類大腦的神經(jīng)元結(jié)構(gòu)和工作方式,具有低功耗、高并行性的特點(diǎn),能夠顯著提高機(jī)器人的計(jì)算效率和響應(yīng)速度。
預(yù)計(jì)到 2028 年,隨著這些技術(shù)的不斷成熟和應(yīng)用,人形機(jī)器人的續(xù)航能力將突破 6 小時(shí),成本有望降至 20 萬元以下。這將為人形機(jī)器人在家庭、服務(wù)等領(lǐng)域的大規(guī)模應(yīng)用奠定基礎(chǔ),使其能夠更加廣泛地融入人們的日常生活。
虛實(shí)協(xié)同進(jìn)化是具身智能發(fā)展的又一重要趨勢。通過數(shù)字孿生技術(shù),在虛擬環(huán)境中構(gòu)建與現(xiàn)實(shí)世界 1:1 映射的虛擬模型,機(jī)器人可以在虛擬環(huán)境中進(jìn)行百萬次的訓(xùn)練,快速學(xué)習(xí)和優(yōu)化各種技能。
之后,結(jié)合現(xiàn)實(shí)場景中的實(shí)際數(shù)據(jù)進(jìn)行微調(diào),進(jìn)一步提高機(jī)器人在真實(shí)環(huán)境中的任務(wù)執(zhí)行能力。這種虛實(shí)結(jié)合的訓(xùn)練方式使機(jī)器人習(xí)得技能的效率提升 10 倍以上。
例如,在工業(yè)制造中,機(jī)器人可以先在虛擬環(huán)境中進(jìn)行復(fù)雜裝配任務(wù)的模擬訓(xùn)練,優(yōu)化操作流程和動(dòng)作路徑,然后在實(shí)際生產(chǎn)中準(zhǔn)確高效地完成任務(wù),減少試錯(cuò)成本,提高生產(chǎn)效率和產(chǎn)品質(zhì)量。
具身智能不僅是人工智能技術(shù)邁入物理世界的重要形態(tài),更是人工智能從 " 云端 " 走向 " 實(shí)體 " 的關(guān)鍵跨越。當(dāng)智能體具備感知溫度、理解意圖、靈活應(yīng)變的能力,其角色將從 " 工具 " 轉(zhuǎn)變?yōu)?" 協(xié)作伙伴 "。
在這場重塑人機(jī)關(guān)系的技術(shù)革命中,具身智能正掀開 " 智能體物理化 " 的新篇章,預(yù)示著一個(gè)機(jī)器能 " 理解、適應(yīng)、共創(chuàng) " 的未來即將到來。當(dāng)每一個(gè)身處其中的人,都從 " 炫技亢奮 " 回歸到 " 問題敬畏 ",或許才是未來的真正起點(diǎn)。