人形機器人技術(shù)近年來迅猛發(fā)展,但行業(yè)仍面臨嚴(yán)峻挑戰(zhàn):傳統(tǒng)機器人往往難以實現(xiàn)自然流暢的人機互動,無法如人類般進行基礎(chǔ)對話或響應(yīng)復(fù)雜意圖,導(dǎo)致實際場景中響應(yīng)遲滯甚至失靈;動態(tài)環(huán)境下的物體識別與抓取深受光照、遮擋等因素困擾,精度低下,制約了機器人在流水線或家庭服務(wù)中的廣泛應(yīng)用。這些痛點直接阻礙了人形機器人的大規(guī)模落地。
在 2025 年世界人工智能大會(WAIC)現(xiàn)場,深謀科技以其堅持原創(chuàng)、自研、成體系的技術(shù)路徑,綻放異彩。作為一家專注于人形機器人智能化的先鋒企業(yè),深謀科技帶來了革命性的腦機交互系統(tǒng)與動態(tài)視覺伺服系統(tǒng)。這些技術(shù)不僅標(biāo)志著人形機器人領(lǐng)域的嶄新里程碑,還為未來人機協(xié)同開辟了廣闊入口。
本次對話聚焦深謀科技的核心研發(fā)代表:呂濤博士(腦電感知與控制系統(tǒng)負責(zé)人)和周旭博士(動態(tài)視覺伺服系統(tǒng)負責(zé)人)。兩位專家深入剖析各自領(lǐng)域,揭示這些技術(shù)如何交織成網(wǎng),構(gòu)筑深謀對未來人形機器人的宏偉藍圖。
腦電感知與控制系統(tǒng)負責(zé)人:呂濤博士
硅星人:深謀科技為什么要在人形機器人上推進腦電驅(qū)動?背后的判斷是什么?
呂濤:我們現(xiàn)在關(guān)注的點就是對象。大家都在思考人形機器人如何更好地適應(yīng)一些場景,并發(fā)揮價值。在 WAIC 大會上,我們可以看到很多廠商搭建了一些具體的應(yīng)用落地平臺,比如工廠化流水線生產(chǎn)、運輸?shù)染唧w應(yīng)用場景。這就是業(yè)界一直在追尋的探索落地方向。
此外,我們可以看到,包括前幾天我們老板提到的,他們參加了一個活動,我們的一個友商在晚會上讓機器人互動拿東西,但機器人沒反應(yīng)。其實我們對人形機器人有一些期待,希望它能像人一樣思考,至少能與人進行基礎(chǔ)交流,這也是大家關(guān)注的焦點。所以大家希望往這些領(lǐng)域展示。在這種背景下,我覺得深謀科技將腦機接口技術(shù)引入人形機器人系統(tǒng),是一個極具前瞻性和創(chuàng)新性的舉措。為什么?因為基于腦電的人機交互系統(tǒng),能夠打破語言和動作的屏障,實現(xiàn)更加本能化、沉浸式的交互。
我們現(xiàn)在主要做人形機器人的決策,可能基于一些推理,但這些推理不一定百分百符合責(zé)任和期待,而且它是具有自主智能的。如果我們直接用大腦去控制它,這種理念完全不一樣,就是說我可以完全按照我的想法讓機器人行事。在這個背景下,我們公司研發(fā)了國內(nèi)首個從腦機到人形機器人的閉環(huán)交互系統(tǒng)‘ MindMover ’。這套系統(tǒng)不僅能理解人的意圖,實現(xiàn)主動控制,還能理解人的生理狀態(tài),實現(xiàn)對用戶的理解與反饋。
硅星人:深謀腦電系統(tǒng)有哪些關(guān)鍵技術(shù)點,是你們特別自豪的?
呂濤:我們在這個技術(shù)領(lǐng)域的布局是全國首例。在 WAIC 大會上,你可以看到其他機器人應(yīng)用,大部分是場景化應(yīng)用或動作方面的應(yīng)用。深謀科技是首個在腦機與人形機器人交互大方向上完成系統(tǒng)化原型的。這個系統(tǒng)的功能是從腦狀態(tài)理解、腦意圖識別,到最后人形機器人協(xié)作執(zhí)行的完整閉環(huán)。而且我們是國內(nèi)首家在公開場合展示腦控人形機器人的企業(yè),確實是全國首發(fā)。
深謀的腦電系統(tǒng)是一個閉環(huán)交互系統(tǒng),由兩個核心部分組成。第一部分是腦意圖識別系統(tǒng),它融合傳統(tǒng)算法與深度神經(jīng)網(wǎng)絡(luò),支持用戶自適應(yīng)建模??芍苯邮褂?,或經(jīng) 10 秒內(nèi)短時校準(zhǔn),實現(xiàn)高準(zhǔn)確性和穩(wěn)定控制。第二部分是腦狀態(tài)評估系統(tǒng),實時分析腦電信號,包括情緒狀態(tài),每秒打分。目前研發(fā)階段以語音提示反饋,并據(jù)此調(diào)整行為;未來可擴展至更細化應(yīng)用,如自動響應(yīng)用戶需求。
例如,家中機器人感知你辦公疲勞后,會主動問:" 要不要端杯水讓你清醒?或拉窗簾、調(diào)低座位休息?" 這種靜默交互無需用戶表達,它通過生理指標(biāo)自動感知并行動,營造 " 被照顧 " 的溫暖感——即便你未意識到疲勞,它也能像身邊人般提醒。
在機器人智能控制上,我們不僅注重 " 聽命于腦 ",還支持直接操控。這涉及常見問題:如何控制?目前有兩種方式。
第一種是精細化控制,像玩游戲般通過按鈕操作上下左右,可單個操控上肢或下肢,實現(xiàn)前進、后退等機械動作。
第二種是編程指令控制。例如,結(jié)合動態(tài)抓取系統(tǒng),可輕松整合實現(xiàn)復(fù)雜場景:行動不便者盯著視覺模塊的 " 我要喝水 " 指令,機器人即拆解執(zhí)行——移動、抓取水杯、再遞送。全流程依托腦控、抓取和步行技術(shù),已完全實現(xiàn),目前分開展示。這讓機器人進入半智能半自主狀態(tài):下指令后,它自主決策執(zhí)行,但為防 " 太聰明 " 失控(輸入過多參數(shù)導(dǎo)致不可預(yù)測輸出),我們設(shè)計為輔助模式,最終開關(guān)由人類掌控。
硅星人:深謀腦電系統(tǒng)未來在產(chǎn)品化或落地方面有什么方向?
呂濤:有人問,我們可以用遙控器或語音控制,為什么非要用腦電下達指令?其實,這套系統(tǒng)有具體應(yīng)用場景,形成一整套交互體系,圍繞教育、醫(yī)療康養(yǎng)和危險作業(yè)三大核心領(lǐng)域推進。
首先,教育領(lǐng)域。人形機器人具有天然親和優(yōu)勢,能產(chǎn)生情感投射,這是工業(yè)機器人無法比擬的。未來,它可像真人老師或?qū)в伟氵M行互動教學(xué)。通過感知學(xué)生生理心理狀態(tài)(如注意力不集中),機器人能在講課 30-20 分鐘后自主決策,建議交互或休息,提升效率。這雖非原創(chuàng),但很有潛力。
其次,最主流的醫(yī)療與康養(yǎng)領(lǐng)域。隨著社會老齡化加劇,腦機接口最初為殘疾人、脊髓損傷患者和癲癇治療而生,現(xiàn)已納入國家醫(yī)保,用于多動癥、康復(fù)等項目。我們系統(tǒng)不只服務(wù)正常人(語音或遙控即可),更針對老年人、行動不便者(如手術(shù)后)和殘疾人,提供基礎(chǔ)看護:在病房或家中,通過腦電實現(xiàn)緊急呼叫、取物(如外賣)、摔倒報警等。同時,整合傳感器監(jiān)測體溫、心率等生理指標(biāo),形成全方位照顧。未來迭代后,如電腦般普及家庭,降低高昂看護成本,解決衣食住行根本問題——雖無法完全取代醫(yī)療,但有參考價值。
最后,危險作業(yè)領(lǐng)域,雖離普通生活較遠,但意義重大。在消防、化學(xué)污染、極地科考或災(zāi)后救援等高風(fēng)險環(huán)境中,人直接上陣危險大。機器人加防火涂層后,可替代人類,人待安全區(qū)操控。此時,語音或遙控不實用,而腦電實現(xiàn)人機協(xié)同:人形機器人運動邏輯與人類一致,自由度高,能撿物、撥開障礙,完全模仿人操作,顯著降低風(fēng)險。公司不止做人形,還涉其他產(chǎn)品,但人形的優(yōu)勢在于此。
動態(tài)視覺伺服系統(tǒng)負責(zé)人 :周旭博士
硅星人:這套動態(tài)視覺伺服系統(tǒng)最核心的突破點是什么?
周旭:動態(tài)視覺伺服系統(tǒng)的難點在于實時掌控運動物體的位置和姿態(tài),這在視覺領(lǐng)域一直是個挑戰(zhàn)。主要有兩方面問題:傳統(tǒng)方法依賴特征點檢測或 3D 模型。前者實際應(yīng)用中易受物體光滑無紋理、遮擋、光源變化等環(huán)境因素干擾,導(dǎo)致檢測不準(zhǔn)或特征丟失;后者建模過程繁瑣,物體種類繁多,每個都需要掃描建立 3D 模型,非常耗時。
我們的突破在于從人類視角出發(fā)。人類對物體 3D 幾何的記憶往往很模糊,例如對蘋果的印象大致是球形,或許多一個柄,但這些細節(jié)對抓取并不關(guān)鍵。因此,我們的出發(fā)點是將三維模型極致壓縮:不記錄過多點位,只記憶三個維度向量——長度、寬度和高度。換言之,僅對寬、高、深三個方向進行記憶,看到物體只需三個維度的測量即可。這有點像游戲中的模型優(yōu)化。這樣一來,只需三個參量,就能以百萬次浮點計算量估計出完整姿態(tài)。這是我們自主研發(fā)的算法。
更重要的是后續(xù)擴展:人類不僅對熟悉物體有幾何印象,對未見物體也能通過多看幾眼快速抓取。三歲小孩初見手機也能嘗試抓住,雖然首次不一定完美,但終究能成功,這點至關(guān)重要。同樣,對機器人而言,看到陌生物體如可樂瓶,只需左右上下多觀察幾眼,就能計算出模型并完成布置。因此,我們的最大前景在于實現(xiàn)未見物體的抓取,真正模擬人類適應(yīng)性。
硅星人:這套視覺系統(tǒng)強調(diào) " 從靜態(tài)識別走向動態(tài)控制 ",深謀是如何構(gòu)建這樣一條完整鏈路的?
周旭:其實還是回歸人類怎么抓東西。首先通過眼睛看,知道物體位置和姿態(tài)。我們也是前面說的,視覺姿態(tài)就是干這個,通過算法判斷距離和姿態(tài),這塊不說。后面做到動態(tài)抓取,就是控制,通過發(fā)指令讓手臂運動。但到機械臂,要通過算法驅(qū)動。比如機械臂一般 6 軸或 7 軸,我們用 6 軸,可能麻煩點,要做模型預(yù)測控制、軌跡規(guī)劃等做到。
周旭:你們特別強調(diào)動態(tài)響應(yīng)和閉環(huán)控制,在實際操作中表現(xiàn)如何?
周旭:實際操作中,我可以分享一個有意思的應(yīng)用:在流水線上抓取移動物體,雖然物體姿態(tài)相對固定,但我們能從一堆隨機放置的物體中精準(zhǔn)拾取。例如,一籃子雞蛋或西紅柿,每個物體姿態(tài)或朝向各異,導(dǎo)致抓取位置不同。我們希望抓取最穩(wěn)固點,如雞蛋的中間最胖處。這就需要實時跟蹤位置并計算姿態(tài),進行準(zhǔn)確判斷,從而確保高成功率——我們總是瞄準(zhǔn)中間,這是最基礎(chǔ)的應(yīng)用。更實際的場景如飛機快餐分揀:水果盤或菜盤通過流水線,一盤盤同一類菜品依次到來,但每個菜品形態(tài)不一,需要分批夾取,且都在運動中,因此高度依賴這項技術(shù)。
硅星人:人形機器人何時進入千家萬戶?
周旭:我覺得這個過程可能需要一個 ChatGPT 時刻,這個需要一個技術(shù)上的比較大的突破才行。就是說我們?nèi)祟惼鋵崒τ跈C器而言,他的學(xué)習(xí)能力很強。不僅僅說是那種某個做某一件事情的能力,對吧?不是說語言的推理能力也好,你視覺的識別,判斷這種能力也好,他的學(xué)習(xí)能力很強,他的模仿能力也很強,他有自學(xué)能力對吧?這個機器人我覺得。要做到走入千家萬戶,可能他首先得識別那些物體就很麻煩。他肯定要具備一定的像我們說的小孩子自學(xué)能力。因為從小孩他從出生到他能夠行走,他其實每天都在看這個世界,都在感知這個世界。他看一個物體他就能記出來它的形狀下來。所以說他具備這個能力,所以說我們也需要機器具備這個。這樣子的話他應(yīng)該會有。如果說我們能做到這一點的話,我覺得技術(shù)上會有質(zhì)的飛躍。就像你可能過兩年你再看人形機器人,可能他就能做非常復(fù)雜的,或者說泛化能力達到非常強的程度。就是你隨便拿個物體給他了都能做對吧?