藍(lán)鯨新聞 6 月 6 日訊(記者 武靜靜)2025 年 6 月 6 日,第七屆智源大會在北京召開,智源研究院正式發(fā)布了 " 悟界 " 系列大模型,聚焦多模態(tài)、腦科學(xué)、具身智能與微觀生命分子建模四大核心方向。
創(chuàng)立于 2018 年的智源研究院,作為中國新型科研機(jī)構(gòu)的探索樣本,它不僅開創(chuàng)了國產(chǎn)大模型的技術(shù)路線,也激活了中國 AI 大模型創(chuàng)業(yè)生態(tài)的第一波熱潮——它催生了國內(nèi)最早一批專注于大模型的創(chuàng)業(yè)公司,也影響了以楊植麟、豈凡超、曾國洋等人為代表的新一代 AI 大模型創(chuàng)業(yè)者。他們大多曾參與 " 悟道 1.0" 與 "2.0" 的研發(fā),在項(xiàng)目中完成從學(xué)生到研究者的轉(zhuǎn)變,成為中國 AI 大模型版圖中的重要力量。
今天的 " 悟界 ",是繼 " 悟道 " 之后智源邁出的又一步。不同于以往聚焦語言、圖像等數(shù)字世界," 悟界 " 面向具身智能和世界建模,將探索延伸至真實(shí)世界中的感知、決策與交互。
此次,「藍(lán)鯨科技」采訪了智源研究院院長王仲遠(yuǎn),圍繞 " 悟界 " 背后的研究邏輯、技術(shù)布局與未來方向展開深入對話,了解智源對下一代通用人工智能 " 底座能力 " 的一次系統(tǒng)性構(gòu)思與前瞻性思考。
大模型技術(shù)還遠(yuǎn)沒有到發(fā)展的盡頭,下一步是探索物理世界
" 界 " 代表著對虛實(shí)世界邊界的突破,代表著對物理世界的賦能,以及在物理 AGI 方向上的邁進(jìn),王仲遠(yuǎn)說道。
據(jù)介紹,此次發(fā)布的 " 悟界 " 系列涵蓋原生多模態(tài)世界模型 Emu3、腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微 Brain μ、跨本體具身大小腦協(xié)作框架 RoboOS 2.0 與具身大腦 RoboBrain 2.0 以及全原子微觀生命模型 OpenComplex2,幾乎覆蓋了當(dāng)下 AI 與人類核心認(rèn)知結(jié)構(gòu)、現(xiàn)實(shí)物理世界交互及生命本質(zhì)建模的前沿方向,也是中國大模型再一次面向通用人工智能(AGI)一次探索和實(shí)踐。
我們了解到,此次智源推出的 " 悟界 " 系列模型,首次系統(tǒng)性地覆蓋多模態(tài)、腦科學(xué)、具身智能與微觀生命分子建模,展現(xiàn)出構(gòu)建 " 世界模型 " 的路徑圖,也體現(xiàn)了中國 AI 方面系統(tǒng)化創(chuàng)新能力。
這正是 " 悟界 " 系列試圖解決的問題,王仲遠(yuǎn)表示,要讓 AI 真正從 " 只能聊天 " 走向 " 能理解、能行動 " 的階段,關(guān)鍵在于讓它真正進(jìn)入現(xiàn)實(shí)世界。為此,智源不再只依靠互聯(lián)網(wǎng)文本數(shù)據(jù),而是引入更多來自真實(shí)世界的信息,比如圖像、聲音、三維空間結(jié)構(gòu),甚至是人腦的活動信號。
智源正在探索一種叫 " 原生多模態(tài) " 的新方法——簡單來說,就是從模型訓(xùn)練的第一步開始,就同時(shí)使用多種類型的數(shù)據(jù),讓 AI 從一開始就具備綜合理解各種信息的能力。
Emu3 原生多模態(tài)世界模型就是這種做法的代表,它可以把文字、圖片、視頻轉(zhuǎn)化為同一種 " 語言 " 來處理,這樣就能更順暢地理解和生成不同形式的內(nèi)容,讓 AI 變得更聰明、更靈活。此外,智源推出的見微 Brain μ 模型,就能把腦信號轉(zhuǎn)化為模型可以處理的 " 語言 ",并與圖像和文本進(jìn)行跨模態(tài)多向映射。
更進(jìn)一步,大模型未來需要具備對空間位置和時(shí)間變化的感知能力,比如判斷一個(gè)杯子是否快要從桌邊掉下去。這類時(shí)空理解對于未來 AI 機(jī)器人在現(xiàn)實(shí)中完成任務(wù)至關(guān)重要。王仲遠(yuǎn)認(rèn)為,這種面向物理世界的原生多模態(tài)模型,將是實(shí)現(xiàn)真正 " 物理 AGI" 的路徑之一。
具身智能仍處于探索期,類似大語言模型的 GPT-3 之前階段
隨著 AI 正從數(shù)字世界走入真實(shí)空間,具身智能正在成為當(dāng)下另一個(gè)熱議的話題和技術(shù)攻堅(jiān)領(lǐng)域,也在陸續(xù)誕生各種創(chuàng)業(yè)公司。
王仲遠(yuǎn)向「藍(lán)鯨科技」談到:" 具身智能目前仍處于技術(shù)探索的早期階段,類似于大模型在 GPT-3 之前的摸索期。"
他提到,當(dāng)下具身智能面臨多重挑戰(zhàn)。一方面,核心技術(shù)路徑尚未明確,如仿真數(shù)據(jù)利用和 " 大小腦 " 融合架構(gòu)等仍在探索中,技術(shù)復(fù)雜度遠(yuǎn)超智能駕駛。另一方面,數(shù)據(jù)采集困難是具身智能發(fā)展的重要瓶頸。真機(jī)數(shù)據(jù)獲取受限于現(xiàn)有模型能力,形成 " 循環(huán)悖論 ",加之真實(shí)世界多模態(tài)數(shù)據(jù)雖然豐富,卻難以高效利用。
此外,軟硬件協(xié)同復(fù)雜,特別是跨本體 " 大小腦 " 融合尚未成熟,導(dǎo)致產(chǎn)業(yè)落地周期長,缺乏明確的規(guī)?;瘧?yīng)用。" 未來 5-10 年,大小腦融合的模型可能會成熟,但不是今天。" 王仲遠(yuǎn)說。
智源發(fā)布的具身大腦 RoboBrain 2.0 是目前全球最強(qiáng)的開源具身大腦大模型,在多項(xiàng)空間推理與任務(wù)規(guī)劃指標(biāo)上超越具身智能領(lǐng)域主流大模型。
王仲遠(yuǎn)透露," 在數(shù)據(jù)訓(xùn)練的技術(shù)路徑上,智源借鑒了大語言模型的發(fā)展思路,更多依靠的是互聯(lián)網(wǎng)數(shù)據(jù)幫助機(jī)器人學(xué)習(xí)智能 ... 再通過強(qiáng)化學(xué)習(xí)和少量真實(shí)世界的數(shù)據(jù)不斷訓(xùn)練它的能力,不斷突破具身智能的發(fā)展上限。"
他借用了一個(gè)視頻比喻:" 就像一個(gè)小朋友先通過看短視頻學(xué)會怎么拆糖果,再通過實(shí)際操作(強(qiáng)化學(xué)習(xí))逐步掌握這項(xiàng)技能。"
此外,為了讓大模型更好的用起來,此次智源發(fā)布了跨本體具身大小腦協(xié)作框架 RoboOS 2.0,這是全球首個(gè)基于具身智能 SaaS 平臺,可以支持 MCP 的跨本體具身大小腦協(xié)作框架,目標(biāo)是構(gòu)建具身智能領(lǐng)域的 " 應(yīng)用商店 " 生態(tài)。
同時(shí),RoboOS 2.0 也是全球首個(gè)支持 MCP 的跨本體具身大小腦協(xié)作框架,旨在構(gòu)建具身智能領(lǐng)域的 " 應(yīng)用商店 " 生態(tài)。
王仲遠(yuǎn)詳細(xì)介紹稱,"RoboOS 2.0 實(shí)現(xiàn)了小腦技能的免適配注冊機(jī)制,顯著降低開發(fā)門檻。典型場景下,相關(guān)代碼量僅為傳統(tǒng)手動注冊方式的 1/10。這使得開發(fā)者能夠更容易地貢獻(xiàn)和分享小腦技能。"
目前,RoboOS 2.0 與 RoboBrain 2.0 已全面開源,包括框架代碼、模型權(quán)重、數(shù)據(jù)集與評測基準(zhǔn)。且智源研究院已與全球 20 多家具身智能企業(yè)建立戰(zhàn)略合作關(guān)系。
對于具身智能接下來的發(fā)展趨勢,王仲遠(yuǎn)談到,具身智能的大規(guī)模商用落地尚需時(shí)日。未來 3 年內(nèi),突破性的規(guī)模化應(yīng)用最可能首先出現(xiàn)在特定、相對封閉的場景,尤其有大量重復(fù)、枯燥甚至危險(xiǎn)的任務(wù),非常適合具身智能第一波切入。