中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作

      ICLR 2025:頂尖科學(xué)家最關(guān)心的 AI 趨勢(shì)有哪些?

      自 GPT-4 發(fā)布至今已有兩年,但對(duì)大語言模型的研究并沒有放緩,我們?nèi)蕴幵谝粋€(gè)技術(shù)進(jìn)步涌現(xiàn)的時(shí)代。Anthropic 于 2024 年11月發(fā)布 MCP,成為接通 AI 生態(tài)的橋梁,自主的 Agent 工作流距我們更進(jìn)一步。GPT-4o、GPT-4.1時(shí)隔僅一個(gè)月先后發(fā)布,實(shí)現(xiàn)上下文處理能力八倍提升。在國內(nèi),DeepSeek 憑借FP8 混合精度訓(xùn)練引發(fā)行業(yè)震動(dòng),Manus發(fā)布號(hào)稱全球首款通用Agent,先后在今年年初掀起全民AI熱潮。

      前沿方向尚未收斂,技術(shù)突破紛至沓來。以月為單位的技術(shù)迭代下,如何看清AI行業(yè)的最新趨勢(shì)?

      2025年4月26日,雷峰網(wǎng)、AI科技評(píng)論 GAIR Live 品牌舉辦了一場主題為 "頂尖科學(xué)家聊 2025 ICLR 最近趨勢(shì)" 的線上圓桌沙龍。

      圓桌主持人為雷峰網(wǎng)高級(jí)主編馬曉寧,并邀請(qǐng)了南洋理工大學(xué)校長講席教授,人工智能系主任,人工智能交叉研究院院長安波、浙江大學(xué)計(jì)算機(jī)學(xué)院百人計(jì)劃研究員趙俊博、清華大學(xué)AIR研究院助理教授趙昊、埃默里大學(xué)計(jì)算機(jī)系副教授劉菲,共同開啟了一場深度對(duì)話。

      交談過程中,嘉賓們圍繞AI技術(shù)加速迭代下,LLM決策系統(tǒng)發(fā)展及應(yīng)用方向、Agent前沿趨勢(shì)、Scaling Law的前景、Diffusion及新模型架構(gòu)的可能性等多個(gè)方面發(fā)表了獨(dú)到見解。

      從GPT-4開始,更大規(guī)模、更高質(zhì)量的樣本使模型智力不斷提升,LLM的能力邊界逐步拓展。然而,數(shù)據(jù)枯竭的隱憂也徘徊在Scaling Law的路徑盡頭。不久前,David Silver和Richard S. Sutton兩位頂尖人工智能技術(shù)專家聯(lián)合發(fā)表論文,指出從人類數(shù)據(jù)中提取的知識(shí)正迅速接近極限,高質(zhì)量數(shù)據(jù)源大多即將耗盡。

      Scaling Law是否已經(jīng)走到盡頭?

      對(duì)此,趙俊博表示需要對(duì)不同領(lǐng)域分別考慮。高質(zhì)量數(shù)據(jù)的耗竭已成定局,預(yù)訓(xùn)練首當(dāng)其沖。"人類最高質(zhì)量的一批token加起來有10~15T,DeepSeek-V3用了14.8T。在這15T數(shù)據(jù)的基礎(chǔ)上,如果接受比較高質(zhì)量的合成數(shù)據(jù),再把數(shù)據(jù)質(zhì)量的門開得稍微大一點(diǎn),差不多能擴(kuò)展到25~30T,再往上就很難有更多的數(shù)據(jù)塞進(jìn)來了。"

      有業(yè)內(nèi)人士向AI科技評(píng)論指出,當(dāng)前大模型及大模型產(chǎn)品發(fā)展的技術(shù)源動(dòng)力仍為預(yù)訓(xùn)練,它直接關(guān)系到模型的智力水平。25~30T是預(yù)訓(xùn)練數(shù)據(jù)的上限,也或?qū)⒊蔀長LM的天花板。

      當(dāng)算力和樣本不足以筑起走向AGI的通天塔,技術(shù)層的創(chuàng)新點(diǎn)會(huì)成為AI行業(yè)邁向下個(gè)臺(tái)階的關(guān)鍵一招。

      回頭再看,劉菲對(duì)有限數(shù)據(jù)的分配提出了追問。"現(xiàn)在大家在做基礎(chǔ)模型的時(shí)候,基本上是把能夠拿到的無論是文本還是其它模態(tài)的信息,幾乎是一股腦地放在預(yù)訓(xùn)練當(dāng)中。然后在后訓(xùn)練階段,對(duì)于不同的領(lǐng)域,會(huì)有專門的數(shù)據(jù)。其實(shí)我們可以重新思考一下這個(gè)問題,有沒有可能有一種比較好的方法,能夠把數(shù)據(jù)在預(yù)訓(xùn)練和后訓(xùn)練中合理地分配,最大化地提高模型能力。"

      任務(wù)創(chuàng)新同樣富于潛力。Predict the next word一直是訓(xùn)練大語言模型的出發(fā)點(diǎn),以完成這個(gè)任務(wù)為導(dǎo)向,模型性能實(shí)現(xiàn)了速度、指令遵循、推理能力等方面的全方位提升。劉菲提出:"現(xiàn)在我們能不能通過在任務(wù)上的創(chuàng)新,提出新的task,幫助我們提高模型的后訓(xùn)練效果,或者模型在某一個(gè)領(lǐng)域需要的特定能力。"

      以下是此次圓桌討論的精彩分享,AI科技評(píng)論進(jìn)行了不改原意的編輯整理:

      技術(shù)迭代,AI "狂飆"

      AI科技評(píng)論:這次我們沙龍的主題是頂尖科學(xué)家聊 2025 ICLR 的最新趨勢(shì)。我們請(qǐng)到了四位嘉賓,分別是浙江大學(xué)計(jì)算機(jī)學(xué)院百人計(jì)劃研究員趙俊博、南洋理工學(xué)院校長、人工智能系主任安波、埃默里大學(xué)計(jì)算機(jī)系副教授劉菲、清華大學(xué)AIR研究院助理教授、光輪智能首席科學(xué)家、智源學(xué)者趙昊。今天把四位老師請(qǐng)過來,希望可以跟大家分享一下我們?cè)?ICLR 有什么樣的見聞,以及對(duì)于接下來人工智能走向和趨勢(shì)的預(yù)測。

      我想問四位老師的第一個(gè)問題是,大家覺得今年的 ICLR 跟往年比有什么不一樣的地方?

      趙俊博:我上一次來 ICLR 已經(jīng)是很多年前了。這個(gè)會(huì)其實(shí)是從我們NYU的實(shí)驗(yàn)室split off出去的。14年剛開始的時(shí)候也就幾百篇論文,沒想十一年過去變化會(huì)這么大。所以我今年最直接的感受就是人多、論文多、會(huì)場大。當(dāng)年的poster要講四五個(gè)小時(shí),因?yàn)楫?dāng)時(shí)其實(shí)沒有那么多的poster,但現(xiàn)在的poster已經(jīng)壓縮到了兩個(gè)小時(shí)的極限。

      安波:今年更大一些,有很多來自中國的老師和同學(xué),內(nèi)容也特別多。今年組織注冊(cè)那個(gè)地方要排一個(gè)小時(shí)才能領(lǐng)到這個(gè)牌子,另外會(huì)場顯得更加擁擠,通道也比較窄。 我個(gè)人覺得這個(gè)會(huì)太大了,當(dāng)然也證明這個(gè)會(huì)的質(zhì)量很好,來了很多優(yōu)秀的人。

      劉菲:我去年參加了在維也納的 ICLR 會(huì)議,想把去年和今年的做一個(gè)對(duì)比。我感覺今年的論文在深度和廣度方面都是非常棒的,首先我看到了很多非常好的LLM潛在的落地相關(guān)的應(yīng)用。另外一個(gè)我注意到的現(xiàn)象是,今年有非常多金融領(lǐng)域的公司作為我們的贊助商。所以我個(gè)人也很期待,大模型將來在金融領(lǐng)域能有什么樣的突破性的發(fā)展。

      趙昊:我前年去了基加利(盧旺達(dá)首都Kigali,編者注)那場,給我印象特別好。當(dāng)時(shí)也是疫情后第一次 ICLR,能感覺到無論中國人還是外國人都很興奮。兩年以后再來,我覺得很意外的就是贊助商怎么這么多。因?yàn)樽罱鼛状稳?CV 的會(huì)議,贊助商的數(shù)量好像都有些變少。

      AI科技評(píng)論:趙老師您今年帶了幾篇論文過來?

      趙昊:今年就帶了一篇論文,是做 Conditional Image Generation 的。我的研究方法論是我們生成一些數(shù)據(jù),然后用這些數(shù)據(jù)去訓(xùn)練更好的感知和決策模型。我們用 reward modeling 的方式,用diffusion從各種控制信號(hào)生成圖片,讓它做得更好。

      AI科技評(píng)論:四位老師今年在會(huì)場上肯定看到了一些論文、演講或者 poster。這些內(nèi)容里有沒有令你們印象深刻的、有趣的、好玩的東西,可以跟我們分享一下?

      趙昊:那我就講一講我們?nèi)ψ永锝衲暌恍┯杏绊懥Φ?paper。第一個(gè)就是今年會(huì)上的最高分 IC light,也是比較少見地拿到了滿分。這個(gè)工作非常有意思,它在diffusion 里把光照做得很好。

      一般大家會(huì)認(rèn)為無論image diffusion還是video diffusion,生成出來的東西都不可控。目前的生成在幾何和物理方面表現(xiàn)都不好,但I(xiàn)C light居然能把光照做好,這件事是非常 surprising的。同時(shí)它也是一個(gè)很好的輪子,我和很多朋友最近都在用 IC light做光照控制的工作。在CVML領(lǐng)域,真正有影響力的paper 是能幫助別人的paper。

      我覺得IC light有影響力,最大的原因是它超前于時(shí)代。我經(jīng)常跟我的學(xué)生們說,我最欽佩的科學(xué)家是能發(fā)現(xiàn)超越時(shí)代的、帶著藝術(shù)性和靈感的東西。最典型的就是孟德爾,他在DNA雙螺旋結(jié)構(gòu)被發(fā)現(xiàn)之前300 年,就能夠用設(shè)計(jì)巧妙的實(shí)驗(yàn)發(fā)現(xiàn)豌豆育種出現(xiàn)不同性狀的比例是3:1。可能在300年、100 年、50年之后,大家看這個(gè)技術(shù)也就是那么回事,但他們就是能超前于時(shí)代把它做出來,而且還非常有實(shí)用價(jià)值,我特別喜歡這樣的工作。所以在3D scene understanding and synthesis這個(gè)領(lǐng)域,我今年首推IC light這篇滿分論文。

      劉菲:我自己比較感興趣的方向是基于大語言模型的決策系統(tǒng)、規(guī)劃系統(tǒng)和推理系統(tǒng)。決策系統(tǒng)是一個(gè)蠻重要的方向,現(xiàn)在越來越多的用戶開始問大語言模型一些復(fù)雜問題。

      我可以舉一個(gè)最簡單的例子,比如買咖啡機(jī)有非常多的選擇,可以買一個(gè)非常便宜的咖啡機(jī)做dripping coffee,也可以買一個(gè)高檔一些的。大語言模型根據(jù)用戶需求進(jìn)行輔助決策,這就是一個(gè)非常簡單的決策系統(tǒng)。但同時(shí)也會(huì)有一些更為復(fù)雜的決策系統(tǒng),比如家里的小孩升學(xué),在擇校的時(shí)候會(huì)有非常多因素需要考慮,包括學(xué)校的地理位置、師資情況、排名、學(xué)生自身更適合哪種學(xué)校。很多時(shí)候大家只是把這些信息直接傳達(dá)給大語言模型,它當(dāng)然會(huì)給一個(gè)答案,但是我們沒有辦法驗(yàn)證這個(gè)決策是不是最合適的。針對(duì)單一事件做單一的決策,傳統(tǒng)上我們基于分類器或者決策樹,配合訓(xùn)練數(shù)據(jù),大語言模型已經(jīng)可以很好地進(jìn)行輔助決策,但復(fù)雜的決策系統(tǒng)目前仍然是黑盒狀態(tài)。

      一個(gè)我們比較感興趣的方向是如何把這兩種系統(tǒng)集合在一起。基于傳統(tǒng)的機(jī)器學(xué)習(xí)得到的分類器非常robust,但是只能應(yīng)用于特定的任務(wù)上,而基于大語言模型的決策系統(tǒng)可以達(dá)到特別高的靈活性,我們想把這兩種決策方式結(jié)合在一起。我們有一個(gè)系統(tǒng)叫做Define,主要是在金融領(lǐng)域針對(duì)月報(bào)或者年報(bào),給出投資建議。

      還有一個(gè)我們特別感興趣的方向是sequential decision making,它應(yīng)用于我們需要做一連串決定的場景。我舉個(gè)簡單的例子,如果我想制定一份新加坡旅行計(jì)劃,那我首先要決定買什么時(shí)間的機(jī)票、賓館訂在什么地方。同時(shí)我要參加ICLR,每天都會(huì)有具體的行程安排。把這一連串決策放在一起,需要一個(gè)非常復(fù)雜的系統(tǒng)。這個(gè)決策系統(tǒng)需要optimize goal,可能是多找時(shí)間和大家交流,也可能是控制有限的預(yù)算,這樣它才能做出最適合我的決策。說到這個(gè),安老師有一篇paper叫Agent Studio,我特別喜歡,也希望能夠聽安老師講一下這個(gè)工作的細(xì)節(jié)。

      安波:謝謝劉老師。這項(xiàng)工作的技術(shù)性不是特別強(qiáng),我們做了一個(gè)能夠提供很多benchmark場景的工具,并做完了整個(gè)pipeline,可以讓大家更容易地開發(fā)Agent。

      我個(gè)人這兩年更關(guān)注推理RL怎么和大語言模型結(jié)合在一起,以及Agent的研究。大語言模型這個(gè)概念已經(jīng)出現(xiàn)好多年了,現(xiàn)在應(yīng)該到了我們開始思考它落地的時(shí)刻,所以我會(huì)特別關(guān)注它在垂直領(lǐng)域落地方面的事情。我看了一些session,這方面的工作相對(duì)前兩年還蠻多的。

      劉老師剛才講到?jīng)Q策系統(tǒng),這也是我們所關(guān)心的。這方面有很多挑戰(zhàn),比如多模態(tài)的推理。4月份新加坡一座房子失火,一人死亡,還有20多人受傷。我們把幾張照片發(fā)給GPT,問他能不能做一份現(xiàn)場處置應(yīng)對(duì)的規(guī)劃。我們發(fā)現(xiàn)GPT的規(guī)劃里有很多問題,體現(xiàn)出它的推理能力不夠。比如照片上明顯顯示很多小孩子受傷了,但是它推薦傷者去中央醫(yī)院,實(shí)際上新加坡有一個(gè)很好的兒科醫(yī)院叫KKH,離火災(zāi)場景只有3公里。

      讓大模型從視頻里檢索出必要的信息,基于這些情況進(jìn)行復(fù)雜推理,這是我們未來特別想做的事情。我們希望它能規(guī)劃消防人員怎么進(jìn)場,需要它考慮現(xiàn)場視頻、圖片、報(bào)案的音頻,再把起火大樓的平面圖結(jié)合到?jīng)Q策中。怎么讓這些技術(shù)真正地解決現(xiàn)實(shí)問題,還有很長的路要走。這是很有挑戰(zhàn)的事情,但是有很多真實(shí)的應(yīng)用需要。

      趙俊博:我接著剛才安老師的話說。post-training的scaling是在去年九月份左右,從GPT-o1開始出現(xiàn)的,而ICLR的截稿日期是10月2號(hào),所以基本上在這次的poster里很難看到跟后訓(xùn)練或者RL相關(guān)的工作。

      這個(gè)年代發(fā)展太快了。去年10月ICLR截稿,現(xiàn)在文章才正式面世,但其實(shí)從去年10月到現(xiàn)在已經(jīng)發(fā)生了太多事,包括GPT-4.5、MCP、GPT-4o生成與理解統(tǒng)一的非常炫目的生成效果、國內(nèi)的Deepseek等等。當(dāng)年ICLR出現(xiàn)其實(shí)是為了縮短文章面世的周期,但是現(xiàn)在這個(gè)周期是不是還是趕不上形勢(shì)的變化,是不是需要把這些 conference 的形式再重新思考一下。

      安波:現(xiàn)在整個(gè)pipeline還是需要三個(gè)月甚至以上,也許可以再縮短一些。

      AI科技評(píng)論:我們也感覺這大半年的時(shí)間天翻地覆。趙老師你在去年九月份的時(shí)候,當(dāng)時(shí)設(shè)想今年年中可能會(huì)有哪些變化?

      趙俊博:我覺得有些事肯定變了,但有些事其實(shí)也沒變。我對(duì)團(tuán)隊(duì)說的一句話就是,我們現(xiàn)在做很多東西都是拍腦袋。比如安老師剛才說的這個(gè)場景,雖然它很難,但其實(shí)有兩種路徑解決這個(gè)問題。第一種路徑是multi-agent,比如可以專門做一個(gè)Agent解決消防車的調(diào)用,最后整個(gè)決策體系中穿插著各種Agent。但同時(shí)有些其他的問題可以依靠模型的底層能力直接解決。

      我們可以看一下LangChain的發(fā)展,他們一開始面向multi-agent編排的技術(shù)做了很多東西,但關(guān)鍵是現(xiàn)在的base model太強(qiáng)大了,導(dǎo)致這些東西好像有一些就沒有意義了。這就涉及到一個(gè)問題,有些事兩年之內(nèi)base model 能不能解決掉。如果不能就堅(jiān)持投入,如果能解決,那我們是不是可以把這方面投入稍微退一步?關(guān)鍵是基于現(xiàn)在這種非常瘋狂的變化,判別在兩年內(nèi)能不能解決,我感覺比較難做。

      Scaling Law 走到盡頭了嗎

      AI科技評(píng)論:最近對(duì) Scaling Law 的討論非常多。我也想請(qǐng)教一下四位老師的答案,Scaling Law 到底有沒有走到盡頭?

      趙俊博:我覺得要拆領(lǐng)域來看。首先從 Pre-train 的角度來說,我認(rèn)為已經(jīng)到頭了,因?yàn)榇_實(shí)沒有數(shù)據(jù)了。人類最高質(zhì)量的一批 token 加起來有10~15T,DeepSeek-V3用了14.8T。在這15T數(shù)據(jù)的基礎(chǔ)上,如果接受比較高質(zhì)量的合成數(shù)據(jù),再把數(shù)據(jù)質(zhì)量的門開得稍微大一點(diǎn),我覺得差不多能擴(kuò)展到25~30T,再往上就很難有更多的數(shù)據(jù)塞進(jìn)來了。

      Post-train方面,大家現(xiàn)在還是大幅依靠數(shù)學(xué)和代碼這種可校驗(yàn)的數(shù)據(jù)。那么關(guān)鍵的問題是,物理、法律、心理等其他學(xué)科的數(shù)據(jù)能不能用,以及 Reward model 或者 Process Reward Model 這些相關(guān)技術(shù)能不能繼續(xù)發(fā)展?;蛘哌€有沒有新類型數(shù)據(jù),比如說股票、游戲交互這些數(shù)據(jù)能不能拿來訓(xùn)練大模型。

      其它結(jié)構(gòu)上,Diffusion Language Model 暫時(shí)沒有跑出 Scaling Law,我們現(xiàn)在看到7B、8B 有一些效果,但是非自回歸的新方法還是值得期待的。

      安波:我贊同趙老師的觀點(diǎn),我覺得Scaling Law好像要到盡頭了。我們先說最近火的post training inference,它還是需要數(shù)據(jù),需要得到那些reward signal。有人會(huì)說我們搞一個(gè)world model,但 world model也得用數(shù)據(jù)來訓(xùn)練,MPC建那個(gè)model,還是得從數(shù)據(jù)里面來。

      剛才趙老師談到了多智能體,有一個(gè)思考是有沒有 Multi-Agent Scaling Law,我感覺這個(gè)也不存在。我是做傳統(tǒng)多智能體的,我們發(fā)現(xiàn)并不見得智能體的數(shù)量增加,性能就會(huì)好,因?yàn)閿?shù)量的增加會(huì)導(dǎo)致很多協(xié)調(diào)、通信方面的問題。我個(gè)人覺得學(xué)術(shù)界的人沒有必要執(zhí)著于研究 Scaling Law 是不是要走到頭了,因?yàn)檫@個(gè)問題已經(jīng)吵了很多年。

      趙俊博:有沒有 Scaling Law 都可以去做 research,這沒什么直接關(guān)系。

      劉菲:我非常同意安老師和俊博老師的想法,這里我可以再補(bǔ)充兩點(diǎn)。

      第一點(diǎn)我認(rèn)為可能有一個(gè)方向還可以再深入挖掘一下,就是在談到數(shù)據(jù)的時(shí)候,什么樣的數(shù)據(jù)應(yīng)該放在預(yù)訓(xùn)練當(dāng)中,什么樣的數(shù)據(jù)應(yīng)該放在后訓(xùn)練當(dāng)中?,F(xiàn)在大家在做基礎(chǔ)模型的時(shí)候,基本上是把能夠拿到的無論是文本還是其它模態(tài)的信息,幾乎是一股腦地放在預(yù)訓(xùn)練當(dāng)中。然后在后訓(xùn)練階段,對(duì)于不同的領(lǐng)域,會(huì)有專門的數(shù)據(jù)。其實(shí)我們可以重新思考一下這個(gè)問題,有沒有可能有一種比較好的方法,能夠把數(shù)據(jù)在預(yù)訓(xùn)練和后訓(xùn)練中合理地分配,最大化地提高模型能力。

      另外我對(duì) Reverse Scaling Law 也很感興趣,我想補(bǔ)充的第二個(gè)方向是,在數(shù)據(jù)一定的情況下如何提高模型的能力,尤其是模型在具體任務(wù)上的能力。我們訓(xùn)練大模型的初衷是 predict the next word,這個(gè)任務(wù)本身并不是很重要,其實(shí)是通過這樣一個(gè)簡單的任務(wù)達(dá)到訓(xùn)練模型參數(shù)的效果。那么現(xiàn)在我們能不能通過在任務(wù)上的創(chuàng)新,提出新的task,幫助我們提高模型的后訓(xùn)練效果,或者模型在某一個(gè)領(lǐng)域需要的特定能力。我認(rèn)為這兩個(gè)方向,也許可以再深入挖掘一下。

      像剛剛兩位老師提到過的,大部分大家能夠獲得的高質(zhì)量數(shù)據(jù)幾乎已經(jīng)被用掉了。這兩年大語言模型持續(xù)不斷地生成新的文本、圖片,短視頻,以后我們能夠拿到的數(shù)據(jù),會(huì)有很多是模型生成出來的。如果我們不加思考地直接用這些數(shù)據(jù)訓(xùn)練大語言模型,我不太確定對(duì)于模型究竟有沒有質(zhì)的提高。

      安波:我稍微補(bǔ)充一下。我們 NTU 前兩天邀請(qǐng)了一位 EPFL 的老師,他就研究這個(gè)問題。未來的數(shù)據(jù)全部是大模型產(chǎn)生的,一代一代地迭代下去,這個(gè)世界會(huì)變成什么樣?他做了一些實(shí)驗(yàn),因?yàn)槭悄M所以每一代的間隔都要短得多,但是他覺得這將來會(huì)對(duì)人類的價(jià)值觀,甚至一切都帶來很大的變化。

      趙昊:在 Vision 領(lǐng)域,大家比較痛心疾首的是我們還沒有發(fā)現(xiàn) Scaling Law。之前我們做了很久自監(jiān)督的表征學(xué)習(xí),也是想復(fù)現(xiàn)NLP領(lǐng)域的成功,但普遍認(rèn)為結(jié)果不是特別成功。很多人認(rèn)為這是信息密度的原因。Language 的信息密度更高,更容易出現(xiàn) Scaling Law,而 vision 需要壓縮信息。

      我覺得 VLA 有可能在未來一段時(shí)間內(nèi)看到 Scaling Law,這是非常 promising 的一件事情。我們現(xiàn)在做 VLA,一般是用遙操作數(shù)據(jù)做動(dòng)作,做完以后復(fù)原,再重新采集數(shù)據(jù)。其實(shí)每一條數(shù)據(jù)都是差不多的,但是就用這些差不多的數(shù)據(jù)訓(xùn)練,50條的時(shí)候是不 work 的,200條的時(shí)候一般剛開始 work,500條數(shù)據(jù)的時(shí)候就非常 work 了。我也不知道為什么,但感覺很像 GPT 出來的時(shí)候 NLP 領(lǐng)域那種模模糊糊的感覺。我覺得隨著這些數(shù)據(jù)積累得越來越多,也許未來12個(gè)月、24個(gè)月、36個(gè)月,突然我們的 VLA 就能做出非常靈巧的東西。

      AI科技評(píng)論:剛才趙老師提到的一個(gè)問題我很好奇。您說我們有很多行業(yè)性的數(shù)據(jù),其實(shí)現(xiàn)在還沒有辦法用來訓(xùn)練,是這樣嗎?

      趙俊博:至少在今天,通過各種技術(shù)報(bào)告我們可以看到,大家后訓(xùn)練的主體數(shù)據(jù)還是數(shù)學(xué)和 code,這是因?yàn)槲覀冃枰粋€(gè)非常明確的 reward 計(jì)算公式。數(shù)學(xué)是比較容易算 reward 的,coding 可以跑個(gè) OJ,也有比較明確的 reward 計(jì)算方式,這些肯定是最高級(jí)的數(shù)據(jù)。次一級(jí)的數(shù)據(jù)可能需要一個(gè) model,不管叫它 judge model 還是 reward model,總之得對(duì)模型給出的結(jié)果和實(shí)際的正確答案進(jìn)行比較,這對(duì)數(shù)據(jù)的要求還是挺高的。比如你算出來答案是5,模型的輸出是5,那5是不是等于5,這就是一個(gè) reward。我覺得強(qiáng)化學(xué)習(xí)在大語言模型上面的空間還是比較大的,后面還是有不少事可以做。

      趙昊:我有一個(gè)關(guān)于 NLP 的問題想請(qǐng)教一下趙老師。我以前讀書的時(shí)候,大家會(huì)管 Alexnet 這種模型叫 backbone,然后會(huì)在 backbone 上做 fine tuning。現(xiàn)在在 NLP 領(lǐng)域,大家一般會(huì)管 backbone 叫 foundation model,然后后面叫 post training。現(xiàn)在我們定義的 post training 和 fine tuning 的區(qū)別是什么?

      趙俊博:我本來想回答這兩個(gè)不是一個(gè)意思,但我后來想,SFT 好像也在 post training 的范疇里。我不確定現(xiàn)在是不是還在,大家的術(shù)語一直在穿插。

      安波:我的理解是 post training 的概念更廣。Fine tuning 早期可能只有 SFT,后來加入了 RHF,但是沒有把 test time 那些囊括進(jìn)去。現(xiàn)在用 RL 做的 inference、reasoning,是不屬于 fine tunning 的。

      模型架構(gòu)尚未收斂,Diffusion 未來可期

      AI科技評(píng)論:我們最近一直比較關(guān)心一個(gè)問題,擴(kuò)散模型和回自回歸架構(gòu)在生成任務(wù)上各自有什么優(yōu)劣?

      趙俊博:我個(gè)人比較看好 Diffusion。我說的不是直接用一個(gè) Diffusion Model 生成圖像,我覺得 Diffusion 是個(gè)很大的概念,它可以 diffuse 很多東西。

      比如清華大學(xué)朱軍老師做的 RDT,整個(gè)機(jī)器可以用 Diffusion 在坐標(biāo)空間的幾個(gè)目標(biāo)點(diǎn)上跑擴(kuò)散過程。還有謝賽寧他們做的 Meta Query,它可以理解圖像和文本,同時(shí)外接了一個(gè) Diffusion Model,通過中間一些簡單的空間上的連接,可以把 Diffusion 吐出去再去生成。這就是一個(gè)很典型的 autoregressive 和 Diffusion Model 的整合,去完成所謂的生成、理解的統(tǒng)一。

      Diffusion 打破了自回歸的限制,它的特點(diǎn)是可以擬合高維,可以做 Multi-Modelity 的擬合。所以我覺得 Diffusion Model 會(huì)在各種各樣的地方出現(xiàn),雖然 Diffusion LLM 還沒有跑出 Scaling Law,但我覺得它還是未來可期。

      安波:這個(gè)方向其實(shí)我們也沒有做太多工作,但我感覺可能并不是那么容易切換過去。如果真的非常厲害的話,大公司早就紛紛轉(zhuǎn)到那個(gè)賽道上去了。而且關(guān)于能不能取代 Transformer,我覺得可能性也不大。

      AI 科技評(píng)論:對(duì)于這一點(diǎn),劉菲老師怎么看?

      劉菲:我們?cè)?diffusion model上的探索也不是很多,但我比較認(rèn)同俊博剛剛的觀點(diǎn)。Diffusion model 在圖像生成,或者在多模態(tài)任務(wù)上,確實(shí)展現(xiàn)了比較突出的優(yōu)勢(shì)。

      我主要是做自然語言處理方向的,所以在這個(gè)領(lǐng)域,Autoregressive model 仍然是主流。原因在于,無論是文本數(shù)據(jù)還是一些時(shí)間序列數(shù)據(jù),本身都具有很強(qiáng)的序列特性,在這種情況下我們通常更傾向于使用 Autoregressive model。當(dāng)然它也有自己的問題,比如在推理(inference)階段,很難做到并行處理。針對(duì)這一問題,目前有幾個(gè)可以考慮的方向,一個(gè)是剛剛俊博提到的,將 diffusion model 和 Autoregressive model 結(jié)合起來。

      另一個(gè)方向是,即便我們現(xiàn)在談到 Autoregressive model 時(shí),Transformer 確實(shí)非常成功,但近年來也有看到 recurrent neural networks(RNN)及其變種重新受到關(guān)注。這些變種在某些方面相較于 Transformer 是有一定優(yōu)勢(shì)的。

      AI 科技評(píng)論:所以說,接下來大家很可能會(huì)探索其他架構(gòu)?

      劉菲:對(duì),是這樣的。

      趙昊:從我的角度來看,我覺得這個(gè)問題可以分成兩塊。一塊是 vision 本身要不要和 language 結(jié)合的問題。如果只做 vision,比如視頻或圖像生成的話,我們其實(shí)特別關(guān)注推理速度,所以未來一兩年內(nèi),純 vision 的任務(wù)應(yīng)該會(huì)慢慢轉(zhuǎn)向 AR(Auto-Regressive)思路,因?yàn)樵谒俣壬嫌忻黠@優(yōu)勢(shì)。但圈子里還是會(huì)有很多做多模態(tài)大模型的人,他們其實(shí)并不清楚該怎么和 language 更好地結(jié)合。比如多尺度的 token 如何映射到語言空間,目前誰也說不清楚。所以我覺得,未來的發(fā)展方向是需要把這兩塊問題區(qū)分開來看待。

      Agent 的機(jī)遇和挑戰(zhàn)

      AI 科技評(píng)論:最近大家對(duì) Agent 也很關(guān)注,四位老師有什么想法嗎?

      趙昊:我自己做 Agent 的工作不是特別多,但最近找到了一個(gè)我認(rèn)為非常有趣的方向,就是把區(qū)塊鏈技術(shù)和 agent 通訊結(jié)合起來。我們目前正在機(jī)器人系統(tǒng)中,探索基于 Agent 信息交互方式,搭建一個(gè)可信的加密協(xié)同框架,我覺得這個(gè)領(lǐng)域非常值得深入。

      區(qū)塊鏈的特點(diǎn)是大家以分布式的方式共同計(jì)算,沒有任何一個(gè)節(jié)點(diǎn)能掌握全局信息,但每個(gè)節(jié)點(diǎn)都參與了鏈的運(yùn)作。區(qū)塊鏈里有一個(gè)核心的數(shù)據(jù)結(jié)構(gòu)叫 Merkle-Tree,它的特點(diǎn)是每個(gè)葉子節(jié)點(diǎn)上的計(jì)算結(jié)果都可以被有效驗(yàn)證,并最終在根節(jié)點(diǎn)完成整體計(jì)算,但葉子節(jié)點(diǎn)本身并不知道整體發(fā)生了什么。對(duì)應(yīng)到 agent 系統(tǒng)中,就是每個(gè) agent 可以參與到協(xié)作中,通過通信協(xié)議去執(zhí)行任務(wù),并最終得出結(jié)果,但每個(gè) agent 本身并不知道整體的任務(wù)全貌。在機(jī)器人領(lǐng)域,這種特性非常有用。

      安波:那最終你們想解決什么問題?優(yōu)化的目標(biāo)是什么?

      趙昊:想做的是一個(gè)系統(tǒng),讓 agent 可以協(xié)同完成任務(wù),而且系統(tǒng)具有很強(qiáng)的抗破壞性。

      AI 科技評(píng)論:很新穎的思路!劉菲老師您怎么看?

      劉菲:我覺得趙老師提到的將 agent 和區(qū)塊鏈結(jié)合的方向,確實(shí)非常新穎,非常值得深入挖掘。我這邊在 agent 方向上也有兩個(gè)代表性的工作。第一個(gè)是 HARBOR[1],這是一個(gè) multi-agent system。我們?cè)O(shè)想未來,每個(gè)人都可以擁有一個(gè)專屬于自己的 personalized LLM agent,能夠深度理解你的興趣愛好,根據(jù)個(gè)性化需求,幫助你做出更合適的決策。

      在這樣的設(shè)定下,multi-agent system 既可能是合作關(guān)系,也可能是競爭關(guān)系。我舉個(gè)例子,比如大家在申請(qǐng)工作時(shí),可能都會(huì)用到一些大語言模型或者 agent 幫助修改簡歷、優(yōu)化表達(dá)。如果只有一個(gè)職位,所有申請(qǐng)者之間就構(gòu)成了競爭。在這種場景下,我們很感興趣的問題是:在 multi-agent system 中,如何讓 agent 同時(shí)考慮個(gè)人偏好,并幫助用戶做出最具競爭力的決策。

      另一個(gè)工作是 PlanGenLLMs[2],一篇綜述性論文。我們對(duì)現(xiàn)有的 planning system 做了系統(tǒng)性的梳理和研究。因?yàn)楝F(xiàn)在各個(gè) planning 系統(tǒng)在評(píng)測時(shí)缺乏統(tǒng)一標(biāo)準(zhǔn),數(shù)據(jù)集不同,定義的 agentic capabilities 也各不相同,所以我們希望能提出一個(gè)更統(tǒng)一的評(píng)估方法,對(duì)各種 Agentic system 進(jìn)行更科學(xué)的評(píng)估和比較。

      AI 科技評(píng)論:這種系統(tǒng)會(huì)去考察 agent 的哪些方向?

      劉菲:這是一個(gè)非常好的問題。我舉幾個(gè)例子,比如我們來到新加坡開會(huì),希望讓 Agent 幫我做一個(gè)出行計(jì)劃,但它最終提供的方案可能并不是用戶真正喜歡的,所以這就是其中一個(gè)問題。還有一種情況是,比如我的預(yù)算有限,但可以接受稍微超出的方案,或者有一些截止日期,必須嚴(yán)格遵守的。這種情況下,Agent 系統(tǒng)需要在多目標(biāo)優(yōu)化環(huán)境中,深刻理解哪些目標(biāo)必須嚴(yán)格執(zhí)行,哪些目標(biāo)可以有一定的靈活性。這是我們?cè)u(píng)判 Agent 系統(tǒng)的一個(gè)重要方向。

      另一個(gè)方向是我個(gè)人比較感興趣的。因?yàn)槲磥砗芏?Agentic system 會(huì)分布到家居環(huán)境中,比如冰箱、手機(jī)等這類 edge devices,它們無法直接調(diào)用大模型,因?yàn)橘Y源受限。所以未來的一個(gè)問題就是,如何在小模型上也能實(shí)現(xiàn)較強(qiáng)的 agentic capabilities。

      AI 科技評(píng)論:那可以理解為像冰箱、手機(jī)這種設(shè)備上,會(huì)有自己的端側(cè)小模型?

      劉菲:是的,可能在端側(cè)有一個(gè)小模型,處理一些本地任務(wù),同時(shí)后臺(tái)由大模型提供支持。一些請(qǐng)求可以直接在小模型上完成,另一些則發(fā)送到大模型上處理。

      AI 科技評(píng)論:安波老師,您認(rèn)為"小模型+Agent"是一個(gè)趨勢(shì)嗎?

      安波:我認(rèn)為是的?,F(xiàn)在大模型的決策能力都還很弱,更不要說小模型了。總體來看,大語言模型在處理決策問題時(shí),基本上是通過 imitation learning,即模仿已有數(shù)據(jù)。而這也解釋了為什么 inference 過程如此關(guān)鍵。我認(rèn)為未來無論是大模型還是小模型,要完成復(fù)雜決策任務(wù),都需要引入 RL(強(qiáng)化學(xué)習(xí)),因?yàn)?RL 能通過與環(huán)境的交互,不斷提升模型的能力。

      其實(shí)剛才兩位老師提到的方向,我也有研究。在做大語言模型之前,我一直在做 multi-agent system 的研究。在這個(gè)領(lǐng)域里,communication(通訊)是一種方式,但更關(guān)鍵的是如何實(shí)現(xiàn) dynamic 協(xié)作優(yōu)化,尤其是在機(jī)器人領(lǐng)域,每個(gè) agent 如何在動(dòng)態(tài)環(huán)境中高效協(xié)同,這是最困難的部分。而且劉菲老師提到的第一個(gè)方向,我認(rèn)為確實(shí)是剛需,只不過這里面還有很多算法上的挑戰(zhàn),比如如何快速找到最優(yōu)解。

      AI 科技評(píng)論:安波老師,您從什么時(shí)候開始做 multi-agent system 的?

      安波:我從上學(xué)期間就開始做了。稍微科普一下:這個(gè)領(lǐng)域起源于上世紀(jì) 80 年代,早期主要是軍方為了建傳感器網(wǎng)絡(luò)。因?yàn)楫?dāng)時(shí)單個(gè)傳感器能力弱,比如確定一輛車的位置,需要三個(gè)傳感器協(xié)同定位。這就是最早的 sensor network。

      后來,機(jī)器人比賽中也需要分布式協(xié)作而非集中式控制,這種場景中,Agent 完全是合作的。之后,隨著互聯(lián)網(wǎng)興起,計(jì)算博弈論出現(xiàn)了;再后來,傳統(tǒng)的 distributed planning 難以擴(kuò)展,于是 distributed RL 被提出來了。到 deep learning 階段,這一切又被進(jìn)一步 deep 化。直到今天,隨著大語言模型的出現(xiàn),AI Agent 的概念再次被提出,但實(shí)際上,早期的 multi-agent system 已經(jīng)包含了很多基礎(chǔ)思想。

      AI 科技評(píng)論:那您怎么看 RL 和 Agent 的結(jié)合呢?

      安波:我認(rèn)為這是未來真正落地決策型大模型的關(guān)鍵環(huán)節(jié)。現(xiàn)階段我們還能通過充分挖掘大語言模型現(xiàn)有的能力,加一些工具鏈去完成任務(wù)。但如果要讓它真正運(yùn)行在現(xiàn)實(shí)世界中,就必須要和環(huán)境有真實(shí)交互。我們現(xiàn)在也在做一些相關(guān)探索,比如在 token level 上做 exploration(探索),這是一個(gè)巨大的機(jī)會(huì)領(lǐng)域。所以,把 RL 和大語言模型結(jié)合起來,去解決復(fù)雜決策問題,是非常重要的方向。

      AI 科技評(píng)論:俊博老師最近有關(guān)注到一些相關(guān)的公司嗎?

      趙俊博:這種公司現(xiàn)在很多了,我覺得今年后面還會(huì)越來越多。比如前段時(shí)間 Manus,雖然功能上還有很多局限,但在交互體驗(yàn)上確實(shí)讓人眼前一亮。

      趙昊:寫文獻(xiàn)綜述很好用。

      趙俊博:這個(gè)領(lǐng)域我覺得肯定是有泡沫的。我也很同意安波老師剛才的看法,大模型本身的決策能力還比較弱。但不管怎么說,大家都在努力往這個(gè)方向推進(jìn)。我相信今年 Agent 領(lǐng)域的版圖還會(huì)進(jìn)一步擴(kuò)大。

      AI 科技評(píng)論:安波老師,您最近有用過市面上的 Agent 產(chǎn)品嗎?

      安波:我用得不多,但有關(guān)注到一些,像 Manus 的評(píng)價(jià)我也看了很多??傮w來說,它還是有不少值得學(xué)習(xí)的地方。

      AI 科技評(píng)論:您覺得通用 Agent 是未來可能實(shí)現(xiàn)的目標(biāo)嗎?

      安波:我認(rèn)為肯定是 AI 發(fā)展的方向。人類對(duì) AI 的需求不只是聊天式交互,而是希望 AI 能幫我們完成特別復(fù)雜的任務(wù),這就是 Agent 的本質(zhì)。但這條路非常難。即便今天 AI 在某些數(shù)學(xué)領(lǐng)域已有突破,我覺得要實(shí)現(xiàn)真正的通用 Agent,十年時(shí)間也很難完成。

      AI 科技評(píng)論:劉菲老師,您目前的研究有沒有一些能實(shí)用化的 Agent 項(xiàng)目呢?

      劉菲:雖然我們正在做 Multi-agent system 和一些 planning 相關(guān)的算法開發(fā),但也注意到,盡管 agent 很火,真正能落地的項(xiàng)目其實(shí)并不多。

      這里面主要有兩個(gè)潛在問題。第一個(gè)是魯棒性問題。很多 agentic system 最后是以任務(wù)成功率作為評(píng)估標(biāo)準(zhǔn),但目前大部分系統(tǒng)的成功率遠(yuǎn)達(dá)不到 90%-95%,這會(huì)在落地應(yīng)用時(shí)帶來很多困難。

      第二個(gè)問題是安全性挑戰(zhàn)。比如,模型生成的內(nèi)容中可能包含幻覺信息,尤其是在代碼生成的場景下問題更突出。正常情況下,如果 agent 正確地生成代碼,是非常好的;但如果因?yàn)榛糜X問題,生成了不存在的 library name,或者惡意用戶提前注冊(cè)了這些名字并植入了惡意代碼,那后果就很嚴(yán)重了。當(dāng)然,這只是當(dāng)前我們已知的一些問題,未來隨著應(yīng)用的深入,肯定還會(huì)遇到更多新的挑戰(zhàn)。所以,安全性問題必須高度重視。

      趙昊:我聽完劉菲老師講的,覺得以后如果每個(gè)人都有自己的 personal agent,大家為了搶票、搶資源,不就變成了 agent 之間的戰(zhàn)爭了嗎?如果以后要買一張機(jī)票,得付費(fèi)買一個(gè)更厲害的 agent,感覺還挺可怕的。

      AI 科技評(píng)論:競價(jià)排名應(yīng)用到個(gè)人生活里了。

      趙昊:對(duì),到那時(shí)候,要么自己處理所有復(fù)雜事務(wù),要么就得付錢用好一點(diǎn)的 agent。這種趨勢(shì)我覺得很快就會(huì)出現(xiàn)。

      AI 科技評(píng)論:如果從大模型智力提升的角度來看,大家能預(yù)測一下,未來有哪些技術(shù)可能幫助模型更聰明?下一個(gè)階段的研究趨勢(shì)會(huì)是什么?

      趙昊:我目前的研究方向是生成更可控的內(nèi)容,進(jìn)而訓(xùn)練出更聰明的機(jī)器人。這也是我認(rèn)為提升 AI 智力的重要方式。但目前機(jī)器人的問題在于,它們?cè)谖锢硎澜绲撵`敏性還遠(yuǎn)遠(yuǎn)不夠。機(jī)器人領(lǐng)域不僅技術(shù)復(fù)雜,還涉及產(chǎn)業(yè)鏈,比如供應(yīng)鏈,所以發(fā)展速度不像純軟件那樣快。不過,隨著資金和關(guān)注度的增加,機(jī)器人技術(shù)肯定會(huì)越來越快進(jìn)步。

      AI 科技評(píng)論:那你覺得,什么樣的機(jī)器人才算是真正聰明的?

      趙昊:其實(shí)現(xiàn)在機(jī)器人借助大語言模型的能力,已經(jīng)挺聰明了。最大的問題不是智力,而是靈敏性。也就是說,當(dāng)前機(jī)器人的"小腦"還不夠發(fā)達(dá),不夠敏捷。

      AI 科技評(píng)論:劉菲老師,您覺得該如何進(jìn)一步提升大模型的智力?

      劉菲:我個(gè)人認(rèn)為,基礎(chǔ)模型(pretraining model)仍然是最核心的。最初一兩年里大家都在拼基礎(chǔ)模型,最近半年雖然評(píng)測報(bào)告少了,但基礎(chǔ)模型的重要性并沒有下降。如果有一個(gè)非常穩(wěn)健的基礎(chǔ)模型,在此基礎(chǔ)上進(jìn)行長上下文擴(kuò)展、強(qiáng)化學(xué)習(xí)(RL)微調(diào)、多模態(tài)能力擴(kuò)展等,都會(huì)變得更加順暢。而基礎(chǔ)模型質(zhì)量不好,后續(xù)的問題會(huì)層出不窮,不僅是幻覺問題。

      當(dāng)然,好的基礎(chǔ)模型并不一定非得超級(jí)大。其實(shí)大概 70B 參數(shù)的模型,就可以非常好用了。雖然更大的模型可能有額外優(yōu)勢(shì),但"越大越好"并不總是成立的。所以,我認(rèn)為未來一個(gè)非常重要的方向,就是在適中的模型規(guī)模上,把預(yù)訓(xùn)練做到極致。

      第二個(gè)方向,是未來半年到一年內(nèi),關(guān)于模型安全性的研究,無論是評(píng)測體系還是技術(shù)本身,都會(huì)成為重點(diǎn)。

      最后,我也很期待大模型在交叉學(xué)科領(lǐng)域,比如 AI for Science、AI for Education、AI for Finance,能夠帶來真正突破性的進(jìn)展。

      AI 科技評(píng)論:安波老師,您覺得呢?

      安波:我這邊還是更關(guān)注決策相關(guān)的問題,無論是在 inference 階段,還是在 multi-agent 階段。我認(rèn)為這確實(shí)是一件非常難的事情。完成一個(gè)具體任務(wù)是一方面,但如果希望進(jìn)一步提升系統(tǒng)的魯棒性,特別是在應(yīng)用到一些此前數(shù)據(jù)未覆蓋到的場景時(shí),基本上是非常困難的。整體來說,我們還有很長的路要走。

      劉菲:我非常同意安老師的觀點(diǎn)。未來與環(huán)境的真實(shí)交互,確實(shí)是 agentic system 中非常重要的一環(huán)。

      AI 科技評(píng)論:俊博老師,您的看法呢?

      趙俊博:我的觀點(diǎn)一半樂觀一半悲觀。樂觀的地方是,LLM 的 post-training 這一條路徑已經(jīng)逐漸被摸索清楚了,而且今年之內(nèi)依然有不少可以深挖的空間。比如說,數(shù)據(jù)目前還沒有被完全窮盡,還有很多新型的數(shù)據(jù)尚未真正鋪開應(yīng)用。同時(shí),算法和基礎(chǔ)設(shè)施(Infra)方面也仍有比較大的提升空間。當(dāng)然,長文本問題涉及到的一些結(jié)構(gòu)體系改進(jìn),也是接下來的挑戰(zhàn)之一。不過整體來看,一切變化發(fā)展都很快,所以最終要到今年年底,我們才能真正看到會(huì)發(fā)生什么樣的新變化。

      AI 科技評(píng)論:好的,那我們就靜靜期待,今年年底還會(huì)有哪些新的突破出現(xiàn)。也非常感謝四位老師今天和我們分享了這么多寶貴的內(nèi)容,謝謝大家!

      參考文檔:

      1.https://arxiv.org/pdf/2502.12149

      2.https://arxiv.org/pdf/2502.11221

      相關(guān)標(biāo)簽

      相關(guān)閱讀

      最新評(píng)論

      沒有更多評(píng)論了