中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      36氪 24分鐘前

      前阿里、字節(jié)大模型帶頭人楊紅霞創(chuàng)業(yè):大模型預(yù)訓(xùn)練,不是少數(shù)頂尖玩家的算力競賽

      采訪|周鑫雨 鄧詠儀

      文|周鑫雨

      編輯|蘇建勛

      在阿里、字節(jié)接連做了近7年大模型的楊紅霞,身上有一種鮮明的挑戰(zhàn)精神。

      在阿里早期,她從內(nèi)部的業(yè)務(wù)阿里搜索推薦系統(tǒng),投身于初期并不被看好的大模型研究之路。

      后來,她帶領(lǐng)林俊旸(現(xiàn)通義千問負(fù)責(zé)人)、周暢(前通義千問大模型負(fù)責(zé)人)等這一輪中國大模型的核心人才,在達(dá)摩院磕出了通義千問的前身,M6 大模型。

      2024年7月,楊紅霞從字節(jié)離職創(chuàng)業(yè)后,被曝出仍要做模型相關(guān)技術(shù)的消息。

      "阿里、字節(jié)大模型核心人物"的光環(huán),沒有蓋住彼時(shí)市場上悲觀的聲音:入局太晚,創(chuàng)業(yè)公司怎么和大廠爭?

      時(shí)隔一年零三個(gè)月,楊紅霞帶著她的新 AI 公司 InfiX.ai,殺回了大模型賽道。

      10月初,《智能涌現(xiàn)》與身在香港的楊紅霞,在線上交流了她的創(chuàng)業(yè)近況。

      她沒有選擇創(chuàng)業(yè)資源集中的北上廣深,而是加入了香港理工大學(xué)。在楊紅霞看來,前往香港是一個(gè)極具性價(jià)比的決定:

      人工智能相關(guān)的產(chǎn)學(xué)研項(xiàng)目,擁有豐厚的資金和算力補(bǔ)貼;因?yàn)橄愀蹞碛腥蝾I(lǐng)先的人才密度,公司得以快速組建了40人規(guī)模的團(tuán)隊(duì)。

      出于種種考慮,楊紅霞希望在訪談中只討論技術(shù),不透露商業(yè)化的細(xì)節(jié)。

      但僅從技術(shù)中,就能窺見 InfiX.ai 的宏大版圖:這一次,楊紅霞不僅想和市面上的頂尖模型叫板,甚至想革新大模型的訓(xùn)練和落地范式。

      當(dāng)下主流的頂尖模型,包括GPT,都是由某個(gè)大機(jī)構(gòu)主導(dǎo)的、"中心化"的。楊紅霞解釋,"(中心化的模型)需要集中投入非常多的數(shù)據(jù)、人力、算力資源"。

      但 InfiX.ai 要做的恰恰相反:讓大模型預(yù)訓(xùn)練"去中心化",變成中小企業(yè)、研究機(jī)構(gòu),甚至個(gè)人都能參與的事。

      這么做的核心原因在于,2023年中,彼時(shí)還在字節(jié)的楊紅霞就發(fā)現(xiàn),擅長解決通用領(lǐng)域問題的"中心化"模型,無法真正落地

      比如,不少數(shù)據(jù)敏感的企業(yè)有本地化部署模型的需求。一般而言,業(yè)界主流的解決方案,是基于企業(yè)的數(shù)據(jù),對(duì)"中心化"模型進(jìn)行后訓(xùn)練(比如微調(diào)、強(qiáng)化學(xué)習(xí))。

      然而,楊紅霞對(duì)我們強(qiáng)調(diào):"模型知識(shí)的注入只發(fā)生在預(yù)訓(xùn)練階段,后訓(xùn)練提供的是規(guī)則。"就好比,預(yù)訓(xùn)練一段是 8 年制的醫(yī)學(xué)博士生涯,后訓(xùn)練則是臨床實(shí)習(xí)的過程。

      這就導(dǎo)致,基于企業(yè)數(shù)據(jù)后訓(xùn)練的模型,在實(shí)際業(yè)務(wù)中仍然會(huì)出現(xiàn)不少"幻覺"。

      "中心化"模型的研發(fā)經(jīng)歷,讓楊紅霞形成了創(chuàng)業(yè)的兩個(gè)原始判斷:

      第一,大模型要落地,不能只依賴少數(shù)巨頭機(jī)構(gòu),必須基于諸多企業(yè)數(shù)據(jù)預(yù)訓(xùn)練

      第二,為了讓企業(yè)也能做預(yù)訓(xùn)練,必須要降低所消耗的資源。

      圍繞這兩個(gè)判斷,近期,InfiX.ai 開源了全球首個(gè) FP8 訓(xùn)練"全家桶" (包括預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)),一項(xiàng)模型融合技術(shù),以及基于此訓(xùn)練出的醫(yī)療多模態(tài)大模型和多智能體系統(tǒng)。

      低比特模型訓(xùn)練框架 InfiR2 FP8

      相較于行業(yè)普遍采用的計(jì)算精度 FP16/BF16 而言,InfiR2 FP8 在模型性能幾乎無損的情況下,既提升了訓(xùn)練速度,也節(jié)省了顯存消耗。

      △ InfiR2-1.5B-FP8 對(duì) BF16 基線在推理評(píng)測集上的性能表現(xiàn),兩者幾乎持平。圖源:企業(yè)供圖

      △ 顯存占、計(jì)算延遲與系統(tǒng)吞吐量測試結(jié)果。相較于 FP16/BF16,InfiR2 FP8 將端到端訓(xùn)練速度最高提升了 22%,顯存峰值最高節(jié)省了 14%,端到端吞吐量最高提升了 19%。圖源:企業(yè)供圖

      模型融合技術(shù) InfiFusion

      不同領(lǐng)域企業(yè)和機(jī)構(gòu)預(yù)訓(xùn)練出的不同尺寸、不同結(jié)構(gòu)的領(lǐng)域"專家模型",可以通過模型融合 (Model Fusion),打造融匯不同領(lǐng)域知識(shí)的大模型。

      這一技術(shù)可以避免模型重復(fù)訓(xùn)練所造成的資源浪費(fèi)。

      醫(yī)療多模態(tài)大模型訓(xùn)練框架 InfiMed

      這一框架可以讓基于小規(guī)模數(shù)據(jù)和算力資源訓(xùn)練出的小規(guī)模參數(shù)模型,在多項(xiàng)醫(yī)學(xué)任務(wù)中展現(xiàn)強(qiáng)大推理能力。

      △InfiMed-RL-3B在7個(gè)benchmark的性能較。比如,基于36K RLV(可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí))的小規(guī)模數(shù)據(jù),訓(xùn)練出的醫(yī)療模型 InfiMed-RL-3B,在七大醫(yī)療基準(zhǔn)測試中顯著優(yōu)于業(yè)界同尺寸的谷歌的醫(yī)療模型 MedGemma-4B-IT。圖源:企業(yè)提供

      多智能體系統(tǒng) InfiAgent

      該系統(tǒng)能夠代替人工,自動(dòng)為多智能體分解和分配復(fù)雜任務(wù),實(shí)現(xiàn)任務(wù)的自動(dòng)規(guī)劃和調(diào)度,降低了Agent系統(tǒng)的開發(fā)門檻和成本。

      △InfiAgent 在多項(xiàng)標(biāo)準(zhǔn)基線上測試的結(jié)果。在需要多步推理的復(fù)雜任務(wù)(如 DROP)上,InfiAgent 領(lǐng)先最佳基線 3.6%。圖源:企業(yè)提供

      更進(jìn)一步,是將這些注入了領(lǐng)域知識(shí)的模型,通過模型融合技術(shù),成為更強(qiáng)大的模型——無需重復(fù)預(yù)訓(xùn)練,就能得到擁有更多知識(shí)的大模型。

      這次創(chuàng)業(yè),楊紅霞將技術(shù)的落地領(lǐng)域,不僅先放在了醫(yī)療這塊難啃的骨頭,還將范圍縮小到了最難攻克的癌癥領(lǐng)域。

      她告訴《智能涌現(xiàn)》:"一定要選一些特別有挑戰(zhàn)的領(lǐng)域,讓模型能力真正有區(qū)分度,證明我們的模型在這個(gè)領(lǐng)域是最好的。"

      楊紅霞創(chuàng)業(yè)初期,"去中心化""模型融合",對(duì)仍然信奉"大力出奇跡"的國內(nèi)模型賽道而言,依然是邊緣敘事。她記得,彼時(shí)面對(duì)合作方和投資人,還需要解釋許多。

      但在美國,"去中心化"的熱潮已經(jīng)逐漸涌起。2025 年 2 月,前 OpenAI CTO Mira Murati 成立了新公司 Thinking Machines Lab (以下簡稱"TML"),愿景是讓個(gè)人開發(fā)者和初創(chuàng)企業(yè),也能負(fù)擔(dān)得起模型訓(xùn)練。

      "我真沒想到一家還沒有實(shí)際業(yè)務(wù)落地的公司,只是宣布要做這件事,(種子輪)就能實(shí)現(xiàn)融資 20 億美金、估值 120 億美金。"

      這個(gè)消息讓楊紅霞確定,"去中心化"會(huì)成為一種主流,"你可以想象到灣區(qū)這幫人對(duì)這件事有多么篤定"。

      等到第二輪融資,她發(fā)現(xiàn),質(zhì)疑聲明顯減少了許多。從提出增資,到完成融資,InfiX.ai 只花了兩周時(shí)間。楊紅霞告訴我們,現(xiàn)在公司已經(jīng)超融了。

      在她描繪的圖景中,未來,每家公司和機(jī)構(gòu)都會(huì)有自己的專家大模型。不僅不同領(lǐng)域的專業(yè)模型可以融合,分布在中國和歐洲訓(xùn)練的模型,也可以帶著跨國界的知識(shí)融合——模型融合會(huì)帶來全球化的領(lǐng)域基礎(chǔ)大模型。

      "通用人工智能(AGI)不應(yīng)成為一場僅限于頂尖玩家的算力競賽,"楊紅霞總結(jié),"未來會(huì)成為一場‘全民協(xié)作’。"

      以下是《智能涌現(xiàn)》與楊紅霞的對(duì)話,內(nèi)容略經(jīng)編輯整理:

      "中心化"帶來技術(shù)突破,"去中心化"帶來落地

      智能涌現(xiàn):簡單介紹一下,為什么我們需要"去中心化"的模型訓(xùn)練?

      楊紅霞:我看到今天模型的落地有一個(gè)很大的鴻溝存在。我們和高精尖領(lǐng)域、中小企業(yè)、醫(yī)院、政府機(jī)構(gòu)聊,大家都想用生成式人工智能,但遲遲用不起來,核心原因是現(xiàn)在的中心化大模型沒有他們所對(duì)應(yīng)的領(lǐng)域數(shù)據(jù)。

      需要強(qiáng)調(diào)的是,模型知識(shí)的注入只發(fā)生在預(yù)訓(xùn)練階段。后訓(xùn)練階段,模型接受的全是規(guī)則,用來告訴它怎么解決復(fù)雜任務(wù)。

      所以模型在企業(yè)或機(jī)構(gòu)的本地化部署,一定要啟動(dòng)持續(xù)預(yù)訓(xùn)練,因?yàn)獒t(yī)院、企業(yè)、機(jī)構(gòu)大量的本地化私有數(shù)據(jù)和知識(shí),在互聯(lián)網(wǎng)上是無法獲取的。

      同時(shí),現(xiàn)在不同企業(yè)或機(jī)構(gòu)的數(shù)據(jù)是很難共同分享的,導(dǎo)致了現(xiàn)有范式下模型無法做到全球化和全行業(yè)化。

      我相信未來每家公司都會(huì)需要大模型這樣一個(gè)腳手架。所以第一件事,我們希望把腳手架做到最便宜、最易用、入門門檻最低,讓每一家企業(yè)或機(jī)構(gòu)都有自己本地化部署的模型。

      第二件事,我們想通過模型融合的方式,把某個(gè)領(lǐng)域的模型做到全球化。比如不同醫(yī)院的醫(yī)療??颇P腿诤掀饋恚湍艿玫揭粋€(gè)醫(yī)療領(lǐng)域的基礎(chǔ)模型。

      所以所謂的"去中心化",就是在各個(gè)領(lǐng)域,集大家的能力,一起做好領(lǐng)域大模型。

      智能涌現(xiàn):你之前在字節(jié)和阿里做的都是"中心化"的模型訓(xùn)練,你對(duì)"去中心化"的關(guān)注是從什么時(shí)候開始的?

      楊紅霞:從2023年中開始,我們就有這樣的想法了。

      當(dāng)時(shí)在業(yè)界,我舉個(gè)簡單的例子,當(dāng)你的場景流量非常大,比如搜索推薦廣告,不可能一直調(diào)用一個(gè)中心化的1.6萬億的大模型,你根本扛不住這種服務(wù)吞吐壓力。

      2021 年底,谷歌 CEO 宣布把谷歌所有的搜索引擎替換成 BERT(2018 年谷歌發(fā)布的大模型) 基座為主,前無古人。

      當(dāng)時(shí) BERT 的最大模型 BERT-Large,參數(shù)量也只有 3.4 億。所以工業(yè)界不可能在超大流量情況下每時(shí)每刻調(diào)用千億參數(shù)量的模型。

      2023 年中起,我們做了很多嘗試,證明一件事,就是在一個(gè)垂直領(lǐng)域中,30 億、70 億、130 億等小尺寸的模型,可以做得比 1.6 萬億參數(shù)的中心化大模型好。

      到 2024 年中,我們驗(yàn)證了這個(gè)結(jié)論一定是正確的,領(lǐng)域的模型變小一定是未來的趨勢

      智能涌現(xiàn):2023 年中,你還在字節(jié)。當(dāng)時(shí)無論是字節(jié)也好,還是整個(gè)業(yè)界也好,大家對(duì)"去中心化"的模型訓(xùn)練有共識(shí)嗎?

      楊紅霞:當(dāng)時(shí)更多的人和大廠,包括現(xiàn)在也是,還是以做中心化的模型去實(shí)現(xiàn)通用人工智能(AGI)為主。

      相對(duì)而言,中心化路線上技術(shù)的挑戰(zhàn)會(huì)少很多。只要把數(shù)據(jù)處理得足夠干凈,有足夠多錢去請人,把人工智能的訓(xùn)練基礎(chǔ)設(shè)施建得足夠魯棒和穩(wěn)定,加上足夠多的算力,我一定可以把模型的能力砸上去。

      大家的使命也不一樣。大廠肯定還是希望突破通用人工智能(AGI),當(dāng)然這也是我特別想看到的一件事。

      但即使在今天,各個(gè)大廠真正能做大模型核心研發(fā)的人還是非常非常少,大量的人還在做數(shù)據(jù)清洗,更不要提非大廠的機(jī)構(gòu)。

      各個(gè)領(lǐng)域的專家,比如醫(yī)生,其實(shí)對(duì)大模型很感興趣。但他們直接調(diào)用任何開源模型的 API 服務(wù),其實(shí)效果都不好,全是幻覺(hallucination)。

      智能涌現(xiàn):那在阿里和字節(jié)的時(shí)候,你相信"中心化"這件事嗎?這和你現(xiàn)在做的"去中心化"是截然不同的。

      楊紅霞:我肯定是相信的,包括我現(xiàn)在也相信。

      因?yàn)?strong>中心化將所有的資源都聚集在了一起,所以它減少了一些技術(shù)上的挑戰(zhàn),一定會(huì)帶來重大的技術(shù)突破。

      去中心化一定會(huì)讓技術(shù)廣泛應(yīng)用在各個(gè)領(lǐng)域。所以我覺得兩條路都是對(duì)的。

      智能涌現(xiàn):2024 年中,什么樣的進(jìn)展讓你覺得去中心化的技術(shù)是對(duì)的?

      楊紅霞:在 2024 年初的時(shí)候我們已經(jīng)驗(yàn)證了一件事,在一個(gè)垂直領(lǐng)域中,小模型可以超越大模型。

      但那時(shí)很少有人關(guān)注到這一點(diǎn),現(xiàn)在這已經(jīng)是大家的共識(shí)了。比如 MIT Tech Review 在 2025 年十大突破性技術(shù)中,把小語言模型列為其中之一。

      當(dāng)你驗(yàn)證這一件事,就會(huì)自然而然想到直接把不同領(lǐng)域的模型進(jìn)行融合,不要再去重新訓(xùn)練,就能得到擁有更多知識(shí)的大模型。

      差不多在那個(gè)時(shí)間,Sakana AI 的創(chuàng)始人 Llion Jones,他也是 Transformer 的作者之一,已經(jīng)實(shí)現(xiàn)了部分的工作。他們的成員陣容很豪華,現(xiàn)在估值也很高,第一輪領(lǐng)投的是軟銀,第二輪又是英偉達(dá)。

      所以當(dāng)時(shí)我們覺得去中心化應(yīng)該也是一條非常值得期待和充滿魅力的道路。

      △ Sanaka AI 聯(lián)合創(chuàng)始人Llion Jones(左)和 David Ha(右)。圖源:互聯(lián)網(wǎng)

      智能涌現(xiàn):如果類比中心化的模型進(jìn)展,團(tuán)隊(duì)進(jìn)展到了哪個(gè)階段?GPT-3 嗎?

      楊紅霞GPT-3 的判斷應(yīng)該比較準(zhǔn)確,0-1 的階段。

      智能涌現(xiàn):去中心化的 GPT-4 moment 會(huì)是怎樣的?

      楊紅霞:其實(shí)我們現(xiàn)在在推動(dòng)一件事,比如將這樣一個(gè) model fusion(模型融合)的平臺(tái),開源到 GitHub 和 HuggingFace 上。

      商業(yè)等一些領(lǐng)域的數(shù)據(jù)很敏感,而且值錢,大家是不愿意將這部分?jǐn)?shù)據(jù)貢獻(xiàn)到開源社區(qū)的。無國界的、不強(qiáng)調(diào)商業(yè)價(jià)值的科學(xué)領(lǐng)域就好一些。

      如果今天我們把全球科學(xué)領(lǐng)域上的所有模型 merge 起來,得到一個(gè)科學(xué)領(lǐng)域的 science foundation model,并且表現(xiàn)上超越今天的中心化模型,我覺得這有可能是一個(gè) GPT-4 moment。

      智能涌現(xiàn):目前團(tuán)隊(duì)的工作都是開源的,什么階段會(huì)考慮閉源?

      楊紅霞:目前還沒想過。當(dāng)下我們還是希望先把社區(qū)的第一步做好。因?yàn)殚_源都沒做好的話,就不用想閉源了。

      智能涌現(xiàn):未來去中心化模型會(huì)代替中心化模型嗎?

      楊紅霞:我覺得是共存的狀態(tài)。

      我比較喜歡看歷史。舉個(gè)計(jì)算機(jī)的例子,最開始計(jì)算機(jī)是超大規(guī)模的一體機(jī)(manframe)。但今天每個(gè)人用的小手機(jī)都是一個(gè)分布式的、去中心化的小計(jì)算機(jī)。

      每天你在手機(jī)上做的任何操作其實(shí)都是在編程,只不過手機(jī)的圖形化用戶界面(GUI) 封裝得太好了,你不需要復(fù)雜的編程。

      所以我認(rèn)為大模型也是同樣的。我非常相信中心化一定會(huì)帶來重大的技術(shù)突破,但如果你想讓你的技術(shù)廣泛地被應(yīng)用起來,去中心化一定是未來,跟計(jì)算機(jī)是一樣的道理。

      直到今天,我更加堅(jiān)信這件事情了。因?yàn)槲覀冊?model fusion(模型融合)上得到了一系列結(jié)果,包括模型融合scaling law的證明。

      還有 OpenAI CTO Mira 成立了 Thinking Machines Lab。讓我關(guān)注到的是,這家尚未有實(shí)際業(yè)務(wù)落地的公司,只是宣布要做這件事,就能實(shí)現(xiàn)融資 20 億美金、估值 120 億美金

      你可以想象到灣區(qū)這幫人對(duì)這件事有多么篤定。

      △ 前 OpenAI CTO、Thinking Machines Lab 創(chuàng)始人 Mira Murati。圖源:WIRED

      智能涌現(xiàn):灣區(qū)開始相信這件事,但國內(nèi)對(duì)這項(xiàng)技術(shù)的態(tài)度是什么?你在融資的過程中,收到過怎樣的反饋?

      楊紅霞:我們?nèi)谫Y相對(duì)還是非常順利的。第一輪融資的時(shí)候,讓大家接受我們的思路,還是需要講挺多的。

      但那一輪也很快。我們的股東有一家非常頂尖的、國際化的投資機(jī)構(gòu),所以時(shí)間流程很長。但從大概(2024 年)11 月拿到 term sheet開始,到今年 3 月左右,我們就全部完成融資交割了。

      現(xiàn)在已經(jīng)到了第二輪融資(PreA)。從我們開始提出增資,到完成融資,只花了兩周時(shí)間,現(xiàn)在已經(jīng)超融了。

      相比 TML 已經(jīng) 120 億美金的估值,我們非常便宜,就幾億美金。我不需要這么多融資,尤其我們現(xiàn)在走的是低資源訓(xùn)練的路。

      我想做有挑戰(zhàn)性的領(lǐng)域

      智能涌現(xiàn):團(tuán)隊(duì)這次推出了醫(yī)療多模態(tài)大模型的低資源訓(xùn)練框架 InfiMed。為什么你選擇先從醫(yī)療領(lǐng)域做起?

      楊紅霞:大模型是一個(gè)"大殺器"。它就是要去解決人類非常有挑戰(zhàn)性的一些問題。

      我信奉一個(gè)理念,如果今天拿一些簡單的任務(wù),或者一些簡單的benchmark,根本沒辦法區(qū)分大模型的能力。因?yàn)樗锌赡芏急憩F(xiàn)得挺好,你無法得知哪個(gè)領(lǐng)域表現(xiàn)得更好,同時(shí)成本也很高。

      在模型上我們已經(jīng)花了那么高成本,那總歸要帶來一些重大突破,去突破能夠影響很多人的領(lǐng)域。

      另一方面,一定要選一些特別有挑戰(zhàn)的領(lǐng)域,讓模型能力真正有區(qū)分度,證明我們的模型在這個(gè)領(lǐng)域是最好的

      比如說醫(yī)療,我們選的是癌癥這個(gè)場景,沒選別的。未來老齡化是普遍的,影響人群很廣泛。同時(shí)癌癥篩查非常復(fù)雜,它的數(shù)據(jù)就是多模態(tài),分子、血液的影像比文本復(fù)雜很多。

      智能涌現(xiàn):做有挑戰(zhàn)性的事,這樣的研究風(fēng)格是你一以貫之的嗎?還是創(chuàng)業(yè)后才有的?

      楊紅霞:我一直這樣。

      比如最早在阿里的時(shí)候,我做的是推薦系統(tǒng),這是互聯(lián)網(wǎng)最核心的應(yīng)用。但當(dāng)時(shí)我主動(dòng)選擇去做大模型,相當(dāng)于放棄了推薦系統(tǒng)這個(gè)最有技術(shù)熱度、最火的應(yīng)用,去做一個(gè)當(dāng)時(shí)還沒獲得普遍認(rèn)可的技術(shù)。

      做推薦系統(tǒng)的時(shí)候,我們中間還測試過不少方向。比如當(dāng)時(shí) Graph Neural Network(圖神經(jīng)網(wǎng)絡(luò))火過一段時(shí)間,我們投入了不少人力、物力去進(jìn)行研發(fā),包括周暢、林俊旸,大家都在做這件事。

      但我們發(fā)現(xiàn)圖神經(jīng)網(wǎng)絡(luò)不好用,就果斷放棄了。后來大家又一起去做了大模型。所以我們可以非常開放和謙虛地接受技術(shù)上的挑戰(zhàn)和新方向。

      智能涌現(xiàn):從大廠到創(chuàng)業(yè),你會(huì)感受到資源的落差嗎?團(tuán)隊(duì)會(huì)怎么分配有限的資源。

      楊紅霞:我們肯定不能像大廠那樣(投入)。但說實(shí)話,今天大廠有多少資源是被完全利用的?真正能拿到手的技術(shù)研發(fā)資源,可能遠(yuǎn)小于你的想象。

      雖然現(xiàn)在資源有限,但我們提倡的就是低資源的模型訓(xùn)練,所以也不需要那么多資源。一旦資源受限,那就充分發(fā)揮你的技術(shù)能力

      智能涌現(xiàn):提高團(tuán)隊(duì)資源利用率的核心是什么?

      楊紅霞:判斷正確的方向。

      我發(fā)現(xiàn)谷歌在技術(shù)探索上,更傾向于給予團(tuán)隊(duì)和個(gè)人充分的自主空間,支持大家嘗試不同的方向。不過這種模式下,資源可能會(huì)相對(duì)分散,導(dǎo)致部分方向難以形成足夠的突破力度。

      而 OpenAI 的思路不太一樣,他們當(dāng)時(shí)聚焦于 "next token prediction" 這一個(gè)核心方向,這讓我覺得,如果能有核心技術(shù)人員精準(zhǔn)把控方向,團(tuán)隊(duì)齊心協(xié)力聚焦一處,往往能提升成功的概率。

      智能涌現(xiàn):公司在研究或商業(yè)上的競爭對(duì)手是誰?你之前提到了 Sanaka AI 和 TML。

      楊紅霞:我和同學(xué)們說,我們從來不是盯住某一家公司,而是永遠(yuǎn)盯住我們關(guān)心的領(lǐng)域中最好的發(fā)布。比如我們做醫(yī)療,目前谷歌的 MedGemma 現(xiàn)在是領(lǐng)域中最好的,那我們就要用更小的尺寸更低的資源做得更好。

      比起商業(yè)化競爭,我們更關(guān)注技術(shù)本身,在每一點(diǎn)上做到極致。實(shí)話講,我還是希望更純粹一點(diǎn)。

      智能涌現(xiàn):去中心化、模型融合路線上已經(jīng)有了 Sakana AI,你還有哪些研究的空間?

      楊紅霞:Llion Jones 是做 evolutionary algorithm(遺傳演化算法) 出身的,這一算法學(xué)習(xí)的效率會(huì)比較高一些,但它有個(gè)強(qiáng)要求,就是所謂的 model merging,必須基于同構(gòu)的模型。

      比方說 model merging 的模型必須都基于 Llama 3.2 finetune(微調(diào))得到,但 Llama、DeepSeek、千問,這些異構(gòu)的模型無法實(shí)現(xiàn)融合。

      看到這些成果后,我們也覺得異構(gòu)模型的融合一定是一條可以探索的路。所以這是我們在2024年7月正式開始創(chuàng)業(yè)的契機(jī)。

      △ 模型融合的Scaling Law。圖為對(duì)不同融合方法和不同融合的模型個(gè)數(shù)上進(jìn)行了大規(guī)模實(shí)驗(yàn)驗(yàn)證。圖源:企業(yè)供圖

      智能涌現(xiàn):要實(shí)現(xiàn)異構(gòu)的模型融合,難點(diǎn)有哪些?

      楊紅霞:難點(diǎn)挺多的。去中心化完全沒有可以抄作業(yè)的對(duì)象,不像中心化,最開始都是從 GPT-3 開源開始抄。Sanaka AI 最開始有一些發(fā)布,我們都去嘗試了,發(fā)現(xiàn)并不完全有效。

      如今模型在專業(yè)領(lǐng)域的提升,可以認(rèn)為是后訓(xùn)練,比如 finetune(微調(diào))和強(qiáng)化學(xué)習(xí),可以簡單理解為只要調(diào)整一個(gè)函數(shù)。

      但多個(gè)模型的融合,意味著你要兼顧多個(gè)函數(shù), 而且每個(gè)模型的參數(shù)量是巨大的,而且要考慮到模型之間的沖突。在理論上要難得多。

      所以我們需要突破很多點(diǎn)。比如范式的定義。之前沒人定義過 model fusion 的 SFT(監(jiān)督微調(diào))和強(qiáng)化學(xué)習(xí)該怎么做,我們把它定義出來了。

      一般情況下,大家做 SFT 是采取Cross Entropy(交叉熵?fù)p失函數(shù)),我們采用的是 Graph-based Loss(基于圖的損失函數(shù))。

      前者更多地是實(shí)現(xiàn)了 token 層面的對(duì)齊,但我們不僅實(shí)現(xiàn)了token層面的對(duì)齊,同時(shí)通過圖,加入全局語義依賴關(guān)系的對(duì)齊。

      類似于這樣一步一步的突破,疊加起來實(shí)現(xiàn)了模型能力的提升。

      智能涌現(xiàn):什么時(shí)候在技術(shù)上才有突破?

      楊紅霞:大概在今年 2 月份,我們的 model fusion(模型融合)第一次發(fā)布,實(shí)現(xiàn)了四個(gè)異構(gòu)模型的融合。

      這四個(gè)模型在 18 個(gè)推理 Benchmark(包括解數(shù)學(xué)題、寫代碼、指令遵從、語義推理等)上平均得分 75-77 分。

      我們上來就選擇了一條相對(duì)更困難的路線。Sakana AI 也好,TML 也好,都選了同構(gòu)的路線。同構(gòu)的模型融合比較好做,但我們選擇了異構(gòu)的。

      2 月份我們發(fā)布異構(gòu)模型融合時(shí),性能評(píng)測從 77 分提高到了 79 分。雖然只有 2 分的提升,但還是讓我們看到了一些曙光。

      我們目前結(jié)合 Graph-Based loss 以及強(qiáng)化學(xué)習(xí)的泛化性,最高得分已經(jīng)逼近 88 分,我覺得這是質(zhì)的突破。

      智能涌現(xiàn):創(chuàng)業(yè)后的技術(shù)研發(fā)節(jié)奏,和大廠相比有改變嗎?

      楊紅霞:我有個(gè)信念,最優(yōu)秀的團(tuán)隊(duì)是不需要天天拿著小鞭子在后面看著。

      當(dāng)你把一群特別優(yōu)秀的人放在一起,他們之間的相互趕超加上超強(qiáng)的自驅(qū)力會(huì)自然的推著他們持續(xù)向前,完全不用擔(dān)心研發(fā)節(jié)奏。

      但創(chuàng)業(yè)后還是要給團(tuán)隊(duì)一些重大發(fā)布時(shí)間節(jié)點(diǎn)的規(guī)定的。實(shí)話講,這個(gè)階段大模型賽道上大家都在集中發(fā)力,所以時(shí)效性是一件特別重要的事。

      智能涌現(xiàn):你怎么規(guī)劃發(fā)布的時(shí)效?

      楊紅霞:畢竟我們團(tuán)隊(duì)中有很多博士生,所以技術(shù)成果的發(fā)布,我們一般會(huì)關(guān)注最頂尖的幾個(gè)人工智能會(huì)議。

      同學(xué)們?nèi)〉昧擞行У难芯砍晒笤夙樖职颜撐膶懸粚?,并發(fā)布到社區(qū),大家都覺得挺好。

      但現(xiàn)在人工智能的會(huì)太多了,有些最近質(zhì)量下滑得也很厲害。所以目前我們只看三個(gè)會(huì):

      一個(gè)是 NeurIPS,每年大概 5 月投稿;第二個(gè)是 ICLR,每年 9 月投稿;第三個(gè)是 ICML,每年大概 1 月投稿。

      當(dāng)然不排除期間有重大發(fā)布。比如我們的醫(yī)療模型 InfiMed-RL 用 7B 的參數(shù)規(guī)模超過了 GPT-5,這個(gè)成果肯定是馬上就要發(fā)的,不需要等。

      智能涌現(xiàn):對(duì)應(yīng)用層的公司來說,我們常聽到快比完美更重要。對(duì)你而言,快和完美怎么平衡?

      楊紅霞:我們在追求時(shí)間點(diǎn)的同時(shí),對(duì)結(jié)果質(zhì)量的要求是相當(dāng)高的。

      我一直和大家講,所有發(fā)出去的成果代表我們的技術(shù)聲譽(yù)。聲譽(yù)和口碑是一步步積累的。同時(shí)但凡有一次發(fā)布結(jié)果不盡如人意,大家馬上就會(huì)產(chǎn)生質(zhì)疑。

      所以哪怕不發(fā),我也會(huì)要求成果的質(zhì)量。

      如果沒有耐心,錢很快會(huì)燒完

      智能涌現(xiàn):從大廠的研究員到大學(xué)教授和創(chuàng)業(yè)者,你需要適應(yīng)不同的身份嗎?

      楊紅霞:其實(shí)不太需要,因?yàn)槲易约罕容^純粹,我一直把注意力分配在技術(shù)上,說白了在哪里無所謂。

      但在創(chuàng)業(yè)過程中,我找到了一群特別牛的做技術(shù)的同學(xué)們。大家對(duì)去中心化的認(rèn)可度非常高,就一起干。

      智能涌現(xiàn):2024 年 5 月左右你從字節(jié)離職后,其中一個(gè)動(dòng)作是加入香港理工大學(xué)。這個(gè)決定是怎么做出的?

      楊紅霞:先說結(jié)論,大疆、商湯都是香港的大學(xué)孵化出來的,所以香港的大學(xué)有非常好的孵化基因。

      我參加了一個(gè)名叫 RAISe+(產(chǎn)學(xué)研1+計(jì)劃)的項(xiàng)目,就是香港區(qū)政府拿出 100 個(gè)億(元),給 100 個(gè)大學(xué)教授孵化項(xiàng)目。

      而且這部分資助并不占公司股份,只是為了更好的促進(jìn)產(chǎn)學(xué)研之間的轉(zhuǎn)化,相當(dāng)于"白給"你了,當(dāng)然你需要在 5 年左右的時(shí)間里 IPO。

      還有一個(gè)項(xiàng)目是香港數(shù)碼港超算中心的人工智能資助計(jì)劃,一般通過評(píng)審,在算力上就有 70% 的減免折扣。我們是有史以來唯一獲得 90% 減免折扣的團(tuán)隊(duì)。

      港理工在這方面就更極致。我們學(xué)校在各個(gè)城市不是成立分校,而是成立了研究院,跟本地政府一起把教授的成果在本地進(jìn)行轉(zhuǎn)化。

      加入港理工之前,我在學(xué)術(shù)界沒有待過一天。一般拿到正教授的,肯定要在學(xué)術(shù)界待很長時(shí)間。但當(dāng)時(shí)我都沒有面試,就直接拿到了港理工的正教授教職。

      當(dāng)時(shí)校長和我說,你不用面試,我們看好你的技術(shù)和影響力。這點(diǎn)很打動(dòng)我。

      △ 香港理工大學(xué)。圖源:視覺中國

      智能涌現(xiàn):受到數(shù)據(jù)、市場等資源的限制,還是很少有AI企業(yè)選擇在香港。

      楊紅霞:大模型在內(nèi)地發(fā)展得非常好,包括我自己原來在內(nèi)地有很多資源鏈接。

      但香港有自己比較獨(dú)到的優(yōu)勢,比如在教育上。香港面積不大,但有 8 所大學(xué),其中 5 所大學(xué)在全球的QS排名到了 100 以內(nèi)。

      全球任何一個(gè)城市都沒有這么高的人才密度。我們博士生的資質(zhì)是相當(dāng)強(qiáng)的。

      智能涌現(xiàn):籌備去中心化模型訓(xùn)練的創(chuàng)業(yè),需要哪一些資源?

      楊紅霞:一般生成式 AI 的初創(chuàng)公司,假如融到了 100 塊錢,80 塊錢要搞算力,20 塊錢要搞人。大家可能都是"二八原則"。

      我們對(duì)人的能力要求是非常高的,比如說能做 FP8 這件事的人不多,一般做算法的人還是在 PyTorch(Meta 開發(fā)的深度學(xué)習(xí)框架)層。

      GPT-4 發(fā)布的時(shí)候,OpenAI 只有 200 多人。我當(dāng)時(shí)把所有人的簡歷都看了一遍。

      現(xiàn)在 OpenAI 大概有 3000 多人,隨著團(tuán)隊(duì)規(guī)模擴(kuò)大,內(nèi)部管理面臨著相應(yīng)的挑戰(zhàn)。從市場反饋和實(shí)際使用體驗(yàn)來看,GPT-5 的發(fā)布表現(xiàn)尚未達(dá)到部分用戶的預(yù)期。

      所以核心技術(shù)的突破,人數(shù)根本不是關(guān)鍵,人的質(zhì)量才是關(guān)鍵。每一個(gè)進(jìn)我們團(tuán)隊(duì)的人,我們有非常嚴(yán)格的把控。

      所以我們現(xiàn)在也就接近 40 人。從技術(shù)研發(fā)的角度來講,是一個(gè)很好的人員規(guī)模。大概有一半的人背景非常強(qiáng),我覺得他們都可以拿到大廠的 special offer。

      智能涌現(xiàn):你對(duì)人才的要求是什么?

      楊紅霞:第一,代碼能力一定要超級(jí)強(qiáng),我們有非常嚴(yán)格的考核。很多時(shí)候候選人簡歷很漂亮,但代碼層可能直接就被我們篩掉了。

      第二,要有很強(qiáng)的好奇心。說白了相較于中心化的模型訓(xùn)練,去中心化是一個(gè)很新的技術(shù),還有很多東西值得探索。比如低比特很多東西你沒法照抄,你要自己做很多探索和研發(fā)。

      第三點(diǎn)特別重要,一定要有非常好的合作態(tài)度。我覺得大模型時(shí)代一定是集團(tuán)軍作戰(zhàn),絕不可能說現(xiàn)在有三四十人,每個(gè)人分頭去搞一點(diǎn)小事情,那我們永遠(yuǎn)不可能做特別大。

      至于有沒有特別好的大模型背景,其實(shí)都不要緊。

      智能涌現(xiàn):團(tuán)隊(duì)是怎么分工的?

      楊紅霞:我們有幾個(gè)大的技術(shù)方向:基礎(chǔ)模型、模型融合、應(yīng)用。比如像基礎(chǔ)模型部分,我們關(guān)注的是低比特,其中一撥人就關(guān)注大語言模型的預(yù)訓(xùn)練,一撥人關(guān)注在多模態(tài)模型的預(yù)訓(xùn)練。

      但每個(gè)方向我沒有劃分算法、AI Infra(AI 基礎(chǔ)架構(gòu))這些崗位,我對(duì)同學(xué)的要求是數(shù)據(jù)、算法、AI Infra 端到端都要做,他們要學(xué)會(huì)從不同角度來理解模型訓(xùn)練這件事。

      智能涌現(xiàn):你之前幫阿里和字節(jié)都搭建過模型團(tuán)隊(duì)。自己創(chuàng)業(yè)建立團(tuán)隊(duì)和在大廠大團(tuán)隊(duì)有什么不同嗎?

      楊紅霞:好像沒有什么不同。原來在大廠,我也經(jīng)歷過要做一個(gè)新方向,然后從 0 到 1 去搭建團(tuán)隊(duì)。招人的過程其實(shí)是一樣的。

      確實(shí)可能因?yàn)槲覀冎白龅墓ぷ饔斜容^好的影響力,所以招博士生也好、公司招人也好,找我們的人挺多的。

      我覺得創(chuàng)業(yè)公司的一個(gè)好處是靈活,在大廠各個(gè)團(tuán)隊(duì)的分工會(huì)限制得相對(duì)死一點(diǎn)。我們公司只要你學(xué)有余力,工作有余力,任何一個(gè)模塊你都可以去嘗試和探索。

      我們團(tuán)隊(duì)有原來在大廠的成員,但過去一年成長的速度遠(yuǎn)快于在大廠。因?yàn)樵诖髲S,他可能只能天天做微調(diào)的數(shù)據(jù)構(gòu)造,或者 benchmark 構(gòu)造工作。

      但在創(chuàng)業(yè)公司,端到端都可以做,任何人都可以做一些模型訓(xùn)練全鏈路中不同層面的事,原來這是想都不敢想的。

      智能涌現(xiàn):你怎么平衡學(xué)術(shù)研究和商業(yè)化落地?前者其實(shí)要求有耐心,但后者要求快。

      楊紅霞:從我們的角度來看,兩者是沒有區(qū)別的。把技術(shù)做到極致好,在商業(yè)化上才有極強(qiáng)的競爭力。

      我們的商業(yè)化在慢慢跑起來,感興趣的潛在客戶非常多,我們其實(shí)完全不愁訂單的。

      智能涌現(xiàn):InfiX.ai的商業(yè)模式是什么?

      楊紅霞我們還不想談過多商業(yè)化的事,希望能關(guān)注在技術(shù)本身。

      我們的商業(yè)化其實(shí)有 3 個(gè)模式,但有點(diǎn)涉及到商業(yè)機(jī)密了。要相信我們規(guī)劃得挺好!

      智能涌現(xiàn):作為一個(gè)創(chuàng)業(yè)團(tuán)隊(duì),你怎么平衡比較純粹地關(guān)注在技術(shù)上,和商業(yè)化的壓力?你有受到過來自外界在商業(yè)化層面上的壓力嗎?

      楊紅霞:我覺得大家一定要有耐心。如果沒有耐心,哪怕你很快起來、看上去很風(fēng)光,其實(shí)錢很快就燒完了,也沒有什么產(chǎn)出。

      OpenAI 2015 年就成立了,但中間有大概七八年,直到 2022 年 10 月 GPT-4 的發(fā)布,大家才停止了質(zhì)疑。之前 GPT-1、GPT-2、GPT-3 的發(fā)布,沒有任何的商業(yè)化。

      國內(nèi)我也很尊敬 DeepSeek,即使梁文鋒非常富有,他仍舊非常篤定,就要把技術(shù)做到極致。

      所以我們希望先將所有精力都放在技術(shù)上。如果你的技術(shù)是斷崖式的領(lǐng)先,就不用擔(dān)心商業(yè)化。

      歡迎交流!

      相關(guān)標(biāo)簽
      36氪

      36氪

      讓創(chuàng)業(yè)更簡單

      訂閱

      覺得文章不錯(cuò),微信掃描分享好友

      掃碼分享

      熱門推薦

      查看更多內(nèi)容