" 過去兩年中國的大模型投資并不是投技術(shù),而是套著投技術(shù)的殼投商業(yè)模式。硅谷的投資人投 OpenAI 是投技術(shù)。" 一位投資人對 AI 科技評論表示。
商業(yè)模式驅(qū)動的投資核心是可預(yù)見的數(shù)字增長,而技術(shù)投資則相反:即便沒有明朗的商業(yè)模式,只要技術(shù)創(chuàng)新仍在不斷攀登新的高度,就足以押注。DeepSeek 揚名前,追隨 OpenAI 成為大模型的吸金石;DeepSeek 出圈后," 獨立創(chuàng)新 " 取代 " 步步跟隨 "、成為大模型的新主流。
在這一變化下,技術(shù)創(chuàng)新與投資開始返璞歸真、回歸本質(zhì)。一個直接的變化是融資,相比過去兩年的融資節(jié)奏,今年大模型的吸金熱度明顯下降。但截至 2025 年 6 月,國內(nèi)仍有兩家大模型公司官宣了新一輪的融資消息,一家是處于大模型第一梯隊的智譜 AI,另一家便是專注端側(cè) AI 的面壁智能。
裸泳的人退出競爭,裝備齊全的人正式登場。例如,DeepSeek 在云上千億級大模型的獨辟蹊徑,成為了百模大戰(zhàn)的終結(jié)者,讓所有比拼基礎(chǔ)模型的公司都不得不開始直面真正的技術(shù)創(chuàng)新。這說明大模型的吸金熱度雖然在下降,行業(yè)的發(fā)展卻正在朝著一個更健康的趨勢前進。
與 DeepSeek 一樣,在大模型基礎(chǔ)技術(shù)上持續(xù)創(chuàng)新的團隊也漸漸浮出水面,得到越來越多的關(guān)注。今年 5 月官宣數(shù)億元融資的面壁智能,不久前在智源大會上發(fā)布了其同時在端側(cè)上進行推理與架構(gòu)創(chuàng)新的新一代 " 小鋼炮 4.0",就向市場傳遞了一個信號:
AGI 的落地正在朝著云端兩側(cè)發(fā)展,并逐漸形成 DeepSeek 與面壁智能花開兩朵、各表一枝的局面。如果說 DeepSeek 的開源大模型是云上應(yīng)用的福音,那么面壁智能的 MiniCPM " 小鋼炮 " 系列便是終端智能的觸手。
隨著 AGI 基礎(chǔ)技術(shù)話題的不斷收斂,從數(shù)據(jù)、學(xué)習、架構(gòu)與推理上進行創(chuàng)新已成為各家的主要比拼路徑,而在架構(gòu)與推理上同時進行創(chuàng)新的團隊卻不多,DeepSeek 與面壁是國內(nèi)的極少數(shù),且一個在云、一個在端,又剛好錯開正面競爭、共同彌補了當前國產(chǎn)大模型落地的市場供給版圖。
小鋼炮證明了,在 DeepSeek 射程以外,AGI 發(fā)展依然存在豐富的可能性。但更值得關(guān)注的或許是這樣一個故事:一個持續(xù)迭代的端側(cè)模型,是如何始終從 AGI 的終局思考每一項技術(shù)創(chuàng)新的意義,不重復(fù)造輪子、并不斷為領(lǐng)域做出貢獻的。
只有真正向創(chuàng)新看齊的團隊,才勇于回答一個簡單卻宏大的問題:AGI 的終局真正需要什么?
01 AGI 四象限的 " 半壁江山 "
從 2020 年 GPT-3 到 2022 年底的 ChatGPT,再到大模型徹底狂飆兩年后的今天,我們可以看到,現(xiàn)階段 AGI 技術(shù)的創(chuàng)新維度已經(jīng)大致收斂至四個大的板塊:
數(shù)據(jù)、學(xué)習、推理與架構(gòu)。
在 Scaling Law 式微、范式創(chuàng)新乏力的今天,前兩者正在變得 " 公平 "、幾乎可以為所有團隊所掌握。一方面,數(shù)據(jù)維度的標準化包括大規(guī)模網(wǎng)絡(luò)爬取、多模態(tài)數(shù)據(jù)融合、高質(zhì)量數(shù)據(jù)篩選等技術(shù)已相對成熟,而開源數(shù)據(jù)集的快速發(fā)展,讓數(shù)據(jù)集獲取規(guī)模不斷向著 " 窮盡 " 互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模的天花板靠攏。另一方面,訓(xùn)練大模型、提高模型學(xué)習能力的基礎(chǔ)方法論已經(jīng)變得更加透明,不再是高閣秘密。
相比之下,推理和架構(gòu)由于起步較晚、難度更高,幾乎成為了模型智能增長的 " 下半場 ",是各個團隊之間拉開差距的核心分水嶺。與此同時,二者的性能又是相伴相生的。
Transformer 架構(gòu)仍是主流,但業(yè)內(nèi)一直討論其不能支撐大家所想象中的終局 AGI 模型,因此架構(gòu)的創(chuàng)新至關(guān)重要。以今年以來備受行業(yè)關(guān)注的稀疏注意力架構(gòu)為例,早在 2020 年,包括 OpenAI 在內(nèi)的許多研究機構(gòu)就提出了 " 稀疏注意力 " 機制,以此來彌補 Transformer 架構(gòu)的缺陷,但相關(guān)研究一直不順暢,原因是動態(tài)稀疏注意力的底層算子要求高,速度很難提升。
對于算力條件有限的終端硬件來說,如果不從架構(gòu)上進行改進,硬件層面便難以對注意力機制進行加速,稀疏注意力便很難真正落地實現(xiàn)。
過去半年內(nèi),國內(nèi)大模型團隊圍繞架構(gòu)創(chuàng)新也進行了不斷的創(chuàng)新。例如,DeepSeek、月之暗面分別提出了 NSA 和 MoBA 架構(gòu)的塊狀稀疏注意力方案,MiniMax 提出了 Lightning Attention 的線性稀疏注意力方案等。其本質(zhì)都是通過架構(gòu)創(chuàng)新,從而最大化加速底層架構(gòu)對 token 的計算能力,從而達到模型軟硬結(jié)合的最優(yōu)解。
不過這些創(chuàng)新都是跑在云上的千億級大模型成功創(chuàng)新,其在端側(cè)場景則未必適用。
以 NSA 架構(gòu)為例,其整個架構(gòu)主要服務(wù)云端大模型場景,對不同算力平臺的兼容性有限。其采用的分層動態(tài)模式,在端側(cè)靈活性稍遜的計算場景中,也顯得優(yōu)勢不足。在實測中,NSA 架構(gòu)雖然在長文本處理中有很好的性能表現(xiàn),但在短文本方面卻會顯得相對遲鈍。
而在 MoBA 架構(gòu)中,大量的專家模塊的通信要求,在端側(cè)場景中會帶來較高的塊間通信開銷。尤其在端側(cè)內(nèi)存有限的情況下,會出現(xiàn)非連續(xù)的內(nèi)存訪問,進一步降低模型的運行效率。
而此次面壁發(fā)布的 MiniCPM 4.0 首次集成了 InfLLM v2 稀疏注意力結(jié)構(gòu),便是針對端側(cè)場景做了大量的針對性優(yōu)化,從而大幅提升了其在端側(cè)的效率能力。
首先,InfLLM v2 是一個針對端側(cè)場景優(yōu)化的注意力結(jié)構(gòu),這讓其天然有良好的端側(cè)適應(yīng)能力。
相比于云端大模型注意力機制對內(nèi)存的高占用現(xiàn)狀,面壁團隊又大幅降低了 KV 緩存。據(jù)面壁披露,在 128K 長文本場景下,MiniCPM 4.0-8B 相較于 Qwen3-8B 僅需 1/4 的緩存存儲空間,從而大幅提升了整個模型在端側(cè)場景的通信與計算效率。
而通過重寫底層算子,再與 ArkInfer 等成熟的硬件底層工具結(jié)合,讓 InfLLM v2 可以在端側(cè)硬件中發(fā)布最大的價值。
值得一提的是,這是除了 DeepSeek 以外,第二個有能力在硬件層面進行軟硬一體優(yōu)化的團隊。
此外,相比于此前的 InfLLM v1,v2 將無訓(xùn)練的注意力架構(gòu)方式,升級成為了 " 可訓(xùn)練 " 稀疏注意力架構(gòu),進一步提升在實際使用場景中的效率。
例如,通過訓(xùn)練,當 v2 在處理 128K 長文本時,每個詞元僅需與 不足 5% 的其他詞元 進行相關(guān)性計算。這意味著相比行業(yè)普遍的 40%-50% 稀疏度,面壁將端側(cè)的稀疏度降低到 1/10,約為 5% 的稀疏度。
5% 其實已經(jīng)與人腦的稀疏激活比例相當。某種意義上來說,人腦的運作接近一個稀疏的端側(cè)模型,而平均每次任務(wù)激活的神經(jīng)元也不到 5%。這給面壁的研究人員在端側(cè)研發(fā)進展中提供了很好的范本——如何在有限計算資源的情況下達到效率最優(yōu)。
一般而言,層數(shù)越多意味著模型越復(fù)雜,越具備全局能力和高階語義的識別能力。但與之相對應(yīng)的,則是更多的能耗和效率損失。以云端大模型為例,GPT-3 和 GPT-4 的層數(shù)分別為 96 層和 120 層,而 DeepSeek V3 和 R1 均只有 61 層,巨大的層數(shù)差異也決定 DeepSeek 在模型效率方面具備了壓倒性的領(lǐng)先優(yōu)勢。
面壁此次發(fā)布的 MiniCPM 4.0 也在層數(shù)上做了優(yōu)化,在保持能力領(lǐng)先的同時,縮減了層數(shù)。MiniCPM 3.0-4B 的層數(shù)達到了 62 層,而此次 MiniCPM4.0-8B 僅為 32 層、同期 Qwen 的同級別模型為 36 層。
根據(jù)面壁方面表示,架構(gòu)上的深度優(yōu)化讓 MiniCPM 4.0 從底層擁有了更強的效率優(yōu)勢。
02 小鋼炮 4.0 的想象力
6 月 6 日,面壁發(fā)布了小鋼炮系列大模型 MiniCPM 4.0,官方將其稱作:" 史上最具想象力 " 的小鋼炮系列。因為除了架構(gòu)層面的優(yōu)化外,MiniCPM 4.0 幾乎在數(shù)據(jù)、學(xué)習、推理與架構(gòu)四個不同的側(cè)面,都進行了不同程度的優(yōu)化。
從數(shù)據(jù)上來看,整個 MiniCPM 4.0 此次發(fā)布的兩個不同規(guī)模的模型,8B 和 0.5B,兩個大模型均繼續(xù)衛(wèi)冕同級 SOTA 的領(lǐng)先地位。
引用面壁官方的介紹是:" 在系統(tǒng)級稀疏創(chuàng)新的支持下,小鋼炮 4.0 與過去產(chǎn)品相比,在極限情況下實現(xiàn)了 220 倍、常規(guī) 5 倍的速度提升。"
AI 大模型領(lǐng)域是一個復(fù)雜的 " 動力生態(tài) ",不同的玩家想要尋求的身位則不盡相同。有些模型(如 OpenAI 的 "GPT-5"、DeepSeek 的 "V4"),其目標或許是成為法拉利這樣的全球動力天花板;有些方案則像卡羅拉,樸實但靠譜,力圖成為全球銷量最高的通用產(chǎn)品。
而面壁的小鋼炮系列,或許更像是 MiniCooper:小巧、精致,致力于用最合適的馬力達到最好的駕駛體驗——它對自己的要求是有性格的,性能強大,小野,拒絕無趣。
如果說 InfLLM 這樣的架構(gòu)升級是一輛汽車底盤,那么從從底盤和變速箱,到車身和動力系統(tǒng),面壁幾乎全面升級了小鋼炮。
例如,面壁團隊采用了創(chuàng)新的 " 稀疏注意力 " 模式,即讓模型能夠根據(jù)任務(wù)特征自動切換注意力模式。這其實就像汽車的兩檔 " 變速箱 ",讓汽車可以適合更加復(fù)雜的 " 端側(cè)路況 "。
在處理高難度的長本文、深度思考任務(wù)時,啟用稀疏注意力以降低計算復(fù)雜度,而在短文本場景下切換至稠密注意力以確保精度與速度,實現(xiàn)了長、短文本切換的高效響應(yīng)。這種「高效雙頻換擋」機制,類似混合稀疏注意力的模式設(shè)計,讓 MiniCPM4.0 能夠擁有靈活的能力。
其中 FR-Spec 輕量投機采樣類似于小模型給大模型當 " 實習生 ",并給小模型進行詞表減負、計算加速。通過創(chuàng)新的詞表裁剪策略,讓小模型專注于高頻基礎(chǔ)詞匯的草稿生成,避免在低頻高難度詞匯上浪費算力,再由大模型進行驗證和糾正。僅 CPM.cu 框架讓模型實現(xiàn)了 5 倍的速度提升。
據(jù)面壁團隊介紹,通過 ArkInfer 的支持,MiniCPM4.0 能夠支持多種平臺,如聯(lián)發(fā)科、英偉達、高通和瑞芯微等平臺各自擁有原生的推理框架(例如,NeuroPilot、Genie、RK-LLM、TensorRT-LLM,以及用于 CPU 的 llama.cpp)等,ArkInfer 都能將這些框架無縫集成。
除了軟硬一體外,底層硬件編譯與優(yōu)化能力、高質(zhì)量對齊數(shù)據(jù)與訓(xùn)練策略的優(yōu)化,則像是一輛汽車的 " 產(chǎn)線 ",其中的每一個細節(jié)都決定了產(chǎn)品的整體性能。
以底層硬件編譯與優(yōu)化能力為例,除了 BitCPM 與 ArkInfer 已經(jīng)展示出 " 軟硬一體 " 優(yōu)化能力外,MiniCPM 4.0 采用了 Chunk-wise Rollout 策略,將分塊式強化學(xué)習引入通過優(yōu)化 GPU 利用率和最小化計算資源浪費,顯著提升了 GPU 利用率并降低了計算機資源浪費。
如 Ultra-FineWeb,后者通過高知識密度數(shù)據(jù)篩選系統(tǒng)建立了嚴格的準入機制,實現(xiàn) 90% 的驗證成本下降。再結(jié)合輕量化的 FastText 工具進行大規(guī)模數(shù)據(jù)質(zhì)檢,使得 MiniCPM 4.0 在處理 15 萬億 token 數(shù)據(jù)僅需 1000 小時 CPU 時間。
此外,UltraChat-v2 合成了包含數(shù)百億詞元的高質(zhì)量對齊數(shù)據(jù),在知識類、指令遵循、長文本、工具使用等關(guān)鍵能力上進行定向強化。在高質(zhì)量數(shù)據(jù)與高效訓(xùn)練策略的加持下,相比同尺寸開源模型,MiniCPM 4.0-8B 僅用 22% 的訓(xùn)練開銷,即可達到相同能力水平。
在訓(xùn)練策略方面,MiniCPM 4.0 應(yīng)用了迭代升級后的風洞 2.0 方案(Model Wind Tunnel v2)。
通過在 0.01B-0.5B 小模型上進行高效實驗,搜索最優(yōu)的超參數(shù)配置并遷移到大模型,相比此前的 1.0 版本,風洞 2.0 將配置搜索的實驗次數(shù)降低 50%。
正如面壁智能首席科學(xué)家劉知遠今年初對 ai 科技評論表示的那樣,在他看來,大模型 " 已經(jīng)找到了一種通用地從數(shù)據(jù)學(xué)習知識的方案 "," 已經(jīng)在邁向通用智能了。"
顯然,從 " 邁向通用智能 " 和 " 抵達通用智能 ",智能的生長總歸需要一個過程,而且它大概率是會沿著它技術(shù)效率的方向蔓延。
因為無論智能上限如何增長,效率與普惠永遠是一切人類技術(shù)演進后最終的歸宿,而端側(cè)探索或許將會成為其中必不可少的答案。
(作者微信:hai2023zi 添加請備注公司 - 崗位)
(雷峰網(wǎng))