文|鄧詠儀
編輯|蘇建勛
4 月 28 日,AI 圈子內(nèi)的從業(yè)者們都在等待一件事:Qwen 3。
從中午開始,Qwen 3 即將發(fā)布的小道消息,已經(jīng)滿天飛舞。Qwen 團隊負責人林俊旸也在 X 上暗示:" 看看我們今晚能否完成 Qwen 3 的工作 "。
《智能涌現(xiàn)》所在的多個業(yè)內(nèi)討論群,充斥著不知真假的 Qwen 3 模型上傳截圖。AI 從業(yè)者瘋狂刷新 GitHub、HuggingFace 中的 Qwen 主頁,用 AI 生成 Qwen 3 上線海報、現(xiàn)場的模擬圖,刷屏各種表情包,狂歡直至深夜還未停歇。
Qwen 3 最終在凌晨 5 點上線。新一代的 Qwen 3 參數(shù)量僅為 DeepSeek-R1 的 1/3,首先是成本大幅下降,性能全面超越 R1、OpenAI-o1 等全球頂尖模型。
更重要的是,Qwen 3 搭載了 Claude 3.7 等頂尖模型的混合推理機制,將 " 快思考 " 與 " 慢思考 " 集成進同一個模型,大大減少了算力消耗。
Qwen 3 的開源一共涉及 8 款不同架構和尺寸的模型,從 0.6B 開始,大到 235B,適用于更多類型的移動端設備。除了模型之外,Qwen 還順帶推出了 Agents 的原生框架,支持 MCP 協(xié)議,有著一股 " 讓所有人都要用上 Agents" 的勁頭。
DeepSeek 爆火后的 1 月份,大年初一前夜,阿里急速上線了新模型 Qwen2.5-VL 和 Qwen2.5-Max,迅速秀了一把肌肉的同時,也賦予了阿里集團更濃郁的 "AI 味兒 "。受此情緒的烘托,阿里股價在春節(jié)前后階段大漲超 30%。
但比起這次的旗艦級模型 Qwen 3,上述模型都只是前奏。
對 Qwen 3 的萬眾期待,來自阿里在 AI 開源社區(qū)的盛譽——如今 Qwen 已經(jīng)是全球領先的開源模型系列,根據(jù)最新數(shù)據(jù),阿里通義已開源 200 余個模型,全球下載量超 3 億次,千問衍生模型數(shù)超 10 萬個,已超越此前的開源霸主 Llama。
如果說 DeepSeek 是一支精銳的小分隊,快速在技術上沖鋒;那么 Qwen 就是一個軍團,對大模型布局更早,也更積極做生態(tài),展現(xiàn)了更廣的覆蓋度和社區(qū)活力。
某種程度上,Qwen 也是大模型落地的產(chǎn)業(yè)風向標。
一個典型的例子是,在 DeepSeek R1 發(fā)布后,很多企業(yè)和個人想私有化部署 " 滿血版 "DeepSeek(671B),單單硬件成本就要上百萬元,落地成本很高。
阿里 Qwen 家族提供了更多的模型尺寸和類別,能幫助產(chǎn)業(yè)界更快驗證落地價值。用大白話來講,開發(fā)者不用自己裁剪模型,而是拿來即用,繼而快速落地。Qwen 13B 及以下的模型,可控性強,的確是如今 AI 應用領域最受歡迎的模型之一。
DeepSeek R1 成為開源歷史上的錨點,也深深影響了大模型競爭的走向。不同于此前模型廠商沉迷于刷 Benchmark、刷題,中國大廠們迎來必須要證明自己真正技術實力的周期。
Qwen 3 的發(fā)布,就是這樣一個時點。
滿血版成本為 1/3 個 DeepSeek R1,性能更強大
2024 年 9 月,阿里云在云棲大會上發(fā)布了上一代模型 Qwen 2.5。Qwen2.5 一次性開源了從 0.5B 至 72B 共 6 個尺寸的全系列模型,覆蓋從端側(cè)到云端的全場景需求,在代碼等多個類別中,都能達到 SOTA。
所有模型均允許商業(yè)使用與二次開發(fā),這也被開發(fā)者稱為 " 真正開放的 AI"。
市場風傳新一代的 Qwen 3 會推出基于 MoE 架構,開源更多尺寸,成本能做到比 DeepSeek 更低——這些猜測都被一一證實。
Qwen 3 一共開源了 8 個尺寸的模型,分別為:
兩款 MoE(混合專家)模型的權重(指模型的決策偏好):30B(300 億)、235B(2350 億)參數(shù)
六款 Dense(密集)模型:包括包括 0.6B(6 億)、1.7B(17 億)、4B(40 億)、8B(80 億)、14B(140 億)、32B(320 億)
每款模型均達到了同尺寸開源模型中的 SOTA(最佳性能)。
Qwen 3 延續(xù)了阿里開源的慷慨風格,依舊采用寬松的 Apache2.0 協(xié)議開源,首次支持 119 多種語言,全球開發(fā)者、研究機構和企業(yè),都免費下載模型并商用。
Qwen 3 的最大看點,一是成本大幅下降,同時性能還有大幅提高。
在 Qwen 3 的訓練中,阿里投入了令人驚訝的成本。Qwen 3 基于 36 萬億 token 進行預訓練,這是上一代模型 Qwen 2.5 的兩倍,在全球同等體量的頂尖模型中也能排到前列。
據(jù) Qwen 團隊公開的數(shù)據(jù),僅需 4 張 H20 即可部署 Qwen 3 滿血版,顯存占用僅為性能相近模型的三分之一。
成本降低,但性能反而更高了。
Qwen 的推理能力有非常顯著的提升。在數(shù)學、代碼生成和常識邏輯推理方面,Qwen 3 均超越先前的推理模型 QwQ(思考模式)和 Qwen2.5 模型(非思考模式)。
而在代碼、數(shù)學、通用能力等基準測試中,Qwen 3 也能與目前的頂尖模型 o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂尖模型。
另外一個核心亮點,是 Qwen 模型對智能體(Agents)的全面適配。
如果說,OpenAI 的 o1 模型一腳踢開了推理模型的大門,DeepSeek R1 的發(fā)布,讓所有用戶見識到了推理模型的魔力:模型有像人類一樣的 " 思考鏈 ",有思考順序,不斷驗證是否正確,推演出認為合適的答案。
但只有深度思考模式的話,弊端也很明顯。哪怕詢問簡單的天氣、今天穿什么,DeepSeek 會來回地糾結,自我設問,不斷驗證,經(jīng)歷少則數(shù)十秒的過度思考——如果 DeepSeek 沒有將模型的思考鏈展示給用戶,幾乎沒有用戶能夠忍受延遲成這樣的對話體驗。
阿里 CEO 吳泳銘曾在 2024 年 9 月的云棲大會表示:"AI 最大想象力不在手機屏幕,而是接管數(shù)字世界,改變物理世界 "。
智能體是通往這種愿景的重要路徑。所以,Qwen3 做成混合推理模型是相當關鍵的:在單一模型內(nèi),能無縫切換思考模式(用于復雜邏輯推理、數(shù)學和編碼)和非思考模式(用于高效的通用對話,比如詢問天氣、歷史知識等簡單信息搜索)。
推理與非推理任務的融合能力,實際上是讓模型:
能夠理解數(shù)字世界,更多強調(diào)的是非推理能力,如識別、檢索、分類,
能夠操作數(shù)字世界,更多強調(diào)的是推理能力,模型能自主規(guī)劃、決策、編程,典型應用如 Manus。
Qwen 3 的 API 可按需設置 " 思考預算 "(即預期最大深度思考的 tokens 數(shù)量),進行不同程度的思考,確保在各種場景下都能達到最佳性能。
在以前的機制中,用戶需要手動開關 " 深度思考 " 模式,一次對話中可能只能專注一種模式;但 Qwen 3 的新機制將這個選擇交給模型——模型能自動識別任務場景、選擇思考模式,減少了用戶對模型模式的干預成本,也會帶來更絲滑的產(chǎn)品體驗。
混合推理是目前比較難的技術方向,需要極其精細、創(chuàng)新的設計及訓練,難度遠超訓練純推理模型。模型要學習兩種不同的輸出分布,要做到兩個模式融合,且基本不影響任何一種模式下的效果。
熱門模型中,現(xiàn)在只有 Qwen 3、Claude3.7 以及 Gemini 2.5 Flash 可以做到較好的混合推理。
混合推理會整體提高模型使用的性價比,既提升了智能水平,又整體降低了算力資源消耗。比如,Gemini-2.5-Flash,推理和非推理模式下的價格相差約 6 倍。
而為了讓所有人都能馬上開發(fā) Agents,Qwen 團隊幾乎是提供了保姆式的工具箱:
Qwen 3 最近火爆的 MCP 協(xié)議,具備工具調(diào)用(Function Calling)能力,兩者都是 Agents 的主要框架
原生的 Qwen-Agent 框架,封裝了工具調(diào)用模板和工具調(diào)用解析器
API 服務也同步上線,企業(yè)可以直接通過通過阿里云百煉調(diào)用。
如果用裝修來舉例,這就像 Qwen 團隊把房子建好、完成硬裝,還給你提供了部分軟裝,開發(fā)者可以直接用上很多服務。這將大大降低編碼復雜性,開發(fā)門檻進一步下降,比如很多手機及電腦 Agent 操作等任務,就可以高效實現(xiàn)。
開源模型進入新一輪競爭周期
在 DeepSeek R1 獲得爆炸性聲量,成為全球開源模型的標桿之后,模型發(fā)布不再是單純的產(chǎn)品更新,而是代表公司戰(zhàn)略的關鍵走向。
Qwen 3 的發(fā)布正值 DeepSeek R1 后,開源社區(qū)的新一輪競爭已經(jīng)開始:2025 年 4 月,Meta 旗下的 Llama 4 在 4 月初正式發(fā)布,但因為效果不佳而遭諸多批評;而此前屢屢受挫的 AI 巨頭 Google,也借著 Gemini 2.5 pro,在開源領域扳回一城。
通用大模型層的能力仍在快速變遷中,很難有廠商能夠一直保持領先。在這個時點上,大模型團隊如何確定自己的發(fā)展主線,不只是個技術問題,更是對不同產(chǎn)品路線和商業(yè)判斷的策略問題。
在 Qwen 3 的發(fā)布上,可以看出一種更務實的開源策略。
比如,Qwen3 本次提出的模型尺寸,就比 Qwen 2.5 時的尺寸劃分就更細致。在資源受限的設備(如移動端、邊緣計算設備)上實現(xiàn)高效運行,Qwen 3 能同時保證一定的性能,滿足輕量級推理、對話等需求。
阿里仔細解釋了各個模型的適用場景:
最小參數(shù)模型(如 0.6B 及 1.7B):支持開發(fā)者用于 speculative decoding(推測性解碼) 作實驗模型用,對科研很友好;
4B 模型:推薦在手機端側(cè)應用
8B 模型:推薦在電腦或者汽車端側(cè)應用
14B 模型:適合作落地應用,普通開發(fā)者有幾張卡也都能玩轉(zhuǎn)起來
32B 模型:開發(fā)者和企業(yè)最喜歡的模型尺寸,支持企業(yè)大規(guī)模部署商用
而在旗艦模型上,Qwen 3 的模型規(guī)模和架構,也是一個更精煉,更容易落地應用的設計。
以 Qwen 旗艦版模型 235B(235 億參數(shù))和 DeepSeek R1 滿血版做直接對比:
Qwen 3 235B 采用中等規(guī)模 ( 235B ) 與高效激活設計 ( 22B 激活,約 9.4% ) ,只需 4 張 H20 GPU 即可部署;
DeepSeek-R1 追求超大規(guī)模 ( 671B ) 與稀疏激活 ( 37B 激活,約 5.5% ) ,推薦 16 卡 H20 配置,約 200 萬元。
從部署成本看,Qwen 3 是滿血版 R1 的 25%-35%,模型部署成本大降六到七成。
DeepSeek R1 之后,如果說大模型領域達成了什么共識,那便是——重新將資源、人力投入到模型層的技術突破,讓模型能力突破應用能力的上限。
如今大模型領域,重新將目光轉(zhuǎn)向模型能力的突破。
從 Qwen 發(fā)布主題的變化,也能看出如今技術主線的變遷:Qwen 2.5 發(fā)布時,主題還是《擴展大型語言模型的邊界》,而到了 Qwen 3,則是《思深,行速》,專注提高模型能力的應用性能,拉低落地門檻,而非單純擴大參數(shù)規(guī)模。
現(xiàn)在,通義千問 Qwen 在全球下載量超過 3 億,在 HuggingFace 社區(qū) 2024 年全球模型下載量中,Qwen 占比已經(jīng)超 30%。阿里云的模型開源策略,已經(jīng)走出另一條更清晰的道路:真正成為應用的土壤。