文 | 電廠,作者 | 董溫淑,編輯 | 高宇雷
Qwen 3 模型即將發(fā)布的消息,已經(jīng)流傳了一個(gè)月的時(shí)間;特別是最近一周內(nèi),坊間對 Qwen 3 的猜測不斷在 " 憋個(gè)大的 " 與 " 最終難產(chǎn) " 之間反復(fù)橫跳。
直到 4 月 29 日凌晨,這款備受關(guān)注的模型終于亮相,號稱全面超越 DeepSeek R1。
杭州一家中廠的算法從業(yè)者告訴「電廠」:" 近幾個(gè)月網(wǎng)上不少 DeepSeek R2 的泄露信息,有人說 R2 要在 5 月份發(fā)。Qwen 3(這個(gè)時(shí)間發(fā)布)肯定是想搶個(gè)先機(jī)。"
在一家國產(chǎn)大模型開放平臺工作的劉露則透露,其所在的團(tuán)隊(duì)提前不到 12 小時(shí)獲知 Qwen3 的發(fā)布消息,團(tuán)隊(duì)成員連夜完成了 Qwen 3 系列模型在該平臺的部署上線。
無論如何,Qwen 3 的亮相都意味著開源 AI 大模型的技術(shù)能力再次被刷新;與之相繼的,將是產(chǎn)業(yè)鏈下游應(yīng)用者迎來一次新的生態(tài)選擇。
「電廠」注意到,Qwen 3 發(fā)布僅 10 小時(shí),已經(jīng)有開發(fā)者發(fā)布了套殼 Qwen 3 系列模型的 ChatBot 類產(chǎn)品。
國內(nèi)首個(gè)混合推理模型,成本 / 性能超越 DeepSeek R1
根據(jù)阿里云通義千問團(tuán)隊(duì)官宣,Qwen3 系列開源了 8 個(gè)模型,其中包含 2 個(gè) MoE(混合專家)大模型和 6 個(gè) Dense(稠密)大模型。
本次 Qwen3 系列模型尤為值得關(guān)注的創(chuàng)新是該模型支持思考模式、非思考模式兩種運(yùn)行方式。
在思考模式下,模型會逐步推理,經(jīng)過深思熟慮后給出最終答案。這種方法適合需要深入思考的復(fù)雜問題;在非思考模式中,模型會提供快速、近乎即時(shí)的響應(yīng),適用于對速度要求高于深度的簡單問題。
換句話說,Qwen3 打破了 DeepSeek R1 等思維鏈模型慢思考的單一模式,而是為用戶賦予靈活選擇的權(quán)利。這也是如今全球大模型市場發(fā)展的重要方向之一。
今年 2 月份,由部分 OpenAI 前員工創(chuàng)辦的 Anthropic 在全球范圍內(nèi)率先發(fā)布了名為 Claude 3.7 Sonnet 的混合推理模型,被視為融合了 DeepSeek V3(適于通用任務(wù))與 R1(適于推理任務(wù))模型的各自優(yōu)勢。
這種混合模式引起了業(yè)界的廣泛關(guān)注。OpenAI 創(chuàng)始人 Sam Altman 就曾表示,OpenAI 接下來將研發(fā) " 它能夠知道什么時(shí)候應(yīng)該長時(shí)間思考,并且通常適用于廣泛任務(wù) " 的模型。而 Qwen3 是國內(nèi)首個(gè)混合推理模型。
性能及成本優(yōu)化方面,Qwen3 系列也表現(xiàn)驚人。
比如本次開源的兩個(gè) MoE 模型,權(quán)重分別為 Qwen3-235B-A22B,是一個(gè)擁有 2350 多億總參數(shù)和 220 多億激活參數(shù)的大模型;另一個(gè)為 Qwen3-30B-A3B,一個(gè)擁有約 300 億總參數(shù)和 30 億激活參數(shù)的小型 MoE 模型。
MoE(混合專家模型)混合包含多個(gè)專家網(wǎng)絡(luò),每個(gè)專家通常是一個(gè)子模型、也可以是神經(jīng)網(wǎng)絡(luò)的一個(gè)子模塊,擁有不同的能力或?qū)iL,能夠處理不同類型的輸入數(shù)據(jù)。在運(yùn)行時(shí),不同任務(wù)會被進(jìn)行分類、輸送到相應(yīng)的 " 專家 " 處進(jìn)行解決。
DeepSeek V3 與 R1 都屬于 MoE 模型。這種架構(gòu)的優(yōu)勢是其能夠,并且在解決任務(wù)時(shí)僅調(diào)動與之相應(yīng)的模塊、節(jié)省計(jì)算成本。這也是 "AI 界拼多多 "DeepSeek 提升性價(jià)比的殺手锏之一。作為與 Qwen3 的對比,DeepSeek V3 與 R1 總參數(shù)規(guī)模為 6710 億參數(shù),激活參數(shù)為 370 億。
性能方面,官方信息顯示,Qwen 旗艦?zāi)P?Qwen3-235B-A22B 在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測試中,與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級模型相比,均展現(xiàn)出優(yōu)勢。
小型 MoE 模型 Qwen3-30B-A3B ,相比 DeepSeek V3、GPT 4o、谷歌 Gemma3-27B-1T 等模型同樣表現(xiàn)優(yōu)異。
六個(gè)開源的 Dense 模型均適用于通用任務(wù)解決,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。
值得一提的是參數(shù)量極低的 Qwen3-4B 模型,也在不少任務(wù)中展現(xiàn)出來相比 GPT 4o 更為優(yōu)異的成績。
上述模型均在 Apache 2.0 許可下開源。這是一種較為寬松的許可證,允許代碼修改和再發(fā)布(作為開源或商業(yè)軟件)。
Qwen3 模型還支持 119 種語言和方言,并優(yōu)化了 Agent 和代碼能力、加強(qiáng)了對 MCP 的支持。
開源大模型 " 城頭變換大王旗 "
Qwen3 的發(fā)布,距離 DeepSeek R1 的亮相已過去了 3 個(gè)多月。
1 月 20 日,憑借比肩 OpenAI o1 的性能、低廉的成本,以及對大模型研發(fā)范式的改變,R1 一經(jīng)發(fā)布就榮膺開源大模型世界的 " 無冕之王 " 至今。
在此期間,包含科大訊飛(星火 X1)、百度(文心 X1)、OpenAI(o3 mini)、阿里(Qwen-QwQ-32B)、字節(jié)(豆包 1.5 深度思考)在內(nèi)的玩家紛紛下場推理模型,但至多是接近 R1 性能或?qū)崿F(xiàn)部分超越,未能真正挑動后者的位置。
在大模型的世界里,數(shù)月的時(shí)間已足夠一代新王換舊王。正是這樣的背景下,關(guān)注的目光落到了 Qwen3 身上。
與許多國內(nèi)玩家不同的是,早在 2024 年 8 月,阿里就公開站到了開源自研模型的大廠陣營之中。在這條最終被 DeepSeek 驗(yàn)證可行的市場之路上,Qwen 可以說已經(jīng)提前拿到了不少牌。
至今 Qwen 系列產(chǎn)品已在不少開源榜單中排名靠前。如據(jù)全球最大 AI 開源社區(qū) Huggingface 4 月 29 日顯示,在 audio-text-to-text 任務(wù)類目下,Qwen 的兩款模型熱度居前。
Huggingface 于 2 月 10 日發(fā)布的開源大模型榜單 "Open LLM Leaderboard" 也顯示,排名前十的開源大模型全部是基于 Qwen 開源模型二次訓(xùn)練的衍生模型。
在生態(tài)活躍度方面,Qwen 也處于全球前列。據(jù)官方數(shù)據(jù)顯示,從 2024 年下半年開始至 2025 年 1 月底,基于 Qwen 系列的衍生模型數(shù)量超過了美國 Llama 系列,超過 9 萬個(gè),已是全球最大的 AI 模型家族,超過了 Meta 旗下的 Llama 家族。
不過對比 Llama 系列,Qwen 系列開源模型在下載量方面與前者仍有差距。據(jù) Meta 首席執(zhí)行官 Zuck Burg 在今年 3 月份宣布,Llama 的下載量已達(dá)到 10 億次;而 Qwen 系列的下載量還在千萬級別。
在 Qwen3 發(fā)布這一天,周靖人接受了 " 晚點(diǎn) " 的采訪,他講道,判斷 " 開源生態(tài)跑出來了 " 的指標(biāo)主要有兩點(diǎn) " 一是看開發(fā)者的選擇,二是看性能指標(biāo) "。
本次隨著 Qwen3 的發(fā)布,這款新模型通過在性能指標(biāo)和成本方面超越 DeepSeek R1,以及創(chuàng)新的混合推理模式,登頂為全球最強(qiáng)大的開源大模型,又為 Qwen 增添了一張好牌。
但在這之后,還有更多的挑戰(zhàn)等待著它。接下來 DeepSeek R2 的亮相,也將為整個(gè)市場增添新的變數(shù)。
在貫徹 " 第一通吃(winner-takes-all)" 定律的開源市場,競爭遠(yuǎn)未到達(dá)終局、誰能成為最終的 "winner" 還充滿未知,無論是 DeepSeek,還是 Qwen 和 Llama,都仍需要為不下牌桌而持續(xù)努力。
不過值得欣慰的是,雖然戰(zhàn)程未半,至少當(dāng)下的開源大模型 " 桂冠 " 仍歸屬于國產(chǎn)玩家。
(注:文中劉露為化名)