日前,阿里云方面正式發(fā)布并開(kāi)源通義千問(wèn) Qwen3 系列模型,其中包括 Qwen3-235B-A22B 和 Qwen3-30B-A3B 兩款 MoE 模型,以及 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B 六款 Dense 模型。
據(jù)了解,Qwen3 系列每款模型均斬獲同尺寸開(kāi)源模型 SOTA(最佳性能)。其中,Qwen3-235B-A22B 總參數(shù)超 2350 億,激活參數(shù)超 220 億,在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測(cè)試中,與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等模型相比表現(xiàn)出極具競(jìng)爭(zhēng)力的結(jié)果。
同時(shí) Qwen3 的 Agent 能力也進(jìn)一步優(yōu)化。據(jù)了解,在評(píng)估模型 Agent 能力的 BFCL 評(píng)測(cè)中,Qwen3 創(chuàng)下 70.8 的新高,超越 Gemini-2.5-Pro 、o1 等頂尖模型,將大幅降低 Agent 調(diào)用工具的門(mén)檻。而且 Qwen3 原生支持 MCP 協(xié)議,并具備工具調(diào)用(function calling)能力,結(jié)合封裝了工具調(diào)用模板和工具調(diào)用解析器的 Qwen-Agent 框架,將大幅降低編碼復(fù)雜性,實(shí)現(xiàn)高效的手機(jī)及電腦 Agent 操作等任務(wù)。
值得注意的是,阿里云還為部署用戶(hù)提供了一種軟切換機(jī)制,允許用戶(hù)在 enable_thinking=True 時(shí)動(dòng)態(tài)控制模型的行為。具體而言,用戶(hù)可以在提示或系統(tǒng)消息中添加 /think 和 /no_think 來(lái)逐輪切換模型的思考模式,在多輪對(duì)話(huà)中模型就會(huì)遵循最近的指令。
目前,全球開(kāi)發(fā)者、研究機(jī)構(gòu)和企業(yè)均可免費(fèi)在魔搭社區(qū)、HuggingFace 等平臺(tái)下載模型并商用,也可通過(guò)阿里云百煉調(diào)用 Qwen3 的 API 服務(wù)。個(gè)人用戶(hù)則可通過(guò)通義 App 直接體驗(yàn) Qwen3,并且夸克也即將全線(xiàn)接入 Qwen3。
該公司還指出," 展望未來(lái),我們計(jì)劃從多個(gè)維度提升我們的模型,包括優(yōu)化模型架構(gòu)和訓(xùn)練方法……我們認(rèn)為,我們正從專(zhuān)注于訓(xùn)練模型的時(shí)代過(guò)渡到以訓(xùn)練 Agent 為中心的時(shí)代。我們的下一代迭代將為大家的工作和生活帶來(lái)有意義的進(jìn)步 "。
【本文圖片來(lái)自網(wǎng)絡(luò)】