中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>

全天候科技昨天

清晨重磅！阿里發(fā)布并開(kāi)源 Qwen3，無(wú)縫集成思考模式、多語(yǔ)言、便于 Agent 調(diào)用

阿里巴巴周一發(fā)布并開(kāi)源通義千問(wèn) 3.0（Qwen3）系列模型，并稱其在數(shù)學(xué)和編程等多個(gè)方面均可與 DeepSeek 的性能相媲美。與其他主流模型相比，Qwen3 還顯著降低了部署成本。阿里表示，Qwen3 無(wú)縫集成兩種思考模式，支持 119 種語(yǔ)言，便于 Agent 調(diào)用。

性能媲美 DeepSeek R1、OpenAI o1，全部開(kāi)源

Qwen3 系列包括兩個(gè)專家混合 ( MoE ) 模型和另外六個(gè)模型。阿里巴巴表示，最新發(fā)型的旗艦?zāi)Ｐ?Qwen3-235B-A22B 在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測(cè)試中，與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級(jí)模型相比，表現(xiàn)出極具競(jìng)爭(zhēng)力。

此外，被稱為 " 專家混合 "（MoE，Mixture-of-Experts）模型的 Qwen3-30B-A3B 的激活參數(shù)數(shù)量是 QwQ-32B 的 10%，表現(xiàn)更勝一籌，甚至像 Qwen3-4B 這樣的小模型也能匹敵 Qwen2.5-72B-Instruct 的性能。這類系統(tǒng)模擬人類解決問(wèn)題的思維方式，將任務(wù)劃分為更小的數(shù)據(jù)集，類似于讓一組各有所長(zhǎng)的專家分別負(fù)責(zé)不同部分，從而提升整體效率。

同時(shí)，阿里巴巴還開(kāi)源了兩個(gè) MoE 模型的權(quán)重：擁有 2350 多億總參數(shù)和 220 多億激活參數(shù)的 Qwen3-235B-A22B，以及擁有約 300 億總參數(shù)和 30 億激活參數(shù)的小型 MoE 模型 Qwen3-30B-A3B。此外，六個(gè) Dense 模型也已開(kāi)源，包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B，均在 Apache 2.0 許可下開(kāi)源。

" 混合型 " 模型，兩種思考模式

阿里巴巴表示，Qwen 3 系列是 " 混合型 " 模型，既可以花時(shí)間 " 推理 " 以解決復(fù)雜問(wèn)題，也可以快速回答簡(jiǎn)單請(qǐng)求，分別叫做 " 思考模式 " 和 " 非思考模式 "。" 思考模式 " 中的推理能力使得模型能夠有效地進(jìn)行自我事實(shí)核查，類似于 OpenAI 的 o3 模型，但代價(jià)是推理過(guò)程中的延遲時(shí)間較高。

Qwen 團(tuán)隊(duì)在博客文章中寫道：

這種靈活性使用戶能夠根據(jù)具體任務(wù)控制模型進(jìn)行 " 思考 " 的程度。例如，復(fù)雜的問(wèn)題可以通過(guò)擴(kuò)展推理步驟來(lái)解決，而簡(jiǎn)單的問(wèn)題則可以直接快速作答，無(wú)需延遲。

至關(guān)重要的是，這兩種模式的結(jié)合大大增強(qiáng)了模型實(shí)現(xiàn)穩(wěn)定且高效的 " 思考預(yù)算 " 控制能力。如上文所述，Qwen3 展現(xiàn)出可擴(kuò)展且平滑的性能提升，這與分配的計(jì)算推理預(yù)算直接相關(guān)。

這樣的設(shè)計(jì)讓用戶能夠更輕松地為不同任務(wù)配置特定的預(yù)算，在成本效益和推理質(zhì)量之間實(shí)現(xiàn)更優(yōu)的平衡。

訓(xùn)練數(shù)據(jù)量是 Qwen2.5 的兩倍，便于 Agent 調(diào)用

阿里巴巴表示，Qwen3 系列支持 119 種語(yǔ)言，并基于近 36 萬(wàn)億個(gè) token（標(biāo)記）進(jìn)行訓(xùn)練，使用的數(shù)據(jù)量是 Qwen2.5 的兩倍。Token 是模型處理的基本數(shù)據(jù)單元，約 100 萬(wàn)個(gè) token 相當(dāng)于 75 萬(wàn)英文單詞。阿里巴巴稱，Qwen3 的訓(xùn)練數(shù)據(jù)包括教材、問(wèn)答對(duì)、代碼片段等多種內(nèi)容。

據(jù)介紹，Qwen3 預(yù)訓(xùn)練過(guò)程分為三個(gè)階段。在第一階段（S1），模型在超過(guò) 30 萬(wàn)億個(gè) token 上進(jìn)行了預(yù)訓(xùn)練，上下文長(zhǎng)度為 4K token。這一階段為模型提供了基本的語(yǔ)言技能和通用知識(shí)。

在第二階段（S2），訓(xùn)練則通過(guò)增加知識(shí)密集型數(shù)據(jù)（如 STEM、編程和推理任務(wù)）的比例來(lái)改進(jìn)數(shù)據(jù)集，隨后模型又在額外的 5 萬(wàn)億個(gè) token 上進(jìn)行了預(yù)訓(xùn)練。在最后階段則使用高質(zhì)量的長(zhǎng)上下文數(shù)據(jù)將上下文長(zhǎng)度擴(kuò)展到 32K token，確保模型能夠有效地處理更長(zhǎng)的輸入。

阿里巴巴表示，由于模型架構(gòu)的改進(jìn)、訓(xùn)練數(shù)據(jù)的增加以及更有效的訓(xùn)練方法，Qwen3 Dense 基礎(chǔ)模型的整體性能與參數(shù)更多的 Qwen2.5 基礎(chǔ)模型相當(dāng)。例如，Qwen3-1.7B/4B/8B/14B/32B-Base 分別與 Qwen2.5-3B/7B/14B/32B/72B-Base 表現(xiàn)相當(dāng)。特別是在 STEM、編碼和推理等領(lǐng)域，Qwen3 Dense 基礎(chǔ)模型的表現(xiàn)甚至超過(guò)了更大規(guī)模的 Qwen2.5 模型。對(duì)于 Qwen3 MoE 基礎(chǔ)模型，它們?cè)趦H使用 10% 激活參數(shù)的情況下達(dá)到了與 Qwen2.5 Dense 基礎(chǔ)模型相似的性能，顯著節(jié)省了訓(xùn)練和推理成本。

而在后訓(xùn)練階段，阿里使用多樣的的長(zhǎng)思維鏈數(shù)據(jù)對(duì)模型進(jìn)行了微調(diào)，涵蓋了數(shù)學(xué)、代碼、邏輯推理和 STEM 問(wèn)題等多種任務(wù)和領(lǐng)域，為模型配備基本的推理能力。然后通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)，利用基于規(guī)則的獎(jiǎng)勵(lì)來(lái)增強(qiáng)模型的探索和鉆研能力。

阿里巴巴表示，Qwen3 在調(diào)用工具（tool-calling）、執(zhí)行指令以及復(fù)制特定數(shù)據(jù)格式等能力方面表現(xiàn)出色，推薦用戶使用 Qwen-Agent 來(lái)充分發(fā)揮 Qwen3 的 Agent 能力。Qwen-Agent 內(nèi)部封裝了工具調(diào)用模板和工具調(diào)用解析器，大大降低了代碼復(fù)雜性。

除了提供下載版本外，Qwen3 還可以通過(guò) Fireworks AI、Hyperbolic 等云服務(wù)提供商使用。

目標(biāo)仍對(duì)準(zhǔn) AGI

OpenAI、谷歌和 Anthropic 近期也陸續(xù)推出了多款新模型。OpenAI 近日表示，也計(jì)劃在未來(lái)幾個(gè)月發(fā)布一款更加 " 開(kāi)放 " 的模型，模仿人類推理方式，這標(biāo)志著其策略出現(xiàn)轉(zhuǎn)變，此前 DeepSeek 和阿里巴巴已經(jīng)率先推出了開(kāi)源 AI 系統(tǒng)。

目前，阿里巴巴正以 Qwen 為核心，構(gòu)建其 AI 版圖。今年 2 月，首席執(zhí)行官吳泳銘表示，公司目前的 " 首要目標(biāo) " 是實(shí)現(xiàn)通用人工智能（AGI）——即打造具備人類智力水平的 AI 系統(tǒng)。

阿里表示，Qwen3 代表了該公司在通往通用人工智能（AGI）和超級(jí)人工智能（ASI）旅程中的一個(gè)重要里程碑。展望未來(lái)，阿里計(jì)劃從多個(gè)維度提升模型，包括優(yōu)化模型架構(gòu)和訓(xùn)練方法，以實(shí)現(xiàn)幾個(gè)關(guān)鍵目標(biāo)：擴(kuò)展數(shù)據(jù)規(guī)模、增加模型大小、延長(zhǎng)上下文長(zhǎng)度、拓寬模態(tài)范圍，并利用環(huán)境反饋推進(jìn)強(qiáng)化學(xué)習(xí)以進(jìn)行長(zhǎng)周期推理。

開(kāi)源社區(qū)振奮

阿里 Qwen3 的發(fā)布讓 AI 社區(qū)感到激動(dòng)，有網(wǎng)友獻(xiàn)上經(jīng)典 Meme：

有網(wǎng)友說(shuō)，

在我的測(cè)試中，235B 在高維張量運(yùn)算方面的表現(xiàn)相當(dāng)于 Sonnet。

這是一個(gè)非常出色的模型，

感謝你們。

有網(wǎng)友對(duì) Qwen3 贊不絕口：

如果不是親眼看到屏幕上實(shí)時(shí)生成的 tokens，我根本不會(huì)相信那些基準(zhǔn)測(cè)試結(jié)果。???? 簡(jiǎn)直像魔法一樣 ????

而開(kāi)源 AI 的支持者則更加興奮。有網(wǎng)友說(shuō)：

" 有了一個(gè)開(kāi)源 32B 大模型，性能跟 Gemini 2.5 Pro 不相上下。"

" 我們徹底殺回來(lái)了！"

網(wǎng)友感謝阿里積極推動(dòng)開(kāi)源：

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平臺(tái)

一起剪

ZAKER旗下免費(fèi)視頻剪輯工具

相關(guān)標(biāo)簽

阿里巴巴阿里人工智能

相關(guān)閱讀

金鋼科技獲數(shù)千萬(wàn)元融資，瞄準(zhǔn)機(jī)器人磁編碼器市場(chǎng)

36氪 04-15

最新評(píng)論

沒(méi)有更多評(píng)論了

全天候科技

提供專業(yè)快速完整的科技商業(yè)資訊

訂閱

覺(jué)得文章不錯(cuò)，微信掃描分享好友

掃碼分享

熱門推薦

查看更多內(nèi)容

Blockchain News