中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>

鈦媒體 17分鐘前

GPT-5 為什么沒有帶來更多驚喜？

文 | 山上，作者 | 何簡，編輯 | 蔣澆

GPT-4 發(fā)布兩年半之后，OpenAI 終于發(fā)布了旗下最新模型 GPT-5。行業(yè)早已為此等待多時，山姆 · 阿爾特曼（Sam Altman）也持續(xù)半年對外預(yù)告，吊足公眾胃口。但這款旗艦?zāi)Ｐ蜕闲轮跏盏降姆答亝s不盡如人意。

GPT-4 發(fā)布時，同行們尚需花費半年乃至更長時間才能追趕上 OpenAI。但 GPT-5 沒有與主流模型拉開顯著差距。它的部分性能指標(biāo)甚至有所落后，在一些基準(zhǔn)測試中落后馬斯克的 Grok 4 以及剛剛發(fā)布的 Claude Opus 4.1，上下文長度也不及 Google 的 Gemini 2.5 Pro。

普通用戶對 GPT-5 的不滿聲音更強(qiáng)烈一些，他們并沒有感受到太多 GPT-5 相較于 GPT-4o 的性能升級，反而更加懷念熟悉的 GPT-4o。OpenAI 原本下架了舊模型，但在遭到用戶的強(qiáng)烈反對之后，OpenAI 不得不為 Plus 用戶重新上架了 GPT-4o 模型。

我們或許不得不面臨一個這樣的事實，即便強(qiáng)如 OpenAI，也不得不面臨 Scaling laws（縮放定律）的局限。模型規(guī)模的持續(xù)擴(kuò)張已經(jīng)不再像過去那樣帶來成比例的性能躍遷，迭代周期難免放緩。

從 GPT-4 到 GPT-5 間隔了 29 個月，但這一次沒有出現(xiàn) GPT-3 到 GPT-4 時的那種跨越式提升。過去一年，OpenAI 維持著平均兩個月發(fā)布一款細(xì)分模型的節(jié)奏，用令人眼花繚亂的型號填補(bǔ)模型代際更新的真空期，強(qiáng)調(diào)推理的 o 系列、更小的 mini 型號、更強(qiáng)性能的 Pro 版本。

和最新發(fā)布的 GPT-5 強(qiáng)調(diào)可靠性和易用性一樣，這些更新都是在性能增長變得越來越昂貴和稀缺背景下的工程創(chuàng)新。它當(dāng)然變得更好用、更可靠，但也越來越缺少驚喜了。

好在用戶也并不總是需要這么強(qiáng)勁的模型。事實上更多普通用戶使用大模型僅僅只是完成一些基礎(chǔ)的問答，或者僅僅將大模型作為一個情感伙伴。

ChatGPT 是有史以來用戶數(shù)破億最快的應(yīng)用，現(xiàn)在它的周活躍用戶已經(jīng)達(dá)到 7 億，全球有接近 1/10 的人口都是 ChatGPT 的用戶，但更多用戶只是使用免費的基礎(chǔ)模型。根據(jù) The Information 今年 4 月的報道，ChatGPT 的付費訂閱用戶約為 2000 萬。

GPT-5 目前已經(jīng)開放給所有用戶使用。打開 ChatGPT，更明顯的感知是對話界面變得多彩了，用戶現(xiàn)在可以自定義對話氣泡顏色——但紫色僅限 Plus 用戶使用，Pro 用戶能使用更尊貴的黑色?？偸强磕Ｐ湍芰^(qū)分用戶等級的 OpenAI，終于也學(xué)到了 QQ 會員的精髓。

ChatGPT 加入自定義色彩功能

OpenAI 沒有公布 GPT-5 的參數(shù)規(guī)模。山姆 · 阿爾特曼在發(fā)布會后接受 CNBC 采訪時表示，他們未來仍將會優(yōu)先考慮在訓(xùn)練和算力上的投入，并甘愿為此承受較長時間的虧損。

性能未拉開顯著差距，但仍是最全面的模型

馬斯克可能是 GPT-5 發(fā)布會召開時最興奮的那個人。發(fā)布會還沒結(jié)束，他就早早地在 X 上宣告 Grok-4 的勝利。

在 Humanity ’ s Last Exam 測試中，GPT-5 Pro 在啟用工具后的準(zhǔn)確率為 42.0%，略低于 Grok 4 Heavy 模型的 44.4%。在 ARC-AGI-2 基準(zhǔn)測試中，Grok-4（Thinking）的成績?yōu)?16.0%，而 GPT-5（High）的得分只有 9.9%。

馬斯克專門在 X 上將二者的測試結(jié)果對比置頂，" 一句話：兩周前的 Grok 4 Heavy 比現(xiàn)在的 GPT-5 更聰明。" 他隨后發(fā)出預(yù)告，年底發(fā)布的 Grok 5 將更加強(qiáng)大。

xAI 聯(lián)合創(chuàng)始人吳宇懷同樣在 X 上表示，GPT-5 發(fā)布之后，xAI 團(tuán)隊感到非常自豪。" 盡管團(tuán)隊規(guī)模小的多，但我們在許多方面都處于領(lǐng)先地位。" 他稱 xAI 將在未來幾周發(fā)布更多新模型。

吳宇懷在 X 上的發(fā)言

比 GPT-5 早發(fā)布 2 天的 Claude Opus 4.1 也在部分測試中超越 GPT-5。在 SWE-bench Verified 測試中，啟用了深度思考模式的 GPT-5 得分為 74.9%，僅僅只比 Claude Opus 4.1 領(lǐng)先 0.4% ——這還是在 Claude Opus 4.1 未啟用深度思考的得分。

同樣未啟用深度思考，GPT-5 得分比 Claude Opus 4.1 低了接近 30%。或許是照顧到前司的面子，Anthropic 創(chuàng)始人達(dá)里奧 · 阿莫迪（Dario Amodei）未像馬斯克那樣對外強(qiáng)調(diào)這一領(lǐng)先。

Anthropic 在產(chǎn)品文檔中稱 SWE-bench Verified 測試未開啟深度思考

與性能有限的升級相比，GPT-5 的成本下降更為突出。GPT-5 的輸入成本僅為 1.25 美元 / 百萬 tokens，較 GPT-4o 下降約一半，nano 版本甚至低至 0.05 美元 / 百萬 tokens。

與之相比，Claude Opus 4.1 的輸入價格高達(dá) 15 美元 / 百萬 tokens，Gork 4 為 3 美元 / 百萬 tokens。即便其他模型在部分測試場景下有一定領(lǐng)先，但 GPT-5 仍然是目前你能在市面上找到的性價比最高、能力最全面的模型之一。

在中立評測平臺 LMArena 的最新 " 競技場 " 榜單中，GPT-5 依然位列所有測評項目第一，包括文本理解、編程、視覺等類別。"GPT-5 以史上最高分登上 LMArena 榜首。" LMArena 形容稱。

LMArena 榜單

OpenAI 在發(fā)布會上也明顯更重視行業(yè)落地應(yīng)用。發(fā)布會開場的性能介紹一筆帶過，更多的時間留給了 GPT-5 在編程、寫作和醫(yī)療等特定行業(yè)的升級，這也是人們使用 ChatGPT 最核心的三個場景。

尤其是編程領(lǐng)域，接近一個半小時的發(fā)布會中至少有一半時間都是關(guān)于編程。"GPT-5 是世界上最優(yōu)秀的編程模型。" OpenAI 總裁格雷格布羅克曼（Reg Brockman）說。

他們不僅邀請了 AI 編程創(chuàng)業(yè)公司 Cursor 的創(chuàng)始人兼 CEO 邁克爾特魯埃爾（Michael Truell ）專門上臺演示，還在官網(wǎng)中列舉了包括 Windsurf、JetBrains、Manus、Genspark 等 22 家 AI 領(lǐng)域公司高管的測試評價和贊賞。在 OpenAI 過去的產(chǎn)品更新中，這種做法并不常見。

GPT-5 可能是 OpenAI 在 B 端落地速度最快的模型之一。發(fā)布會尚未結(jié)束，微軟 CEO 薩提亞 · 納德拉就宣布微軟旗下多款產(chǎn)品已接入 GPT-5，包括 Cursor、Manus、Notion 在內(nèi)的多加公司也都宣布完成集成。

更可靠、更易用

山姆 · 阿爾特曼在 GPT-5 發(fā)布后強(qiáng)調(diào)，GPT-5 是他們迄今開發(fā)的最智能的模型，但他們核心追求的是現(xiàn)實世界的實用性、大規(guī)模的可訪問性 / 可負(fù)擔(dān)性。

按照 OpenAI 官網(wǎng)的定義，GPT-5 是一個更加智能、同時應(yīng)用更廣泛的模型。"GPT-5 不僅在基準(zhǔn)測試中超越前代模型、響應(yīng)速度更快，更重要的是對現(xiàn)實場景的提問更具實用價值。" 他們著重介紹了 GPT-5 在減少幻覺、提升指令遵循能力和降低模型諂媚性方面的進(jìn)展。

比如在啟用網(wǎng)絡(luò)搜索的情況下，GPT-5 出現(xiàn)事實錯誤的概率比 GPT-4o 降低了近一半。深度思考模式下，GPT-5 的事實錯誤率比 o3 低了約 80%。GPT-5 也會 " 更誠實 " 地面對用戶。它能更準(zhǔn)確地識別無法完成的任務(wù)，誠實地表達(dá)自己的能力局限。

GPT-5 與 o3、GPT-4o 模型對比

你或許遇到過不少推理模型一本正經(jīng)扯謊的情況，尤其是 DeepSeek-R1 ——它現(xiàn)在是國內(nèi)應(yīng)用最廣泛的推理模型，但它同時也是幻覺程度最高的模型之一。過去半年 DeepSeek 風(fēng)格的 AI 虛假文章幾乎已經(jīng)席卷了整個中文互聯(lián)網(wǎng)，甚至不少專業(yè)媒體未能幸免。

比如前段時間的 " 特朗普愛上白宮保潔 " 短劇狂攬 1.5 億美元的虛假文章，又或者香港浸會大學(xué)取消武大學(xué)生博士錄取資格的虛假消息。這些 AI 虛假新聞都曾被大量國內(nèi)媒體轉(zhuǎn)發(fā)報道。

部分原因在于過去大模型更多依賴單一的獎懲式訓(xùn)練（RLHF），在面對信息不足或無解問題時，這種機(jī)制容易讓模型傾向于迎合用戶預(yù)期，給出虛假內(nèi)容。

而 OpenAI 在 GPT-5 中加入了更精細(xì)的多維度優(yōu)化機(jī)制，比如增加了多目標(biāo)獎勵信號，即便模型無法得出答案，也會因為明確表達(dá)不確定性而獲得正向反饋。又或者在推理過程中加入思維鏈（CoT）監(jiān)控，實時識別并糾正虛構(gòu)或邏輯漏洞。

OpenAI 還為 GPT-5 加入了一種新的安全補(bǔ)全機(jī)制（Safe completions），模型在面臨危險問題是不再是干脆地回答或者拒絕。比如當(dāng)你想了解了解制作炸藥，GPT-4o 要么拒絕回答要么給你詳細(xì)步驟，而 GPT-5 則會告知出于安全它無法提供具體步驟，但它可以向你介紹 TNT 的歷史、化學(xué)性質(zhì)、工業(yè)用途。

和此前總是無腦選擇諂媚用戶的模型相比，GPT-5 也更中立一些，減少了過度迎合的傾向，更少使用表情符號，表達(dá)也更為含蓄和深思熟慮。" 它給人的感覺更像是與一位有著博士智商的貼心朋友聊天，而不是與 AI 對話。"OpenAI 在產(chǎn)品文檔中形容。但這一定程度上引發(fā)了習(xí)慣此前模型用戶的不滿，OpenAI 為 GPT-5 加入了 4 種自定義風(fēng)格的調(diào)整，并承諾此后將加入更多個性化的調(diào)整。

簡而言之，這些更新都是圍繞著模型的可靠性和易用性上做文章，讓用戶可以更放心地將 AI 引入到自己的工作流程中。OpenAI 的研究員 Christina Kim 在 X 上說，雖然 GPT-5 的性能達(dá)到業(yè)界頂尖水平，但它真正的價值在于實用性。" 它經(jīng)過更好的校準(zhǔn)，會說‘我不知道’，能夠區(qū)分事實與猜測，并且在你需要時可以提供引用來源來支持答案。"

對于更多用戶而言，GPT-5 更重要的升級是他們可以免費使用 ChatGPT 的推理能力。GPT-5 的成本更低、準(zhǔn)確率更高且速度更快，免費開放給所有用戶，訂閱用戶享有更高額度。這種普惠策略或許也限制了性能，OpenAI 原本計劃推出支持 100 萬上下文的版本，但最終因算力成本限制而放棄。

" 我們可以推出聰明得多的模型（我們也會這么做），但這次的模型可以讓超過十億人受益。" 山姆 · 阿爾特曼說，" 世界上的大多數(shù)人可能只是用過類似于 GPT-4o 的模型。"" 對于大多數(shù) ChatGPT 用戶來說，這是他們首次接觸推理能力。"OpenAI 副總裁尼克 · 特利（Nick Turley）說。

山姆在 X 上的發(fā)言

只是，在如此強(qiáng)調(diào)模型準(zhǔn)確率的發(fā)布會上，OpenAI 的多個圖表卻出現(xiàn)了低級錯誤。比如在對比 GPT-5 思考模式和 o3 的 " 代碼欺騙率 " 圖表上， 50% 柱狀圖長度卻不到 47.4% 的柱狀圖的一半。山姆后來解釋稱，數(shù)據(jù)本身是準(zhǔn)確的，只是直播時搞錯了圖表，" 工作人員熬夜加班非常疲憊，人為失誤在所難免。直播前最后幾小時需要協(xié)調(diào)太多環(huán)節(jié)了。"

OpenAI 發(fā)布會中的多個圖表錯誤

為什么普通用戶更喜愛舊模型？

專業(yè)開發(fā)者尤其是軟件從業(yè)人員對 GPT-5充滿了贊揚，多數(shù)普通用戶對這款旗艦?zāi)Ｐ偷母聟s滿是怨言。

和此前 OpenAI 通過多個不同模型提供服務(wù)不同，GPT-5 采用了統(tǒng)一模型策略，模型可在后臺自主判斷是否調(diào)用深度思考模式、自主選擇不同體量的模型回答。" 它旨在通過恰到好處的思考，為你提供完美答案。"OpenAI 的研究員在發(fā)布會中介紹。

但這一設(shè)計上線之初就出了問題，GPT-5 在多數(shù)場景下的反應(yīng)和回答都不如舊模型。山姆 · 阿爾特曼隨后解釋說，自動切換器（Autoswitcher）因為故障停擺了大半天，導(dǎo)致系統(tǒng)無法按需調(diào)用更高性能的推理模式。他稱故障已經(jīng)修復(fù)，并承諾將會對模型切換進(jìn)行調(diào)整和干預(yù)，讓用戶更方便地獲得正確的模型。

但《山上》實測對比當(dāng)前 GPT-5 以及 GPT-4o 模型，發(fā)現(xiàn)在部分簡單問題下 GPT-5 表現(xiàn)仍然不如 GPT-4o。比如詢問它 GPT-5 有哪幾個版本，GPT-5 無法給出準(zhǔn)確回答。社交平臺上也有大量用戶在山姆表示故障修復(fù)后，強(qiáng)調(diào) GPT-5 回答質(zhì)量不如 GPT-4o。

GPT-5 與 GPT-4o 回答對比（上圖為 GPT-5，下圖為 GPT-4o）

OpenAI 統(tǒng)一模型的初衷是為了減輕用戶的選擇煩惱。GPT-4 時代以來，OpenAI 一改此前只發(fā)布一款通用模型的做法，開始針對特定場景發(fā)布更多專業(yè)模型。產(chǎn)品命名上也有些混亂，推理模型從 OpenAI o1 到 o3，GPT-4 Turbo 之后卻是代表多模態(tài)的 GPT-4o。GPT-5 更新前，ChatGPT 上可供選擇的模型多達(dá) 5 款之多，客觀上確實增加了用戶的理解成本。

OpenAI 主要模型發(fā)布時間表 /GPT-5 制圖

" 這是第一次用戶無需在不同模型間做選擇，甚至不用考慮模型名稱。"OpenAI 的研究員 Elaine Ya Le 說，她在發(fā)布會中介紹了 GPT-5 的模型自主切換功能，是這一功能的團(tuán)隊負(fù)責(zé)人。

只是，多數(shù)普通用戶可能仍然沒辦法接受 OpenAI 統(tǒng)一模型的做法。GPT-5 目前已成為 ChatGPT 的默認(rèn)模型，但用戶無法在前端判斷 ChatGPT 調(diào)用的到底是 GPT-5 標(biāo)準(zhǔn)版還是 mini 版本。和此前多個模型供用戶選擇相比，GPT-5 統(tǒng)一模型后用戶實際可使用限額也降低了，尤其是取消了 mini 模型的推理模式。

OpenAI 后續(xù)稱他們將為用戶開發(fā) GPT-5 mini 的思考模式，以實現(xiàn)相同的總體推理限額。面向 Plus 用戶，GPT-5 最大只能支持 32k 的上下文長度也引發(fā)不少吐槽，Gemini、Claude 在相同價格下都支持更長的上下文長度。

X 平臺上針對 GPT-5 上下文窗口長度的吐槽

山姆不得不連發(fā)兩條推文安撫用戶，承諾將更清晰地向用戶展示哪個模型在回答問題、更便捷地切換深度思考以及將 Plus 用戶使用限額提高一倍至 160 條——但 OpenAI 在官網(wǎng)表示，這只是臨時性額度提升，近期將恢復(fù)至原有限額。

GPT-5 使用限額

這些都還只是工程上的優(yōu)化，通過一定時間迭代就能解決。OpenAI 另一個沒有預(yù)料到的問題可能是部分用戶對舊版模型的情感依賴。即便 GPT-5 的能力更強(qiáng)，但更多普通用戶仍然更習(xí)慣使用舊版模型。Reddit 平臺上的 ChatGPT 板塊中，有大量用戶分享他們對舊版模型的偏愛，他們甚至不在意模型能力是否升級，" 只要還是 4o 我就愿意一直付費。"

Reddit 社區(qū)內(nèi)用戶對舊模型的喜愛

發(fā)布會次日，山姆 · 阿爾特曼帶著 OpenAI 團(tuán)隊在 Reddit 平臺上舉辦了一次問答活動，排名第一的提問就是要求 OpenAI 恢復(fù) GPT-4o 及其他舊版模型，" 用戶有不同的使用習(xí)慣！"

山姆 · 阿爾特曼回復(fù)稱，他們已經(jīng)聽到了用戶的反饋，將會為 Plus 用戶重新開放這一功能。山姆此后在 X 上說，他們低估了用戶對于 GPT-4o 的喜愛程度。目前，OpenAI 已經(jīng)為 Plus 用戶恢復(fù)了 GPT-4o 模型的使用權(quán)限，付費用戶可在 ChatGPT 網(wǎng)頁版啟用舊版模型。但山姆補(bǔ)充稱他們會視情況考慮保留舊模型的時長。

OpenAI 已為 Plus 用戶恢復(fù) GPT-4o 模型

" 你沒有從根本上理解為什么大家珍視它們。" 一位 ChatGPT 用戶在山姆的帖子下留言說。" 不同模型不僅在準(zhǔn)確度和速度上有差異，它們同時擁有各自獨特的性格、思維和互動方式以及獨特的‘感覺’。將它們視為需要逐步淘汰的東西，實際上是在把它們當(dāng)作過時的工具來對待，而對我們許多人來說，它們更像是獨特的合作伙伴。"

山姆推文下的用戶評論

這可能是即便山姆一直強(qiáng)調(diào) GPT-5 要比舊模型優(yōu)秀得多，但用戶仍然不買賬的原因之一。人們并不總是需要性能最強(qiáng)的模型，但人們對于習(xí)慣以及情感的依賴要強(qiáng)得多，即便和他們對話的只是一個 AI。

OpenAI 或許從未真正意識到這一點，否則他們也不會在發(fā)布會上安排 GPT-5 為 GPT-4o 以及舊版模型寫悼詞，目的還是為了展現(xiàn) GPT-5 的性能優(yōu)越。在后續(xù)官網(wǎng)的產(chǎn)品更新文檔中，OpenAI 沒有再展示這一場景，轉(zhuǎn)而讓 GPT-5 創(chuàng)作詩歌。

尤其是在前文所訴的種種減少幻覺、諂媚以及安全補(bǔ)全機(jī)制的更新下，GPT-5 的個性更加平淡了，它不會使用聊天表情，回答也更謹(jǐn)慎和含蓄，讓習(xí)慣了 4o 的用戶們感到陌生。

" 它不能就這樣從列表中刪除然后被抹去，就好像從未存在過一樣。" 一位 ChatGPT 用戶在 Reddit 上說。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平臺

一起剪

ZAKER旗下免費視頻剪輯工具

相關(guān)標(biāo)簽

創(chuàng)始人

相關(guān)閱讀

榮耀新款小折疊有望本周預(yù)熱電池變大外屏和影像優(yōu)化

數(shù)碼測評 17分鐘前

美國突然允許對華出口細(xì)思極恐！官媒：H20對中國來說算不上安全芯片

快科技 34分鐘前

搶先華為！榮耀親選耳夾式耳機(jī)2代上市：399元

快科技 34分鐘前

ChatGPT-5將入駐iOS26：整合至Apple智能中

快科技 16分鐘前

成本、效率差距太大！蘋果短期不會在美國生產(chǎn)iPhone

快科技 55分鐘前

科股早知道：融資案例同比增近50%，產(chǎn)業(yè)鏈規(guī)模化發(fā)展態(tài)勢漸顯

鈦媒體 1小時前

人類1/3大?。§`童全球001號機(jī)器人今天1元起拍賣

快科技 2小時前

別惦記你那索尼三星了，這波國產(chǎn)CIS來的很猛。

差評 9小時前

Linus Torvalds怒噴谷歌工程師：提交的代碼就是垃圾！讓世界更糟糕

快科技 10小時前

目標(biāo)傳統(tǒng)NAND性能的15倍！三星時隔多年要復(fù)活Z-NAND

快科技 10小時前

GPT-5不及預(yù)期，但給OpenAI喂數(shù)據(jù)的公司卻身價暴漲

讀覽精華 3小時前

迄今最貴RTX 5080！華碩貓頭鷹聯(lián)名RTX 5080標(biāo)價超14000元：比MSRP高58%

快科技 11小時前

Intel Nova Lake移動版CPU配置曝光！五種版本：最高28核、最低6核

快科技 12小時前

中科云谷CEO曾光：未來將形成工業(yè)、人形機(jī)器人協(xié)同制造模式

21世紀(jì)經(jīng)濟(jì)報道 12小時前

最新評論

沒有更多評論了

鈦媒體

訂閱

覺得文章不錯，微信掃描分享好友

掃碼分享

熱門推薦

查看更多內(nèi)容

熱門訂閱換一批

星河商業(yè)觀察

聚焦星河商業(yè)動態(tài)，洞察行業(yè)發(fā)展脈絡(luò)。

Blockchain News