文 | 光錐智能,作者 | 魏琳華,編輯 | 王一粟
從 2023 年底 OpenAI CEO Sam Altman 第一次提到 GPT-5,到今天模型的正式發(fā)布,時間過去了一年半。
如今,人們?nèi)匀话疽箛^ OpenAI 的發(fā)布會,但徹夜討論的呼聲中少了驚呼,多了質(zhì)疑。
值得欣慰的是,從模型性能上來說,OpenAI 成功扳回了之前下滑的口碑。在發(fā)布會上拿出的 GPT-5,依然做到了多方面能力 SOTA,更是靠 GPT-5 直言 " 世界最強編程模型 ",狙擊 Claude 的領(lǐng)先地位。
但繞不開的一些固有印象是,OpenAI 拉開同行的差距,遠(yuǎn)遠(yuǎn)不及 GPT-3、GPT-4 的斷崖式領(lǐng)先。
OpenAI 的同行者也虎視眈眈。不說 Anthropic 本周官宣要在當(dāng)月發(fā)布大版本更新的模型,馬斯克更是刷屏一晚,強調(diào)自家模型 Grok-4 在部分測試上已經(jīng)超過了 OpenAI 的新模型。
OpenAI 又能在這個新 " 王座 " 上坐多久?Altman 不語,只是一味地講起了大模型便宜落地的故事。
盯上最強代碼模型,GPT-5 全面升級
刷新的性能分?jǐn)?shù)、極高的性價比、針對性優(yōu)化的幻覺問題和超長上下文,方方面面的優(yōu)化,都是為了讓 GPT-5 成為一個更適合干活的大模型。
首先在架構(gòu)上,GPT-5 是一個統(tǒng)一架構(gòu)版本的模型,由三個部分組成:一個基礎(chǔ)模型、一個具有深度推理能力的 GPT-5 thinking 模型,加上一個實時路由器。
這樣設(shè)計的好處是,實時路由器能根據(jù)對話類型、問題復(fù)雜性、工具需求以及用戶意圖快速決定使用哪個模型。比如當(dāng)用戶的提示詞包括 " 幫我認(rèn)真思考一下 " 這類話術(shù),它就會調(diào)用深度推理模型。
在發(fā)布會前一天就大肆預(yù)熱的 Altman,就在 X 上發(fā)圖暗示 GPT-5 的性能優(yōu)勢,在發(fā)布會上,他也強調(diào)了對 GPT-5 的信心。
" 如果說和 GPT-4 的聊天像跟高中生對話,和 O3 像是跟大學(xué)生聊天,那么跟 GPT-5 的交流就相當(dāng)于對話博士生。"Altman 這樣定義 GPT-5 的體驗感受。
先從性能說起,被 Altman 當(dāng)成殺器的 GPT-5,確實在多個模型能力上做到了 SOTA。聚焦到測評指標(biāo)上,GPT-5 的優(yōu)勢體現(xiàn)在編程、數(shù)學(xué)、多模態(tài)理解和健康等方面。
先說 OpenAI 著重放到開頭講的編程能力,這一次,OpenAI 如愿以償?shù)負(fù)尰亓祟I(lǐng)先地位。用他們的話說,"GPT-5 是世界上最強的編程模型。"
在 SWE-Bench(測試大模型代碼補全能力)的指標(biāo)上,GPT-5 的推理版本拿到了 74.9%,不僅超越了自家模型 O3,也超越了 Anthropic 剛發(fā)布的 Claude Opus 4.1(74.5%)。在編程能力上,OpenAI 搶過了 Claude 系列的王座。
GPT-5 再次向我們證明了 " 模型即產(chǎn)品 " 的觀點可行性——加上工具能力的 GPT-5 pro,它甚至能直接把 AIME 2025(美國數(shù)學(xué)競賽)的測試刷滿分。
根據(jù) OpenAI 給出的數(shù)據(jù),GPT-5 在上下文理解上的處理效果不僅有所提升,并且在文本更長的階段(比如輸入在 128-256k 長度),可以從圖示看到,GPT-5 理解能力下降的速度顯著低于其他模型。再有,GPT-5 還顯著降低了幻覺問題,其事實錯誤率比 GPT-4o 降低了 45%,這對于模型應(yīng)用在法律、醫(yī)療等要求精準(zhǔn)的行業(yè)算是利好。
以標(biāo)準(zhǔn)版的 GPT-5 來說,和 Claude Opus 4.1 每百萬 Token 輸入 15 美元、輸出 75 美元的定價相比,前者的輸入價格低于后者的 1/10,輸出價格低于后者 1/7。
此外,針對開發(fā)者使用的不同需求,GPT-5 還在 API 中引入了新功能,通過控制冗余量(verbosity)的方式,分為低中高三檔,幫助開發(fā)者控制 AI 生成內(nèi)容的長短。
難坐穩(wěn)的 SOTA 但價格或許能贏過一切
GPT-5 固然在多項能力上刷新了 SOTA 紀(jì)錄,但這種領(lǐng)先優(yōu)勢,不再是需要長期追趕的鴻溝。
先從本次 OpenAI 最先喊出的 " 最強編程模型 " 來說,領(lǐng)先于 Claude Opus 4.1 僅 0.4% 的優(yōu)勢,很有可能在本月被 Anthropic 趕超。
從去年挖角 OpenAI 成員,再到部分能力超過 OpenAI 旗艦?zāi)P?。Anthropic 正處在像之前 OpenAI 狙擊 Google 新模型的階段,緊緊追著 OpenAI 的步伐。
本月,在 OpenAI 發(fā)布兩個開源模型的當(dāng)天,Anthropic 早其十幾分鐘,發(fā)布了小更新版本 Claude 4.1。特別是在這家公司還預(yù)告了 " 大幅度更新模型 " 即將在本月發(fā)布的情況下,0.4% 的微弱差距,很難讓人對 OpenAI 保持樂觀。
微弱的優(yōu)勢同樣造成了評測口碑的兩極分化。即使 OpenAI 喊出了最佳編程模型的地位,但在用戶使用體驗的階段,OpenAI 還沒有形成一邊倒的優(yōu)勢。
有用戶表示,對比 GPT-5 和 Claude,后者跑出的各個案例都明顯優(yōu)于前者,在 UI 和前端效果上更佳;也有用戶認(rèn)為,用 GPT-5 跑出來的代碼效果更精細(xì)。
在 Anthropic、Google 等競爭對手的步步緊逼下,AI 領(lǐng)域的 "SOTA" 寶座,正變得越來越難以坐穩(wěn),也難以留下深刻印象。
那么,在性能趨同的背景下,AI 大模型的競爭將走向何方?OpenAI 給出的答案是價格。當(dāng)技術(shù)領(lǐng)先難以形成絕對壁壘時," 價格戰(zhàn) " 才是贏得市場的終極武器。
"GPT-5 是我們迄今為止最聰明的模型,但我們主要追求的是實際應(yīng)用價值和大規(guī)模的普及 / 負(fù)擔(dān)能力。"Altman 在 X 上說," 我們完全可以發(fā)布更智能的模型,而且我們會這樣做,但這個模型將有數(shù)十億人受益。"
通過優(yōu)化成本的方式,OpenAI 的價格雖然不能和國內(nèi)便宜大碗的開源模型們比較,不過和一個月讓程序員輕松花掉上千美元的 Claude 相比,OpenAI 能在 API 端把輸入輸出價格分別拉低到 1/10 和 1/7,其成本優(yōu)勢斷層領(lǐng)先。
這也是為什么發(fā)布會后半場,OpenAI 開設(shè)了一個 " 開發(fā)者專場 ",專門面向開發(fā)者群體展示模型的實用能力,并拉來 Cursor CEO、Manus 的首席科學(xué)家背書,秀自家模型在 Agent、Vibe Coding(氛圍式編程)上的效果。
于 C 端,免費開放的 GPT-5 將大幅提升之前無法體驗 O3 等付費模型用戶的使用體驗;于 B 端,便宜的 API 也會成為開發(fā)者尋求性價比的考慮。
從 GPT-5 秘密訓(xùn)練到發(fā)布的一年半之間,OpenAI 真正的壁壘已然不再靠越來越短的 SOTA 紅利支撐,而是變成了價格和模型的落地效果。
當(dāng)成本急劇降低到更普適大眾的節(jié)點,AI 應(yīng)用的爆發(fā),才能指日可待。