中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      鈦媒體 13小時前

      GPT-5 王座難坐穩(wěn),OpenAI 想靠價格贏過一切

      文 | 光錐智能,作者 | 魏琳華,編輯 | 王一粟

      從 2023 年底 OpenAI CEO Sam Altman 第一次提到 GPT-5,到今天模型的正式發(fā)布,時間過去了一年半。

      如今,人們?nèi)匀话疽箛^ OpenAI 的發(fā)布會,但徹夜討論的呼聲中少了驚呼,多了質(zhì)疑。

      值得欣慰的是,從模型性能上來說,OpenAI 成功扳回了之前下滑的口碑。在發(fā)布會上拿出的 GPT-5,依然做到了多方面能力 SOTA,更是靠 GPT-5 直言 " 世界最強編程模型 ",狙擊 Claude 的領(lǐng)先地位。

      但繞不開的一些固有印象是,OpenAI 拉開同行的差距,遠(yuǎn)遠(yuǎn)不及 GPT-3、GPT-4 的斷崖式領(lǐng)先。

      OpenAI 的同行者也虎視眈眈。不說 Anthropic 本周官宣要在當(dāng)月發(fā)布大版本更新的模型,馬斯克更是刷屏一晚,強調(diào)自家模型 Grok-4 在部分測試上已經(jīng)超過了 OpenAI 的新模型。

      OpenAI 又能在這個新 " 王座 " 上坐多久?Altman 不語,只是一味地講起了大模型便宜落地的故事。

      盯上最強代碼模型,GPT-5 全面升級

      刷新的性能分?jǐn)?shù)、極高的性價比、針對性優(yōu)化的幻覺問題和超長上下文,方方面面的優(yōu)化,都是為了讓 GPT-5 成為一個更適合干活的大模型。

      首先在架構(gòu)上,GPT-5 是一個統(tǒng)一架構(gòu)版本的模型,由三個部分組成:一個基礎(chǔ)模型、一個具有深度推理能力的 GPT-5 thinking 模型,加上一個實時路由器。

      這樣設(shè)計的好處是,實時路由器能根據(jù)對話類型、問題復(fù)雜性、工具需求以及用戶意圖快速決定使用哪個模型。比如當(dāng)用戶的提示詞包括 " 幫我認(rèn)真思考一下 " 這類話術(shù),它就會調(diào)用深度推理模型。

      在發(fā)布會前一天就大肆預(yù)熱的 Altman,就在 X 上發(fā)圖暗示 GPT-5 的性能優(yōu)勢,在發(fā)布會上,他也強調(diào)了對 GPT-5 的信心。

      " 如果說和 GPT-4 的聊天像跟高中生對話,和 O3 像是跟大學(xué)生聊天,那么跟 GPT-5 的交流就相當(dāng)于對話博士生。"Altman 這樣定義 GPT-5 的體驗感受。

      先從性能說起,被 Altman 當(dāng)成殺器的 GPT-5,確實在多個模型能力上做到了 SOTA。聚焦到測評指標(biāo)上,GPT-5 的優(yōu)勢體現(xiàn)在編程、數(shù)學(xué)、多模態(tài)理解和健康等方面。

      先說 OpenAI 著重放到開頭講的編程能力,這一次,OpenAI 如愿以償?shù)負(fù)尰亓祟I(lǐng)先地位。用他們的話說,"GPT-5 是世界上最強的編程模型。"

      在 SWE-Bench(測試大模型代碼補全能力)的指標(biāo)上,GPT-5 的推理版本拿到了 74.9%,不僅超越了自家模型 O3,也超越了 Anthropic 剛發(fā)布的 Claude Opus 4.1(74.5%)。在編程能力上,OpenAI 搶過了 Claude 系列的王座。

      發(fā)布會現(xiàn)場,OpenAI 通過一些案例具體展示了 OpenAI 的編程能力,比如讓它做一個闡釋伯努利效應(yīng)的網(wǎng)頁,在兩分鐘內(nèi),GPT-5 跑出了 400 行代碼,做了一個支持調(diào)整參數(shù)的網(wǎng)頁版本。

      除此之外,OpenAI 還展示了模型做一些網(wǎng)頁端小游戲的能力,比如蹦跳躲障礙的網(wǎng)頁小游戲、隨心畫畫的畫布小游戲,還有美觀提升一個度的貪吃蛇。這些能力其實交給當(dāng)下一些開源大模型同樣能完成,只是 OpenAI 的美觀度和流程完整度上了一個臺階。

      除了這種面向 C 端用戶體驗的案例,在 B 端實際使用上,OpenAI 也面向開發(fā)者演示了 GPT-5 寫代碼落地的能力,GPT-5 不再埋頭寫代碼,而是把 " 開箱可用 " 的落地能力夯實了。比如,GPT-5 在后臺寫代碼并自行優(yōu)化迭代之后,按照需求開發(fā)了一個財務(wù)信息看板,UI 做得也足夠漂亮。

      除了編程,在其他多個維度上,GPT-5 也有部分指標(biāo)刷新自家模型的上限,包括數(shù)學(xué)(AIME 2025,GPT-5 無工具版本拿到 94.6%)、多模態(tài)理解(MMMU 為 84.2%)和健康(HealthBench Hard 為 46.2%)。

      GPT-5 再次向我們證明了 " 模型即產(chǎn)品 " 的觀點可行性——加上工具能力的 GPT-5 pro,它甚至能直接把 AIME 2025(美國數(shù)學(xué)競賽)的測試刷滿分。

      不過,OpenAI 的翻車變成了第一個出圈的討論。在發(fā)布會演示的現(xiàn)場,OpenAI 上來就犯了一個非常嚴(yán)重和低級的錯誤:在現(xiàn)場展示的圖表中,數(shù)字大小和柱狀圖顯示的關(guān)系甚至都匹配不上,69.1 和 30.8 的柱圖高度一模一樣,52.8 甚至比 69.1 更大 ......

      對此,光錐智能也隨便給了一組數(shù)據(jù)測試,讓 GPT-5 做柱狀圖。最終跑出來的數(shù)據(jù)和圖表關(guān)系對照沒有錯誤,可見不是模型生成的問題,大概單純是制圖失誤。

      除了上述優(yōu)化外,GPT-5 還在模型的超長上下文理解、幻覺問題等方面做調(diào)整,一切的努力都是為了讓這個模型能夠更好地落地。

      根據(jù) OpenAI 給出的數(shù)據(jù),GPT-5 在上下文理解上的處理效果不僅有所提升,并且在文本更長的階段(比如輸入在 128-256k 長度),可以從圖示看到,GPT-5 理解能力下降的速度顯著低于其他模型。再有,GPT-5 還顯著降低了幻覺問題,其事實錯誤率比 GPT-4o 降低了 45%,這對于模型應(yīng)用在法律、醫(yī)療等要求精準(zhǔn)的行業(yè)算是利好。

      如果從性能上評估,GPT-5 雖然能力全面升級,不過顯然不是大眾期待的顛覆式超越。但從性價比上來說,GPT-5 給出的價格直接甩了對手一條街。

      以標(biāo)準(zhǔn)版的 GPT-5 來說,和 Claude Opus 4.1 每百萬 Token 輸入 15 美元、輸出 75 美元的定價相比,前者的輸入價格低于后者的 1/10,輸出價格低于后者 1/7。

      極低的價格,也是 OpenAI 愿意限量免費開放給所有用戶使用的底氣。目前,免費用戶也可以體驗到 GPT-5,不過區(qū)別于付費用戶的不限量開放,前者會在用到一定額度后自動切換為 GPT-5-mini 模型使用。

      此外,針對開發(fā)者使用的不同需求,GPT-5 還在 API 中引入了新功能,通過控制冗余量(verbosity)的方式,分為低中高三檔,幫助開發(fā)者控制 AI 生成內(nèi)容的長短。

      難坐穩(wěn)的 SOTA 但價格或許能贏過一切

      GPT-5 固然在多項能力上刷新了 SOTA 紀(jì)錄,但這種領(lǐng)先優(yōu)勢,不再是需要長期追趕的鴻溝。

      先從本次 OpenAI 最先喊出的 " 最強編程模型 " 來說,領(lǐng)先于 Claude Opus 4.1 僅 0.4% 的優(yōu)勢,很有可能在本月被 Anthropic 趕超。

      從去年挖角 OpenAI 成員,再到部分能力超過 OpenAI 旗艦?zāi)P?。Anthropic 正處在像之前 OpenAI 狙擊 Google 新模型的階段,緊緊追著 OpenAI 的步伐。

      本月,在 OpenAI 發(fā)布兩個開源模型的當(dāng)天,Anthropic 早其十幾分鐘,發(fā)布了小更新版本 Claude 4.1。特別是在這家公司還預(yù)告了 " 大幅度更新模型 " 即將在本月發(fā)布的情況下,0.4% 的微弱差距,很難讓人對 OpenAI 保持樂觀。

      微弱的優(yōu)勢同樣造成了評測口碑的兩極分化。即使 OpenAI 喊出了最佳編程模型的地位,但在用戶使用體驗的階段,OpenAI 還沒有形成一邊倒的優(yōu)勢。

      有用戶表示,對比 GPT-5 和 Claude,后者跑出的各個案例都明顯優(yōu)于前者,在 UI 和前端效果上更佳;也有用戶認(rèn)為,用 GPT-5 跑出來的代碼效果更精細(xì)。

      而 GPT-5 的面面俱到以及微弱優(yōu)勢,或許還不如前一天 Google 發(fā)布的視覺生成模型 Genie 更讓人印象深刻。畢竟每秒 24 幀已經(jīng)能讓 AI 跑出來的視頻達(dá)到流暢的效果,畫質(zhì) 720p 的清晰度也翻越了一倍。

      在 Anthropic、Google 等競爭對手的步步緊逼下,AI 領(lǐng)域的 "SOTA" 寶座,正變得越來越難以坐穩(wěn),也難以留下深刻印象。

      那么,在性能趨同的背景下,AI 大模型的競爭將走向何方?OpenAI 給出的答案是價格。當(dāng)技術(shù)領(lǐng)先難以形成絕對壁壘時," 價格戰(zhàn) " 才是贏得市場的終極武器。

      "GPT-5 是我們迄今為止最聰明的模型,但我們主要追求的是實際應(yīng)用價值和大規(guī)模的普及 / 負(fù)擔(dān)能力。"Altman 在 X 上說," 我們完全可以發(fā)布更智能的模型,而且我們會這樣做,但這個模型將有數(shù)十億人受益。"

      通過優(yōu)化成本的方式,OpenAI 的價格雖然不能和國內(nèi)便宜大碗的開源模型們比較,不過和一個月讓程序員輕松花掉上千美元的 Claude 相比,OpenAI 能在 API 端把輸入輸出價格分別拉低到 1/10 和 1/7,其成本優(yōu)勢斷層領(lǐng)先。

      這也是為什么發(fā)布會后半場,OpenAI 開設(shè)了一個 " 開發(fā)者專場 ",專門面向開發(fā)者群體展示模型的實用能力,并拉來 Cursor CEO、Manus 的首席科學(xué)家背書,秀自家模型在 Agent、Vibe Coding(氛圍式編程)上的效果。

      于 C 端,免費開放的 GPT-5 將大幅提升之前無法體驗 O3 等付費模型用戶的使用體驗;于 B 端,便宜的 API 也會成為開發(fā)者尋求性價比的考慮。

      從 GPT-5 秘密訓(xùn)練到發(fā)布的一年半之間,OpenAI 真正的壁壘已然不再靠越來越短的 SOTA 紅利支撐,而是變成了價格和模型的落地效果。

      當(dāng)成本急劇降低到更普適大眾的節(jié)點,AI 應(yīng)用的爆發(fā),才能指日可待。

      相關(guān)標(biāo)簽

      覺得文章不錯,微信掃描分享好友

      掃碼分享

      熱門推薦

      查看更多內(nèi)容