中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>

<tt id="16111"><dd id="16111"><mark id="16111"></mark></dd></tt>

鈦媒體 13小時前

GPT-5 王座難坐穩(wěn)，OpenAI 想靠價格贏過一切

文 | 光錐智能，作者 | 魏琳華，編輯 | 王一粟

從 2023 年底 OpenAI CEO Sam Altman 第一次提到 GPT-5，到今天模型的正式發(fā)布，時間過去了一年半。

如今，人們?nèi)匀话疽箛^ OpenAI 的發(fā)布會，但徹夜討論的呼聲中少了驚呼，多了質(zhì)疑。

值得欣慰的是，從模型性能上來說，OpenAI 成功扳回了之前下滑的口碑。在發(fā)布會上拿出的 GPT-5，依然做到了多方面能力 SOTA，更是靠 GPT-5 直言 " 世界最強編程模型 "，狙擊 Claude 的領(lǐng)先地位。

但繞不開的一些固有印象是，OpenAI 拉開同行的差距，遠(yuǎn)遠(yuǎn)不及 GPT-3、GPT-4 的斷崖式領(lǐng)先。

OpenAI 的同行者也虎視眈眈。不說 Anthropic 本周官宣要在當(dāng)月發(fā)布大版本更新的模型，馬斯克更是刷屏一晚，強調(diào)自家模型 Grok-4 在部分測試上已經(jīng)超過了 OpenAI 的新模型。

OpenAI 又能在這個新 " 王座 " 上坐多久？Altman 不語，只是一味地講起了大模型便宜落地的故事。

盯上最強代碼模型，GPT-5 全面升級

刷新的性能分?jǐn)?shù)、極高的性價比、針對性優(yōu)化的幻覺問題和超長上下文，方方面面的優(yōu)化，都是為了讓 GPT-5 成為一個更適合干活的大模型。

首先在架構(gòu)上，GPT-5 是一個統(tǒng)一架構(gòu)版本的模型，由三個部分組成：一個基礎(chǔ)模型、一個具有深度推理能力的 GPT-5 thinking 模型，加上一個實時路由器。

這樣設(shè)計的好處是，實時路由器能根據(jù)對話類型、問題復(fù)雜性、工具需求以及用戶意圖快速決定使用哪個模型。比如當(dāng)用戶的提示詞包括 " 幫我認(rèn)真思考一下 " 這類話術(shù)，它就會調(diào)用深度推理模型。

在發(fā)布會前一天就大肆預(yù)熱的 Altman，就在 X 上發(fā)圖暗示 GPT-5 的性能優(yōu)勢，在發(fā)布會上，他也強調(diào)了對 GPT-5 的信心。

" 如果說和 GPT-4 的聊天像跟高中生對話，和 O3 像是跟大學(xué)生聊天，那么跟 GPT-5 的交流就相當(dāng)于對話博士生。"Altman 這樣定義 GPT-5 的體驗感受。

先從性能說起，被 Altman 當(dāng)成殺器的 GPT-5，確實在多個模型能力上做到了 SOTA。聚焦到測評指標(biāo)上，GPT-5 的優(yōu)勢體現(xiàn)在編程、數(shù)學(xué)、多模態(tài)理解和健康等方面。

先說 OpenAI 著重放到開頭講的編程能力，這一次，OpenAI 如愿以償?shù)負(fù)尰亓祟I(lǐng)先地位。用他們的話說，"GPT-5 是世界上最強的編程模型。"

在 SWE-Bench（測試大模型代碼補全能力）的指標(biāo)上，GPT-5 的推理版本拿到了 74.9%，不僅超越了自家模型 O3，也超越了 Anthropic 剛發(fā)布的 Claude Opus 4.1（74.5%）。在編程能力上，OpenAI 搶過了 Claude 系列的王座。

發(fā)布會現(xiàn)場，OpenAI 通過一些案例具體展示了 OpenAI 的編程能力，比如讓它做一個闡釋伯努利效應(yīng)的網(wǎng)頁，在兩分鐘內(nèi)，GPT-5 跑出了 400 行代碼，做了一個支持調(diào)整參數(shù)的網(wǎng)頁版本。

除此之外，OpenAI 還展示了模型做一些網(wǎng)頁端小游戲的能力，比如蹦跳躲障礙的網(wǎng)頁小游戲、隨心畫畫的畫布小游戲，還有美觀提升一個度的貪吃蛇。這些能力其實交給當(dāng)下一些開源大模型同樣能完成，只是 OpenAI 的美觀度和流程完整度上了一個臺階。

除了這種面向 C 端用戶體驗的案例，在 B 端實際使用上，OpenAI 也面向開發(fā)者演示了 GPT-5 寫代碼落地的能力，GPT-5 不再埋頭寫代碼，而是把 " 開箱可用 " 的落地能力夯實了。比如，GPT-5 在后臺寫代碼并自行優(yōu)化迭代之后，按照需求開發(fā)了一個財務(wù)信息看板，UI 做得也足夠漂亮。

除了編程，在其他多個維度上，GPT-5 也有部分指標(biāo)刷新自家模型的上限，包括數(shù)學(xué)（AIME 2025，GPT-5 無工具版本拿到 94.6%）、多模態(tài)理解（MMMU 為 84.2%）和健康（HealthBench Hard 為 46.2%）。

GPT-5 再次向我們證明了 " 模型即產(chǎn)品 " 的觀點可行性——加上工具能力的 GPT-5 pro，它甚至能直接把 AIME 2025（美國數(shù)學(xué)競賽）的測試刷滿分。

不過，OpenAI 的翻車變成了第一個出圈的討論。在發(fā)布會演示的現(xiàn)場，OpenAI 上來就犯了一個非常嚴(yán)重和低級的錯誤：在現(xiàn)場展示的圖表中，數(shù)字大小和柱狀圖顯示的關(guān)系甚至都匹配不上，69.1 和 30.8 的柱圖高度一模一樣，52.8 甚至比 69.1 更大 ......

對此，光錐智能也隨便給了一組數(shù)據(jù)測試，讓 GPT-5 做柱狀圖。最終跑出來的數(shù)據(jù)和圖表關(guān)系對照沒有錯誤，可見不是模型生成的問題，大概單純是制圖失誤。

除了上述優(yōu)化外，GPT-5 還在模型的超長上下文理解、幻覺問題等方面做調(diào)整，一切的努力都是為了讓這個模型能夠更好地落地。

根據(jù) OpenAI 給出的數(shù)據(jù)，GPT-5 在上下文理解上的處理效果不僅有所提升，并且在文本更長的階段（比如輸入在 128-256k 長度），可以從圖示看到，GPT-5 理解能力下降的速度顯著低于其他模型。再有，GPT-5 還顯著降低了幻覺問題，其事實錯誤率比 GPT-4o 降低了 45%，這對于模型應(yīng)用在法律、醫(yī)療等要求精準(zhǔn)的行業(yè)算是利好。

如果從性能上評估，GPT-5 雖然能力全面升級，不過顯然不是大眾期待的顛覆式超越。但從性價比上來說，GPT-5 給出的價格直接甩了對手一條街。

以標(biāo)準(zhǔn)版的 GPT-5 來說，和 Claude Opus 4.1 每百萬 Token 輸入 15 美元、輸出 75 美元的定價相比，前者的輸入價格低于后者的 1/10，輸出價格低于后者 1/7。

極低的價格，也是 OpenAI 愿意限量免費開放給所有用戶使用的底氣。目前，免費用戶也可以體驗到 GPT-5，不過區(qū)別于付費用戶的不限量開放，前者會在用到一定額度后自動切換為 GPT-5-mini 模型使用。

此外，針對開發(fā)者使用的不同需求，GPT-5 還在 API 中引入了新功能，通過控制冗余量（verbosity）的方式，分為低中高三檔，幫助開發(fā)者控制 AI 生成內(nèi)容的長短。

難坐穩(wěn)的 SOTA 但價格或許能贏過一切

GPT-5 固然在多項能力上刷新了 SOTA 紀(jì)錄，但這種領(lǐng)先優(yōu)勢，不再是需要長期追趕的鴻溝。

先從本次 OpenAI 最先喊出的 " 最強編程模型 " 來說，領(lǐng)先于 Claude Opus 4.1 僅 0.4% 的優(yōu)勢，很有可能在本月被 Anthropic 趕超。

從去年挖角 OpenAI 成員，再到部分能力超過 OpenAI 旗艦?zāi)Ｐ?。Anthropic 正處在像之前 OpenAI 狙擊 Google 新模型的階段，緊緊追著 OpenAI 的步伐。

本月，在 OpenAI 發(fā)布兩個開源模型的當(dāng)天，Anthropic 早其十幾分鐘，發(fā)布了小更新版本 Claude 4.1。特別是在這家公司還預(yù)告了 " 大幅度更新模型 " 即將在本月發(fā)布的情況下，0.4% 的微弱差距，很難讓人對 OpenAI 保持樂觀。

微弱的優(yōu)勢同樣造成了評測口碑的兩極分化。即使 OpenAI 喊出了最佳編程模型的地位，但在用戶使用體驗的階段，OpenAI 還沒有形成一邊倒的優(yōu)勢。

有用戶表示，對比 GPT-5 和 Claude，后者跑出的各個案例都明顯優(yōu)于前者，在 UI 和前端效果上更佳；也有用戶認(rèn)為，用 GPT-5 跑出來的代碼效果更精細(xì)。

而 GPT-5 的面面俱到以及微弱優(yōu)勢，或許還不如前一天 Google 發(fā)布的視覺生成模型 Genie 更讓人印象深刻。畢竟每秒 24 幀已經(jīng)能讓 AI 跑出來的視頻達(dá)到流暢的效果，畫質(zhì) 720p 的清晰度也翻越了一倍。

在 Anthropic、Google 等競爭對手的步步緊逼下，AI 領(lǐng)域的 "SOTA" 寶座，正變得越來越難以坐穩(wěn)，也難以留下深刻印象。

那么，在性能趨同的背景下，AI 大模型的競爭將走向何方？OpenAI 給出的答案是價格。當(dāng)技術(shù)領(lǐng)先難以形成絕對壁壘時，" 價格戰(zhàn) " 才是贏得市場的終極武器。

"GPT-5 是我們迄今為止最聰明的模型，但我們主要追求的是實際應(yīng)用價值和大規(guī)模的普及 / 負(fù)擔(dān)能力。"Altman 在 X 上說，" 我們完全可以發(fā)布更智能的模型，而且我們會這樣做，但這個模型將有數(shù)十億人受益。"

通過優(yōu)化成本的方式，OpenAI 的價格雖然不能和國內(nèi)便宜大碗的開源模型們比較，不過和一個月讓程序員輕松花掉上千美元的 Claude 相比，OpenAI 能在 API 端把輸入輸出價格分別拉低到 1/10 和 1/7，其成本優(yōu)勢斷層領(lǐng)先。

這也是為什么發(fā)布會后半場，OpenAI 開設(shè)了一個 " 開發(fā)者專場 "，專門面向開發(fā)者群體展示模型的實用能力，并拉來 Cursor CEO、Manus 的首席科學(xué)家背書，秀自家模型在 Agent、Vibe Coding（氛圍式編程）上的效果。

于 C 端，免費開放的 GPT-5 將大幅提升之前無法體驗 O3 等付費模型用戶的使用體驗；于 B 端，便宜的 API 也會成為開發(fā)者尋求性價比的考慮。

從 GPT-5 秘密訓(xùn)練到發(fā)布的一年半之間，OpenAI 真正的壁壘已然不再靠越來越短的 SOTA 紅利支撐，而是變成了價格和模型的落地效果。

當(dāng)成本急劇降低到更普適大眾的節(jié)點，AI 應(yīng)用的爆發(fā)，才能指日可待。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平臺

一起剪

ZAKER旗下免費視頻剪輯工具

相關(guān)標(biāo)簽

小游戲

相關(guān)閱讀

iPhone 17發(fā)布時間泄露！或?qū)⒂?月9日亮相相機迎巨大升級

數(shù)碼測評 1小時前

一箭11星：我國捷龍三號成功發(fā)射吉利星座04組衛(wèi)星

快科技 1小時前

并購市場即將轉(zhuǎn)向增量時代，中介機構(gòu)怎么說？

21世紀(jì)經(jīng)濟報道 2小時前

OpenAI亮出垂直野心 GPT-5能啃下多少行業(yè)硬骨頭？

21世紀(jì)經(jīng)濟報道 2小時前

騰訊、高瓴出手：并購或成唯一“確定性”機會

21世紀(jì)經(jīng)濟報道 2小時前

控股、協(xié)同與退出：并購基金的中國實踐路徑

21世紀(jì)經(jīng)濟報道 2小時前

GPT-5很強，但也很無趣。

差評 8小時前

把無人機賣到全世界的大疆，出了款會掃地的“數(shù)碼產(chǎn)品”。

差評 8小時前

PCIe 6.0硬盤狂飆28GB/s：5年內(nèi)都沒戲 AMD/Intel不感興趣

快科技 10小時前

8通道+64核CPU地獄級考驗芝奇DDR5內(nèi)存沖上8400MHz

快科技 11小時前

探訪世界機器人大會：“一高五難”的人形機器人加速進(jìn)化

21世紀(jì)經(jīng)濟報道 11小時前

零售巨頭搶灘硬折扣：供應(yīng)鏈與差異化的終極考驗

21世紀(jì)經(jīng)濟報道 11小時前

晶圓代工價格上漲中芯國際回應(yīng)：沒有主動漲價

快科技 12小時前

全球化逆風(fēng)，菜鳥翅膀反而硬了？

讀覽精華 8小時前

最新評論

沒有更多評論了

鈦媒體

訂閱

覺得文章不錯，微信掃描分享好友

掃碼分享

熱門推薦

查看更多內(nèi)容

熱門訂閱換一批

星河商業(yè)觀察

聚焦星河商業(yè)動態(tài)，洞察行業(yè)發(fā)展脈絡(luò)。

Blockchain News

<ruby id="11166"><legend id="11166"></legend></ruby>

<form id="11166"></form>

<samp id="11166"><font id="11166"></font></samp>