文 | 山上,作者|薛星星,編輯|張文
和三月份發(fā)布文生圖更新一樣,OpenAI 又一次試圖提前結束 AI Agent 的創(chuàng)業(yè)競賽。
北京時間 7 月 18 日凌晨,OpenAI 發(fā)布 ChatGPT Agent。它可以根據用戶的指令,自動規(guī)劃執(zhí)行步驟,調用多種工具,并完成從抓取數據到生成表格、規(guī)劃行程到預訂酒店等多環(huán)節(jié)任務。
這也是目前多數 AI Agent 創(chuàng)業(yè)項目正在嘗試的方向。4 個月前你在 Manus 那場號稱首個通用 AI Agent 宣傳片中看到了什么,ChatGPT Agent 就完成了什么。
OpenAI 創(chuàng)始人山姆 · 阿爾特曼(Sam Altman)說,這是他第一次 " 真正感受到 AGI(通用人工智能)"。OpenAI 的研究人員則表示,ChatGPT Agent 是目前為止最強的 AI Agent 模型。
——是的,OpenAI 將 ChatGPT Agent 稱為一個模型,而不是產品。與 Manus 等依賴上下文管理、工具鏈編排的系統(tǒng)不同,OpenAI 訓練了一個專用模型,能夠在單一系統(tǒng)中完成任務規(guī)劃、跨工具調用和文檔生成等復雜流程。該模型目前被歸入 o3 系列,但尚未被單獨命名。
AI 時代的創(chuàng)業(yè)者們面臨著比任何歷史時期都更快速的技術迭代,一次底層模型更新往往就能毀掉一個垂直領域的創(chuàng)新產品。
理想汽車創(chuàng)始人李想此前在朋友圈說,to C 層面,OpenAI 在內的掌握最強基座模型的企業(yè),不會留下什么垂直應用的創(chuàng)業(yè)空間。" 軟件的本質是功能,需要場景化、垂直化。人工智能的本質是能力,能力強就可以吃掉一切,也是用戶最方便的。"
就連一直高喊 AI 應用創(chuàng)新的朱嘯虎也在社交媒體上表示,大模型會吃掉 90% 的 Agent。X 平臺上也有用戶發(fā)問,如果 OpenAI 后續(xù)開放 ChatGPT Agent 模型的 API,其他創(chuàng)業(yè)者該如何與其競爭?
"Listen-that's the sound of a great many startups evaporating into the void."(聽——那是無數初創(chuàng)公司悄然蒸發(fā)的聲音。 )
OpenAI 發(fā)布會視頻下的一條高贊評論寫道。
Manus 們選擇正面硬剛
至少在目前,Manus 們還沒有表現(xiàn)出任何退讓跡象。
OpenAI 發(fā)布會剛結束,Manus 就在 X 上轉發(fā)推文稱,"Welcome to the game." 同屬于華人 AI Agent 創(chuàng)業(yè)公司的 flowith 也轉發(fā)強調,他們早在一年前就推出了 AI Agent 產品。
作為過去半年最早對外喊出通用 AI Agent 口號的創(chuàng)業(yè)公司,Manus 的反應要比其他公司強烈得多。發(fā)布會結束僅 3 個小時,Manus 就一口氣對外放出了 10 條與 ChatGPT Agent 的對比測試,宣稱要和 OpenAI 正面較量。
這些對比內容部分來自 OpenAI 當日展示的演示片段,部分則來自用戶在社交平臺上的真實使用。涵蓋場景包括數據整理、路線規(guī)劃、在線購物、財務分析、餐廳預訂等,Manus 發(fā)出的測試結果幾乎全面占優(yōu)——不僅響應更快,也更強調 " 任務完成度 ",如表格更整潔、圖示更豐富、PPT 更接近成品。
比如 OpenAI 演示的 " 計劃一次為期三天的棕櫚泉網球之旅 ",OpenAI 給出的是一張簡單的行程表,而 Manus 生成的則是一張帶有目的地風格設計的行程海報。
又如分析舊金山市過去四年的財務報告,OpenAI 輸出的是 Excel 文件,而 Manus 給出的是包含圖表與要點總結的完整演示文檔。"Manus 完成的是整個項目,而不僅僅是提供數據。"Manus 評價說。
另一家華人公司 Genspark 的反應同樣高調。創(chuàng)始人景鵬(Eric Jing)在 X 上寫道:" 我從未想過有一天——作為一家只有 24 人的小公司,我們竟然可以領先……領先于 OpenAI。" 他表示,用同樣的提示詞,Genspark 的響應時間更短、成本更低,生成結果的質量也 " 高出好幾倍 "。
7 月 19 日,Genspark 也在社交平臺上分享了 9 個與 ChatGPT Agent 的對比實例,顯示他們輸出的文檔數據維度更豐富,排版更加美觀。除了與 Manus 對比測試中類似的旅游行程制定、財務數據分析等案例外,他們還分享了一則視頻生成能力的對比,指出 ChatGPT Agent 未能完成任務。
社交媒體上用戶們的反饋也不如此前 OpenAI 更新文生圖功能那樣強烈。一些批評聲音指出 ChatGPT Agent 任務的完成度不高,任務生成速度也比較緩慢,部分復雜任務需要 20 分鐘乃至更長時間才能完成。
OpenAI 似乎也意識到當前的 ChatGPT Agent 的速度問題,他們拍攝的幾條宣傳視頻里,員工往往在下達指令后就合上筆記本,等到稍晚再返回查看結果。
" 即便耗時 15 分鐘或半個小時,相比你自己手動完成也已經是顯著的提速了。"OpenAI 的研究員 Isa Fulford 說。她表示,這是一種 " 可以在后臺發(fā)起任務,過一會兒再回來查看結果 " 的使用方式,而 OpenAI 的搜索團隊則更專注于低延遲場景。
OpenAI 或許更強調模型能夠持續(xù)推理和思考的時間,OpenAI 的研究員張熙堃說,ChatGPT Agent 在內部測試中的最長連續(xù)推理時間達到了 2 小時," 我們應該有一個排行榜來記錄模型能持續(xù)思考多久。"
針對外界詬病的生成文檔或 PPT 不夠美觀的問題,OpenAI 的研究員們在 X 上建議,先讓 ChatGPT Agent 把研究工作做完,再讓它輸出 PPT 文件。ChatGPT 生成的是標準 pptx 格式,用戶也可以在 PowerPoint 中統(tǒng)一套用想要的設計模板。
雖然 OpenAI 強調他們專門為 ChatGPT Agent 訓練了專用模型,但部分批評聲音亦指責它更像是將此前已經推出的 Operator(瀏覽器交互能力)與 Deep Research(深入研究能力)組合在一起的產物。Operator 可以支持 ChatGPT 通過瀏覽器與網站直接互動、閱讀并理解網頁內容,Deep Research 則擅長分析和總結信息。
事實上,ChatGPT Agent 目前團隊成員正是來自于此前的 Operator 與 Deep Research 部門,目前團隊規(guī)模大約在 20-35 人。OpenAI 對外表示,ChatGPT Agent 是 Operator 和 Deep Research 功能自然延續(xù)," 我們發(fā)現(xiàn)用戶通過 Operator 嘗試的許多查詢實際上更適合 Deep Research,因此我們將兩者的優(yōu)勢結合在一起。"
OpenAI 表示,這次發(fā)布僅標志著他們將智能體功能直接集成到 ChatGPT 中的第一步,他們計劃定期逐步更新更多功能。
兩種技術路線
相較于初創(chuàng)公司們過去半年來圍繞輸出質量和交付體驗不斷工程迭代和提示優(yōu)化,OpenAI 剛剛發(fā)布的 ChatGPT Agent 在任務的最終呈現(xiàn)上可以稱得上是粗糙。
初創(chuàng)公司們試圖為用戶呈現(xiàn)一個完成度更高且上手難度更低的 Agent 產品。以 Manus 為例,過去 2 個月來這家公司先后為產品加入了包括 PPT 生成、視頻生成、音頻生成等諸多不同能力,官網還列舉出了諸多現(xiàn)成的模板分享以及用戶案例分享。即便這些能力的實現(xiàn)都依托于外部模型,但至少在上手難度上,初創(chuàng)公司們都做得比 OpenAI 更好一些。
但拋去這些應用體驗創(chuàng)新,在基礎模型的能力比拼維度上,ChatGPT Agent 通過端到端訓練的統(tǒng)一模型顯然更有優(yōu)勢。OpenAI 為 ChatGPT Agent 做了諸多學術測試,部分測試結果甚至領先于 OpenAI o3 或 GPT 4o,達到行業(yè)最高水平。
比如在《人類的最后考試》(Humanity ’ s Last Exam)評估中,ChatGPT Agent 取得了取得了 41.6%(pass@1)的新高,大約是 OpenAI o3 的兩倍。DSBench 測試中,ChatGPT Agent 大幅度領先于 GPT-4o,在數據分析任務中的表現(xiàn)更是明顯優(yōu)于人類水平。
在專門衡量電子表格編輯能力的 SpreadsheetBench 平臺上,ChatGPT Agent 創(chuàng)下行業(yè)新高,性能較 GPT-4o 領先一倍。OpenAI 稱,在他們的內部基準測試中,ChatGPT Agent 的能力大致相當于 1 至 3 年經驗的投資銀行分析師水平。
簡單來說,OpenAI 更強調 ChatGPT Agent 帶來的底層模型能力的提高,而初創(chuàng)公司們受限于技術及資金則更傾向于應用創(chuàng)新。
7 月 19 日凌晨,Manus 聯(lián)合創(chuàng)始人季逸超發(fā)文稱,Manus 仍將繼續(xù)押注于上下文工程(in-context learning)而非端到端智能體。
他說,早在 Mannus 項目初期,他們就在思考是使用開源模型訓練一個端到端的智能體,還是基于前沿模型的上下文學習能力構建智能體。GPT-3 等模型的出現(xiàn)讓他們意識到,上下文工程才是正確的方向,因為這些模型的能力遠高于他們此前的內部模型。
" 如果模型進步是上漲的潮水,我們希望 Manus 成為那條船,而不是固定在海床上的柱子。" 季逸超說,這可以使他們能夠在幾小時而非幾周內交付改進,并始終讓他免費產品與底層面模型保持正交。
他在這篇技術文檔中分享了不少 Manus 在上下文工程上的經驗,比如需要圍繞 KV 緩存進行設計、要使用系統(tǒng)文件作為上下文等等。這些工程創(chuàng)新顯著提升了 Manus 的響應速度以及成本優(yōu)勢。
季逸超舉例,使用 KV 緩存可以大幅度提升首個 token 的生成時間和推理成本,例如使用 Claude Sonnet 時,緩存的輸入 token 成本比未緩存的成本降低 10 倍。
上下文工程的創(chuàng)新的確也可以使智能體擁有更好的性能效果。非盈利人工智能研究機構 Epoch AI 測試了 ChatGPT Agent 在 FrontierMath 數學試題集中的表現(xiàn),稱 ChatGPT Agent 在 Tier 1-3 的數學題上只得到了 27% 的正確率,且難度越高得分越低。
但當每道題允許 ChatGPT Agent 嘗試 16 次之后,它的得分就從 27% 大幅度提升至 49%。Epoch AI 說,這表明更好的更好的提示詞設計(prompting)或任務結構支持(scaffolding),可能會顯著提升當前模型的性能。
換句話說,即便是相同的模型,創(chuàng)業(yè)公司們依然可以通過更好的提示工程與上下文設計,來達到遠超基準模型的效果。
" 你如何塑造上下文最終決定了你的智能體的行為方式:它運行的速度、恢復的效果以及擴展的范圍。" 季逸超說。
如何與 Agent 的未來共處
ChatGPT Agent 的正式推出,標志著 AI Agent 正式進入巨頭博弈的時代。它帶給人類的社會的影響不會比大模型爆發(fā)之初的影響小,讓 AI 搶奪人類工作真正成了現(xiàn)實。
這種改變已經在悄然發(fā)生。微軟和亞馬遜等科技巨頭們都在密集裁員,微軟 CEO 薩蒂亞 · 納德拉今年初表示,微軟 20% 到 30% 的代碼都由 AI 生成。一家金融科技公司 Klarna 更是早在去年初就對外宣布,他們的 AI Agent 僅投入使用一個月,就處理了公司 2/3 的客服聊天工作,相當于 700 名全職人工客服的工作量。
市場研究機構 MarketsandMarkets 表示,全球的 AI Agent 市場將從 2024 年的 51 億美元增長至 2030 年的 471 億美元,年均復合增長率(CAGR)達 44.8%。Deloitte 預測,到 2025 年,使用生成式 AI 的公司將有 25% 開始試點智能體,到 2027 年將增長至 50%。
AI Agent 的快速應用也讓行業(yè)人士產生擔憂。和過去大模型僅僅只是提供信息不同,AI Agent 真正具備了從思考到行動的完整能力。比如 ChatGPT Agent 現(xiàn)在已經可以訪問網站幫助用戶下單購物、自動填寫信用卡地址,也可以訪問用戶的日歷、電子郵件、云盤等隱私信息。對于使用 AI Agent 的人們來說,這意味著他們將自己的私人信息交給了一個 " 黑盒 ",也更容易受到攻擊。
發(fā)布會上,OpenAI 也專門強調了 ChatGPT Agent 的風險。他們強調,ChatGPT Agent 在執(zhí)行所有重要操作前都會征得用戶同意," 用戶始終擁有控制權。" 同時,OpenAI 還加入了包括主動監(jiān)督(Watch Mode)、主動風險緩解(Proactive risk mitigation)等安全措施。
山姆 · 阿爾特曼在 ChatGPT Agent 推出后專門發(fā)布長篇推文警告用戶,要求用戶審慎地使用 ChatGPT Agent。
"Agent 代表著 AI 系統(tǒng)能力的新高度,它可以用自己的計算機完成一些令人驚嘆且復雜的任務。它融合了 Deep Research(深度研究)和 Operator(任務執(zhí)行者)的理念,但遠比這些字面描述更強大 —— 它可以長時間思考,使用各種工具,再繼續(xù)思考,再采取行動,如此往復。" 山姆 · 阿爾特曼說。
山姆表示,雖然他們還不確定這些影響具體是什么,但也許會有人試圖惡意 " 欺騙 " 用戶的 AI Agent,使其提供不應該提供的隱私信息,并做出無法預測的不當操作。" 我們建議用戶只授予 Agent 完成任務所必需的最低限度訪問權限,以降低隱私和安全風險。" 山姆強調,他不會將 ChatGPT Agent 用于高風險的用戶或涉及大量個人信息的場景。
但對于已經演變成了一家商業(yè)盈利公司的 OpenAI 來說,它并不會因為隱私或者安全風險而減緩 AI Agent 迭代的步伐。
在 ChatGPT Agent 推出之前,《金融時報》就報道稱 OpenAI 正計劃在 ChatGPT 中開發(fā)支付結賬系統(tǒng),通過 ChatGPT 完成訂單的商家需要向 OpenAI 支付傭金?!督鹑跁r報》稱,OpenAI 已經向部分合作伙伴電商平臺 Shopify 等展示了系統(tǒng)的早期版本。