文 | 硅谷 101
7 月 17 日,OpenAI 正式發(fā)布 ChatGPT Agent,正式進(jìn)軍通用 AI Agent 賽道。
外界猜測,在 GPT-5 即將發(fā)布的關(guān)鍵節(jié)點,ChatGPT Agent 的亮相更像是倉促應(yīng)戰(zhàn)的 " 占位 " 之舉——通用 Agent 很可能成為下一代互聯(lián)網(wǎng)的 " 萬億流量入口 ",讓市場格局再次洗牌。
在通用 AI Agent 賽道中,已經(jīng)有不少 AI 初創(chuàng)公司嶄露頭角,技術(shù)路線各有千秋:從瀏覽器為主的萬能路線,到沙盒虛擬機(jī)的高效執(zhí)行,再到工作流集成的專業(yè)化方案,幾大技術(shù)流派正在激烈角逐。
本篇文章,硅谷 101 和 Pokee.ai 創(chuàng)始人、前 MetaAI 應(yīng)用強(qiáng)化學(xué)習(xí)團(tuán)隊負(fù)責(zé)人朱哲清(Bill Zhu),以及硅谷 101 特約研究員 Nathan Wang 一起聊聊:OpenAI 入局,是否意味著 Agent 成為又一個被巨頭吞噬的市場?還是說,技術(shù)壁壘和差異化路線將為創(chuàng)業(yè)公司保留生存空間?當(dāng) " 幽靈光標(biāo) " 成為互聯(lián)網(wǎng)訪問的主力軍時,廣告生態(tài)將如何被顛覆? 新時代的流量入口霸主又將花落誰家?
01 ChatGPT Agent 亮相,通用 Agent 戰(zhàn)局全面開幕
7 月 17 日,OpenAI CEO Sam Altman 和四位研究員在直播中介紹了 OpenAI ChatGPT Agent。
簡單來說,你可以讓 Agent 幫你完成任務(wù):比如,婚禮缺雙鞋,去電商平臺直接訂購;或者設(shè)計個寵物周邊,直接下單打印;查找信息,之后直接生成 PPT 等等。
Deep Research 是一款深入研究的分析工具,可以閱讀大量網(wǎng)頁,生成深度的調(diào)研報告,主打 " 搜索 ";而 Operator 之前是一款只開放給 GPT Pro 用戶的瀏覽器 Agent 工具,可以查看網(wǎng)頁,同時為用戶帶來特定操作,主打 " 執(zhí)行 "。
OpenAI 就表示,在兩樣工具分別推出的過程中,發(fā)現(xiàn)很多用戶用 Operator 寫的提示詞經(jīng)常很像會用 Deep Research 去做的任務(wù),比如旅行計劃,行程預(yù)定等;而 Deep Research 那邊,用戶們也在呼吁能增加比如登陸不同網(wǎng)站、去訪問受保護(hù)資源的能力,這恰好又是 Operator 擅長的。
所以 OpenAI 就決定將兩個產(chǎn)品融合起來,相當(dāng)于打通了 " 搜索與執(zhí)行 ",也就是通用 Agent 所需要的技能。
接下來,我們就來聊聊目前通用 Agent 的四大技術(shù)派系。
02 瀏覽器為主派(OpenAI),操作萬能但速度受限
第一個技術(shù)派系就是所謂 "browser-based"(瀏覽器為主)的技術(shù)路線,之前 OpenAI 的 Operator 就專注于這個路線。
這種模式因為可以訪問全網(wǎng)信息,通用性很強(qiáng),幾乎是無所不能的。
Bill Zhu(朱哲清)
Pokee.ai 創(chuàng)始人
前 Meta AI 應(yīng)用強(qiáng)化學(xué)習(xí)團(tuán)隊負(fù)責(zé)人:
我認(rèn)為瀏覽器(Browser)的意義在于,世界上所有的網(wǎng)頁和互聯(lián)網(wǎng)服務(wù),都可以集中呈現(xiàn)在某個頁面,所以我只需要我的 Agent 能夠看到網(wǎng)頁、去操作網(wǎng)頁,我就可以完成我的任務(wù)。用戶可以看到這個基于瀏覽器的 Agent 在頁面上點了哪些地方,一頁一頁地去看瀏覽器是不是跟人一樣在操作網(wǎng)頁。
它的缺點是很慢,而且 Token 消耗特別高,原因在于你去看一個網(wǎng)頁,等于把 HTML 的文件直接拉下來,可能還包含一些腳本(script),然后把它全部拉下來,從零開始全部讀一遍,只為了操作一個網(wǎng)頁。但是它確實是萬能的。
原因很簡單:瀏覽器為主的路線,背后的技術(shù)是 Agent 配合視覺模型來做 Screencatch(屏幕截圖),進(jìn)而來進(jìn)行圖像識別,所以它注定要主頁加載網(wǎng)頁、等待響應(yīng)。
這次我們也看到," 速度慢 " 是不少人對這次 ChatGPT Agent 的一個不滿之處,很多任務(wù)都要耗費(fèi)幾十分鐘來完成。
因為 Deep Research 相對于市面上所有的產(chǎn)品來說,它還是相對比較慢的一個 Research 產(chǎn)品,再加上 Operator(操作者)本身,我們也知道它的 Benchmark(基準(zhǔn)測試)上面它速度也很慢,所以它把兩者結(jié)合了以后,整體速率就更慢了。
但這個 " 慢 " 可能也會因為大模型的優(yōu)化和算力的優(yōu)化,而在未來實現(xiàn)速度提升。
OpenAI 的視覺模型和 browser 點擊能力比市面上其它通用 Agent 更強(qiáng),所以這個技術(shù)派系在之后還會有很大的優(yōu)化空間。
03 虛擬機(jī) + 瀏覽器派(Manus),本地執(zhí)行效率高但外部訪問受限
在 Agent 相關(guān)的報道和技術(shù)分析中,"Sandbox" 一詞會經(jīng)常出現(xiàn),它翻譯過來叫做 " 沙盒虛擬機(jī) "(隔離的計算環(huán)境,用于安全地運(yùn)行程序)。
想象一個小朋友在家里玩泥巴。如果 ta 到處跑,可能把泥巴弄得到處都是,還可能打翻家具,甚至弄傷自己,這簡直就是家長的噩夢。
但如果你準(zhǔn)備了一個 " 沙盒 " ——一個有邊界、專門讓 ta 玩泥巴的地方—— ta 在里面怎么玩都可以,又安全又干凈。
AI 能在這臺虛擬電腦里隨意打開瀏覽器上網(wǎng)、運(yùn)行代碼腳本、讀取和保存文件等,相當(dāng)于 AI 拿到了一個隔離的電腦,像人類一樣拆解任務(wù),在虛擬機(jī)里上網(wǎng)、編程,完成所有步驟。
而因為是真正的計算機(jī)環(huán)境,AI 可以執(zhí)行非常復(fù)雜的操作流程,從網(wǎng)上獲取信息到本地計算處理,一條龍自主完成。
硅谷 101 特約研究員
AI Agent 開發(fā)者:
其實虛擬機(jī)在做的一個事情,就相當(dāng)于在一個虛擬搭建的環(huán)境中,基于 Linux 系統(tǒng)通過命令行操作生成各種文件。
所以,虛擬機(jī)背后給我感覺更多是調(diào)用大模型的編程能力,根據(jù)用戶需求生成相應(yīng)代碼。只要你有一些編譯器或者一些庫,它可以把整個程序給渲染輸出,最終以網(wǎng)頁、PPT 等用戶易于理解和使用的內(nèi)容形式呈現(xiàn),從而實現(xiàn)完成用戶請求的目的。
所以" 虛擬機(jī) " 為主的路線優(yōu)點就是本地執(zhí)行效率高,但因為 sandbox 對外部服務(wù)的訪問有限制,所以與現(xiàn)實世界交互還不夠靈活。
" 虛擬機(jī) " 為主的通用 Agent 中做得很好的,是 Manus。公司在今年四月融資 7500 萬美元,估值近五億美元。
但 Manus 并不是只有沙盒,它結(jié)合了我們剛才提及的基于瀏覽器 browser 的技術(shù)流,只是將沙盒做了進(jìn)一步優(yōu)化。
與此同時,Manus 的一個缺陷是被瀏覽器的能力所限制住了。比如,你要去真的發(fā)個帖,它做不到,因為它對于整個頁面的導(dǎo)航,說我要去選擇那個小的按鈕,選擇完之后去上傳一個圖片、生成一個視頻等,這很難;你要把谷歌表格里的某個單元格改成某種格式,也比較難,因為注意力的空間太小了,瀏覽器是它的一個主要限制。
第二個缺陷是它很慢,這是 Manus 和 ChatGPT Agent 的一個通病,因為用了瀏覽器,所以它的速度會非常慢—— 30 多分鐘做一個任務(wù)。
可能它的總體優(yōu)勢可能在于,它 Sandbox 的環(huán)境搭得可能比 ChatGPT 更好一些。我還不太清楚 ChatGPT 里面的虛擬機(jī)能做到什么程度,但我猜應(yīng)該 Manus 在虛擬機(jī)里面已經(jīng)花了很多精力去部署,應(yīng)該會有一個比較小的優(yōu)勢。
04 大模型 + 虛擬機(jī)派(GensPark),犧牲通用性換取速度與穩(wěn)定性
第三種路線強(qiáng)調(diào)大語言模型(LLM,Large Language Model)本身結(jié)合一個 " 沙盒 ",也就是封閉工具環(huán)境來完成任務(wù)。
和第二種路線對比來說,與其給 AI 整個開放電腦,不如給它一套有限但有效的工具箱和一個小型運(yùn)行環(huán)境。
所以 Genspark 這種設(shè)計是,比如說像那種幻燈片 Agent、表格 Agent,它們在設(shè)計的時候把可用的程序包給限制住,不再讓用戶去用更多的程序包,是一個相對比較封閉的環(huán)境和工作流程——在限制環(huán)境下用一個大模型做主體寫代碼,同時用一個小的環(huán)境去執(zhí)行。
GensPark 集成了多種不同規(guī)模的語言模型,以及 80 多個預(yù)先構(gòu)建和測試好的工具。
當(dāng)有任務(wù)時,系統(tǒng)會根據(jù)需求調(diào)用合適的模型來理解,并直接用相應(yīng)的 API(應(yīng)用程序編程接口)或內(nèi)置工具去處理,比如搜索信息、調(diào)用地圖服務(wù)、查詢數(shù)據(jù)庫等,而不依賴模擬完整瀏覽器或操作系統(tǒng)。大語言模型更像大腦中樞,在相對封閉的環(huán)境里調(diào)度現(xiàn)成能力,快速產(chǎn)出結(jié)果。
如果用戶授權(quán)其訪問用于代碼 version control(版本管理)的 GitHub 賬戶,它可以直接在 GitHub 去看你寫的程序,改你寫的程序,并執(zhí)行一系列相關(guān)任務(wù)。此外,它與 Google 系列產(chǎn)品(如 Google Sheets、Google Slides)也能實現(xiàn)無縫對接,把各式各樣 workflow(工作流)都幫你設(shè)計好,把你所需要的工具、所需要的接口都幫你放在那。
GenSpark 可能相當(dāng)于,把這些工作的工作流任務(wù)細(xì)分到每一個場景中去,具體到某個場景的時候,我再去用這一系列的工作流。這個設(shè)計,我去做這件事情肯定是更可靠的,因為我已經(jīng)限定了我的問題是什么。
05 工作流 + 工具集成派(Pokee/UiPath),速度快、交付好但通用性差
第四種路線,本質(zhì)上是把預(yù)先設(shè)計好的流程和第三方工具集成結(jié)合 AI 使用。比如朱哲清所創(chuàng)辦的 Pokee,所用的技術(shù)路線叫做 " 工作流 + 工具集成 "。
AI 的作用是在運(yùn)行時根據(jù)用戶請求,自動選擇并執(zhí)行這些預(yù)設(shè)的流程,或用自然語言幫你填充參數(shù)。
舉個例子,Zapier(自動化工作流平臺)平臺上用戶可以設(shè)置一個自動化流程:一旦收到新的表單,就讓 AI 讀取內(nèi)容整理摘要,通過 Gmail 發(fā)送給相關(guān)人員。
這里 AI 負(fù)責(zé)理解內(nèi)容和寫郵件,但從觸發(fā)表單到發(fā)送郵件的步驟是事先定好的。類似地,Pokee AI 強(qiáng)調(diào)通過強(qiáng)化學(xué)習(xí)來自動規(guī)劃和調(diào)用工具。
這樣的技術(shù)路線優(yōu)點是速度快,交付好,但也被限制在特定任務(wù)中,通用性差一些。
能夠?qū)崿F(xiàn)這一優(yōu)勢的原因在于,我們不再需要使用復(fù)雜的虛擬機(jī)環(huán)境,也無需依賴復(fù)雜的 tool calling(工具調(diào)用機(jī)制)。我們直接使用第三方集成的 SDK 和工具,通過自研的工具調(diào)用基礎(chǔ)模型來調(diào)用這些功能的話,整個速度是會大幅度提升的。我們避免了像 MCP 以及市面上其他產(chǎn)品在工具調(diào)用中存在的上下文冗長的問題。
因此每次工具調(diào)用的成本可以削減百分之五六十。結(jié)合我們自主研發(fā)的上下文工程技術(shù)(engineering),使得整體成本與 OpenAI 的 ChatGPT Agent 和 Manus 相比有數(shù)量級的差異;與垂直化的 GenSpark 相比,也有幾倍的優(yōu)勢。在 token 使用方面,我們確實存在劣勢,特別是與基于瀏覽器(Browser-based)的 Agent 相比,我們并不是完全萬能的。
這樣的優(yōu)勢在于,能夠保證每個服務(wù)的交付質(zhì)量非??煽?。因為我們使用的是第三方服務(wù)(如 Facebook)直接提供的訪問權(quán)限,不會出現(xiàn)錯誤。同時這也帶來了限制,就是它無法實現(xiàn)所有功能。
可以看出,目前 " 通用性 " 和 " 速度及穩(wěn)定性 " 是魚與熊掌不可兼得,必須要犧牲一個。ChatGPT Agent 和 Manus 選擇了前者,而 GensPark 和 Pokee 選擇了后者。
大家一開始都是想去做通用 Agent。但是到最后大家體驗完發(fā)現(xiàn),什么都想做,就什么都做不精。這時,產(chǎn)品的迭代又會轉(zhuǎn)到另一個方向:怎么提高它的可靠性、工作流,或者把場景變得更加專精?這可能是當(dāng)下探索的一個更加實際的方向。
第二個問題是,我怎么能夠把我吸引的用戶不斷地留存下來、去持續(xù)付費(fèi)?第二件事就是,需要靠像類似工作流增加應(yīng)用場景,讓每個應(yīng)用場景變得更加可靠的模式,才能把用戶留住,而不只是說一上來給大家一個非常驚艷的 demo(演示),或者一個 MVP(最小可行性產(chǎn)品),讓大家覺得通用 AI Agent 已經(jīng)來臨了,但持續(xù)去使用的時候又發(fā)現(xiàn)不是。如果真正達(dá)不到用戶要求,很多人可能就會退訂、離開平臺。
所以現(xiàn)在,更多的通用 Agent 公司是在解決 " 怎么能夠把用戶留住 "。工作流加上更多工具,專攻應(yīng)用場景是一個非常好的路徑。
無論是什么技術(shù)路線,要想真正讓大家用起來,提高可靠性和留存率,加快交互速度是接下來通用 Agent 的共識方向。
我們可能會看到更加細(xì)分的 Agent,以及萬能通用 Agent 的百花齊放,包括 ToB 和 ToC 的產(chǎn)品也會不同。
所以,雖然 OpenAI 入局通用 Agent 賽道,但這場仗看起來還有得打。但同時,這也給我們指明了一個未來的發(fā)展共識,就是:Agent 們,不管是通用的還是專用的,將代替人類,成為訪問互聯(lián)網(wǎng)的主力軍。
也就是說," 流量 " 這個詞將變得毫無意義,因為都不是真人在點擊網(wǎng)頁了,而未來的流量入口將成為 Agent,而這個賽道也將是下一場巨頭之戰(zhàn)的中心。
當(dāng)然,也不排除會有新的公司占據(jù)這個巨頭的位置。而這個變化可能會來得比我們想象中更快。
無法避免的是,我認(rèn)為在接下來一到兩年,大多數(shù)門戶網(wǎng)站的流量都將快速下降,無論是電子商務(wù)、搜索引擎、視頻網(wǎng)站還是其他各類門戶網(wǎng)站,它們的流量入口都將變成各個方向的 Agent。這正是 Google 推出 Agent2Agent ( A2A ) 協(xié)議的原因。每家公司都可能擁有自己的 Agent,實現(xiàn) Agent 之間的交互。如果 Google 能夠占據(jù)這個協(xié)議,并在 Gemini 中率先部署,它就將成為最大的贏家,因為它成為了 Agent 入口。ChatGPT 和 Claude 也是一樣,它們推出協(xié)議的核心目的也是要占據(jù)智能體入口的戰(zhàn)略地位。
比如說硅谷 101 的播客,現(xiàn)在大家都是免費(fèi)聽的。通過 YouTube 廣告分成獲得收益。但在未來,獲取播客內(nèi)容本身的知識產(chǎn)權(quán)就將具有價值。
每當(dāng) Agent 通過調(diào)用或網(wǎng)頁訪問獲取播客信息時,都需要向內(nèi)容創(chuàng)作者付費(fèi)。創(chuàng)作者不再需要承擔(dān)廣告流量的責(zé)任,廣告將由 Agent 完成。Agent 在獲得信息后,會在工作流或者用戶體驗中插入廣告。當(dāng) Agent 向用戶提供對比選擇時,會詢問用戶想要嘗試哪個 Agent,此時就形成了排名機(jī)制。由于這些問題沒有標(biāo)準(zhǔn)答案,它這個時候推薦哪個 Agent 讓用戶去試試,它就可以向那個 Agent 的公司去收錢了,廣告收入就在這個環(huán)節(jié)產(chǎn)生。
而支持每個 API、每個第三方的插件的產(chǎn)品本身,以及知識產(chǎn)權(quán)本身,都可以直接收費(fèi)。因此,對于創(chuàng)作者生態(tài)和 SaaS 生態(tài)而言,從某種意義上來說這種變化是積極的。創(chuàng)作者不再需要在 Google 投放廣告,也無需免費(fèi)將內(nèi)容提供給 YouTube 進(jìn)行廣告投放,而是有一個 Agent 直接向你付費(fèi),它通過自己的廣告機(jī)制覆蓋成本。我認(rèn)為創(chuàng)作者不會受到很大沖擊。
很開心聽到嘉賓說,作為內(nèi)容生產(chǎn)者,當(dāng)我們的觀眾不再是真人,變成了所謂的 " 幽靈光標(biāo) "Agent 們,但我們的內(nèi)容還是極具價值的,并且這樣的商業(yè)模式是更友好的。
但感覺還有挺多技術(shù)限制需要去突破,以及很多的協(xié)議要達(dá)成共識。
OpenAI 聯(lián)合創(chuàng)始人、CEO:
雖然這(AI Agent)是一項極其令人興奮的新技術(shù),但它也帶來了新的風(fēng)險。人們已經(jīng)大致學(xué)會了如何相對安全地使用互聯(lián)網(wǎng),盡管當(dāng)然仍然有詐騙和其他攻擊行為存在,而未來人們同樣需要學(xué)習(xí)如何使用 AI Agents。社會也需要建立針對 AI Agents 攻擊的防御機(jī)制。所以我們是從一個非常穩(wěn)健的系統(tǒng)開始的,并設(shè)置了大量警示機(jī)制。隨著用戶逐漸適應(yīng),我們將逐步放寬限制。但我們確實希望人們將其視為一項新技術(shù)、一個新的風(fēng)險面,并采取所有必要的謹(jǐn)慎措施。話雖如此,我們還是希望你會喜歡它。
這是什么概念呢?相當(dāng)于年化 9125 億次。如果把每一次提問指令都等同成一次搜索,ChatGPT 已經(jīng)占據(jù)谷歌年搜索量的 18%。
而這個數(shù)字,隨著 AI Agent 的成熟落地,很可能會繼續(xù)快速增長。而新的流量入口之戰(zhàn),已經(jīng)打響。