文 | 硅谷101
美國(guó)時(shí)間7月17日,OpenAI終于迎來(lái)了它的"Agent時(shí)刻"——通用型ChatGPT Agent正式發(fā)布。它整合了深度研究工具Deep Research與執(zhí)行工具Operator,可一站式完成復(fù)雜任務(wù),但仍存在速度慢、個(gè)性化不足等短板。這款產(chǎn)品的發(fā)布,讓市場(chǎng)重新審視通用AI代理的技術(shù)路徑選擇。
ChatGPT Agent的架構(gòu)本質(zhì)是"瀏覽器+沙盒虛擬機(jī)",與Manus、Genspark形成鮮明的技術(shù)路線差異。在底層架構(gòu)層面,瀏覽器(Browser-based)代理雖堪稱萬(wàn)能,但運(yùn)行速度較慢;沙盒虛擬機(jī)(Sandbox)高效,但無(wú)法聯(lián)網(wǎng)操作、工具庫(kù)受限;工作流集成(Workflow API)速度快、結(jié)果精準(zhǔn),但業(yè)務(wù)范圍有限。
不同架構(gòu)模式下的幾大主流Agent,各有哪些優(yōu)劣勢(shì)?針對(duì)B端客戶和C端客戶的Agent產(chǎn)品,在適用場(chǎng)景和技術(shù)邏輯上有何差別?Agent將重塑互聯(lián)網(wǎng)入口,那么依靠廣告營(yíng)收的創(chuàng)作者們將如何維持商業(yè)模式?本期《硅谷101》,主播泓君對(duì)話Pokee.ai創(chuàng)始人、前Meta AI應(yīng)用強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)負(fù)責(zé)人朱哲清,深入拆解Agent的技術(shù)邏輯與未來(lái)趨勢(shì)(這期內(nèi)容非常干貨,我們將分為上下兩集進(jìn)行推送~)。
以下是這次對(duì)話內(nèi)容的精選:
01 主流底層架構(gòu)對(duì)比:瀏覽器、沙盒環(huán)境、工作流
泓君:和市面上的通用型AI Agent對(duì)比,你覺(jué)得ChatGPT Agent的主要區(qū)別是什么?市面上所有通用型的AI Agent,它們的優(yōu)劣勢(shì)分別是什么?我相信它們?cè)诮鉀Q不同場(chǎng)景的問(wèn)題上,還是會(huì)有一些區(qū)分度。
朱哲清:目前的通用Agent包括這么幾家:一個(gè)是Perplexity,一個(gè)是OpenAI;Anthropic現(xiàn)在還沒(méi)有推出自己的通用Agent,但他們有編程的Agent;我們Pokee相對(duì)比較小一些,比較晚期才出來(lái);有Manus,有Genspark,可能更偏向垂直一些。
首先,目前在基于瀏覽器的產(chǎn)品中,能力最強(qiáng)的還是OpenAI,特別是它把深度研究和瀏覽器操作加在一塊以后。如果你去看一些基準(zhǔn)測(cè)試?yán)锩妫热缯f(shuō)像最新出來(lái)的Browsing Camp(一項(xiàng)瀏覽器智能體的基準(zhǔn)測(cè)試),它能夠在Browsing Camp上面達(dá)到50%多的Benchmark Score(基準(zhǔn)分?jǐn)?shù)),而別的最高現(xiàn)在目前也只有20多分,在開(kāi)源環(huán)境下。
朱哲清:在瀏覽器(Browser)真正的執(zhí)行層面,Operator做得還是相對(duì)比較好的,因?yàn)楫?dāng)年的Operator是跟很多有API(應(yīng)用程序接口)、有虛擬機(jī)的環(huán)境去對(duì)比的,它只有一個(gè)瀏覽器;現(xiàn)在Operator加上虛擬機(jī)的能力以后,應(yīng)該會(huì)超越市面上別的一些工具的瀏覽器加虛擬機(jī)。
它唯一的一個(gè)比較麻煩的點(diǎn)是,OpenAI的瀏覽器嘗試做太多事情,它什么東西都想往瀏覽器里面塞。Manus也用瀏覽器,在另外一個(gè)方向完全只有大模型(LM),然后再加上一些執(zhí)行,可能是也能算虛擬機(jī),但它是一個(gè)有限的虛擬機(jī),它并不是可以導(dǎo)航(navigate)整個(gè)系統(tǒng)里的所有的程序包(Package),它是有些預(yù)設(shè)的程序包,然后去做這件事情的。
Perplexity在瀏覽器里面做了一個(gè)相對(duì)比較另類的,它的瀏覽器不是說(shuō)"我做一個(gè)能夠?qū)Ш綖g覽器的Agent",而是說(shuō)用戶在使用瀏覽器的時(shí)候,它給你一個(gè)助手,讓你去說(shuō)"我需要在這個(gè)頁(yè)面上做些什么",然后去幫你執(zhí)行。
02 四大底層架構(gòu)解析,瀏覽器更萬(wàn)能,虛擬機(jī)更高效
注:"沙盒"(Sandbox)是限制 AI 行動(dòng)范圍的隔離環(huán)境,"虛擬機(jī)"(Virtual Machine / VM)是構(gòu)建沙盒環(huán)境的一種方式。播客中,朱哲清以使用英文"Sandbox"為主,而主播泓君部分用中文"虛擬機(jī)"指代,本文稿根據(jù)具體語(yǔ)境翻譯這組概念。
朱哲清:現(xiàn)在的Agent有四種大的方向:第一種是基于瀏覽器的Agent。第二種是瀏覽器加沙盒的Agent,在這種Agent里面,會(huì)有很多通過(guò)沙盒里面的代碼以及命令行來(lái)完成的操作。第三種是只有沙盒,但是在沙盒內(nèi)部有非常大的限制的那種Agent,主要通過(guò)大模型的能力去生成代碼,并且只能運(yùn)行特定類型的代碼。最后一種,是可以橫跨很多工具集成的Agent。
我認(rèn)為瀏覽器(Browser)的意義在于,世界上所有的網(wǎng)頁(yè)和互聯(lián)網(wǎng)服務(wù),都可以集中呈現(xiàn)在某個(gè)頁(yè)面,所以我只需要我的Agent能夠看到網(wǎng)頁(yè)、去操作網(wǎng)頁(yè),我就可以完成我的任務(wù)。用戶可以看到這個(gè)基于瀏覽器的Agent在頁(yè)面上點(diǎn)了哪些地方,一頁(yè)一頁(yè)地去看瀏覽器是不是跟人一樣在操作網(wǎng)頁(yè)。
它的缺點(diǎn)是很慢,而且Token消耗特別高,原因在于你去看一個(gè)網(wǎng)頁(yè),等于把HTML的文件直接拉下來(lái),可能還包含一些腳本(script),然后把它全部拉下來(lái),從零開(kāi)始全部讀一遍,只為了操作一個(gè)網(wǎng)頁(yè)。但是它確實(shí)是萬(wàn)能的。
沙盒環(huán)境的好處在于,它可以運(yùn)行任何不需要聯(lián)網(wǎng)的、開(kāi)源的程序包;但它的缺點(diǎn)在于,它很多情況下無(wú)法訪問(wèn)互聯(lián)網(wǎng),特別是那種需要認(rèn)證的產(chǎn)品。比如,你要去登錄你的Facebook,這些東西它都肯定做不到。
朱哲清:第三種,是大模型加沙盒放一塊的Agent,它可能是限制一個(gè)大環(huán)境。Genspark是一個(gè)這樣的例子,它并不給你完整的一個(gè)沙盒,連瀏覽器都沒(méi)有。Genspark有一個(gè)大模型作為主體的推理過(guò)程,它寫(xiě)代碼也完全靠這個(gè)大模型;有一個(gè)沙盒去運(yùn)行一些代碼、生成一些東西,然后再把它渲染出來(lái)。但那個(gè)沙盒甚至不能被稱為一個(gè)沙盒,因?yàn)樗莻€(gè)非常有限的環(huán)境,只有三四個(gè)程序包。它是完全控制的,這個(gè)環(huán)境內(nèi)部無(wú)法說(shuō)"現(xiàn)在去下載一個(gè)開(kāi)源的程序包""現(xiàn)在需要臨時(shí)去修改一張圖片"等任務(wù)。如果在它原始的程序包設(shè)計(jì)里面沒(méi)有,它自己不會(huì)下載一個(gè)程序包,然后去做這件事。
朱哲清:所以Genspark這種設(shè)計(jì)是,比如說(shuō)像那種幻燈片Agent、表格Agent,它們?cè)谠O(shè)計(jì)的時(shí)候把可用的包裹給限制住,不再讓用戶去用更多的程序包,是一個(gè)相對(duì)比較封閉的環(huán)境和工作流程——在限制環(huán)境下用一個(gè)大模型做主體寫(xiě)代碼,同時(shí)用一個(gè)小的環(huán)境去執(zhí)行。
最后一種,可能和我們還有以前的Zapier和UIPath這種,是工作流式的,但是工作流內(nèi)部的每一個(gè)節(jié)點(diǎn),是通過(guò)第三方服務(wù)提供商的直接集成來(lái)完成的。優(yōu)勢(shì)在于,可以保證每個(gè)服務(wù)的交付非??煽俊R?yàn)榈谌椒?wù),比如Facebook,是Facebook給我們的訪問(wèn)權(quán)限,不會(huì)出錯(cuò)。但與此同時(shí),它有它的限制,如果用戶想在個(gè)人的Facebook賬戶上發(fā)圖片,那我們做不到,因?yàn)镕acebook只讓創(chuàng)作者和商業(yè)用戶去自動(dòng)化地發(fā)帖。
朱哲清:所以有這么四種類型,第二種和第三種之間的邊界是很模糊的。唯一的區(qū)別在于:第二種的虛擬機(jī)是大模型執(zhí)行完了以后,它所能夠給你使用的虛擬機(jī)是幾乎開(kāi)放的,你自己可以選擇說(shuō)我要去下載新的程序包再去執(zhí)行。所以虛擬機(jī)本身的能力是整個(gè)能力的主體。而第三種,可能是大模型的能力在現(xiàn)有程序包底下能生成什么代碼,已經(jīng)是限制了整個(gè)Agent能力的主體了。
03 用戶體驗(yàn)差異化,速度與通用性的平衡藝術(shù)
泓君:從用戶使用體驗(yàn)上來(lái)說(shuō),Pokee、Genspark、Manus和OpenAI的ChatGPT Agent有什么明顯的區(qū)別嗎?
朱哲清:有蠻多地方都還蠻不一樣的。
Manus的體驗(yàn)是,它盡可能用一個(gè)虛擬機(jī)加上瀏覽器的環(huán)境,來(lái)搭建一個(gè)幾乎讓人覺(jué)得萬(wàn)能的環(huán)境。我有一個(gè)大模型作為一個(gè)規(guī)劃主題,規(guī)劃完、進(jìn)入到瀏覽器以后,它是另外一個(gè)Agent,再完成瀏覽器導(dǎo)航,再總結(jié)得到的信息,再去進(jìn)虛擬機(jī)做執(zhí)行。如果有必要的話,它確實(shí)可以做很多事情、理論上可以涵蓋市面上你所需要的所有功能。
與此同時(shí),Manus的一個(gè)缺陷是被瀏覽器的能力所限制住了。比如,你要去真的發(fā)個(gè)帖,它做不到,因?yàn)樗鼘?duì)于整個(gè)頁(yè)面的導(dǎo)航,說(shuō)我要去選擇那個(gè)小的按鈕,選擇完之后去上傳一個(gè)圖片、生成一個(gè)視頻等,這很難;你要把谷歌表格里的某個(gè)單元格改成某種格式,也比較難,因?yàn)樽⒁饬Φ目臻g太小了,瀏覽器是它的一個(gè)主要限制。
第二個(gè)缺陷是它很慢,這是Manus和ChatGPT Agent的一個(gè)通病,因?yàn)橛昧藶g覽器,所以它的速度會(huì)非常慢——30多分鐘做一個(gè)任務(wù)。
泓君:30多分鐘我覺(jué)得還是快的。我最開(kāi)始使用的時(shí)候可能是一兩個(gè)小時(shí),但那個(gè)時(shí)候非常早。
朱哲清:現(xiàn)在肯定比以前要快,因?yàn)檎麄€(gè)基建什么的都上來(lái)了。但是它的瓶頸會(huì)在那,它的瓶頸甚至最后變成網(wǎng)頁(yè)調(diào)用,你加載一個(gè)網(wǎng)頁(yè)本身可能需要三四秒,這個(gè)是跳不掉的。
ChatGPT的優(yōu)勢(shì)在于Deep Research做得好,能夠做出一個(gè)很詳盡的報(bào)告。你如果通過(guò)這個(gè)報(bào)告再去執(zhí)行某些任務(wù),它會(huì)變得更全面一些。Manus的總體優(yōu)勢(shì)在于虛擬機(jī)的環(huán)境搭得可能比ChatGPT更好一些,但這個(gè)我還需要更詳盡地去研究,因?yàn)槲疫€不太清楚ChatGPT里面的虛擬機(jī)能做到什么程度,但我猜應(yīng)該Manus在虛擬機(jī)里面已經(jīng)花了很多精力去部署,應(yīng)該會(huì)有一個(gè)比較小的優(yōu)勢(shì)。
泓君:這樣是不是也更節(jié)省Token?
朱哲清:對(duì),會(huì)相對(duì)節(jié)省一些Token。
泓君:它把大任務(wù)都拆成了細(xì)分的垂直的小任務(wù)。我猜它想做的是,當(dāng)它把應(yīng)用場(chǎng)景逐個(gè)完善,就可能類似于一個(gè)承載了很多小任務(wù)的大平臺(tái)。
朱哲清:它會(huì)變成一個(gè)類似于微信小程序的存在。
Pokee最大的不同是,它可能是目前所有的Agent里面最快的——總體速度應(yīng)該在市面上所有產(chǎn)品的4-10倍左右。我們有個(gè)正在開(kāi)發(fā)中的Deep Research Agent,最后會(huì)有我們自己的Deep Research Agent,加上我們的執(zhí)行Agent放在一塊,總體體驗(yàn)會(huì)有大幅提升。
朱哲清:為什么可以做到?原因是我們不再需要用非常復(fù)雜的虛擬機(jī)和Tool Calling(工具調(diào)用),而是直接用第三方集成的SDK(軟件開(kāi)發(fā)工具包)和工具。通過(guò)我們自己的Tool Calling基礎(chǔ)模型去調(diào)用這些函數(shù),它的整體速度會(huì)大幅提升;沒(méi)有了像MCP和現(xiàn)在市面上的Tool Calling里極其復(fù)雜的上下文問(wèn)題,每次整體調(diào)用成本能削減50%-60%;再加上我們自己的上下文的工程,使得整個(gè)的成本在市面上至少跟OpenAI的ChatGPT Agent和Manus相比,是個(gè)數(shù)量級(jí)的差距;跟Genspark等垂直化的Agent相比,可能是幾倍的差距。
在Token使用上,我們確實(shí)存在劣勢(shì),特別是跟基于瀏覽器的Agent相比,我們并不是完全萬(wàn)能的。比如要到Facebook、Instagram發(fā)帖,你必須是創(chuàng)作者賬號(hào)或者是企業(yè)賬戶,個(gè)人賬戶沒(méi)有辦法發(fā)帖。
泓君:只有企業(yè)用戶才能使用你們的Agent嗎?因?yàn)楸热缯f(shuō),你在接Instagram和Facebook接口的時(shí)候,它提供的是一個(gè)企業(yè)用戶才能操作的界面嗎?
朱哲清:是創(chuàng)作者或者企業(yè)賬戶。他們希望能夠更多地去創(chuàng)作,但平臺(tái)不希望個(gè)人用戶全都用Agent發(fā)帖。這是符合商業(yè)邏輯的,因?yàn)槿绻袀€(gè)人用戶都通過(guò)一個(gè)Agent,想辦法用瀏覽器去破解Facebook、Instagram賬戶,或者破解某一個(gè)平臺(tái),比如通過(guò)Agent爬蟲(chóng)網(wǎng)頁(yè)來(lái)完成一個(gè)任務(wù),那以后要是沒(méi)人上Facebook和Instagram了,對(duì)于平臺(tái)來(lái)說(shuō)就是一個(gè)損失;它們希望個(gè)人用戶仍然每天去Facebook和Instagram上瀏覽帖子,然后再去發(fā)帖,這樣能有參與度。
以前,有人通過(guò)非常復(fù)雜的寫(xiě)代碼的方式完成產(chǎn)品上傳,那現(xiàn)在會(huì)有人直接寫(xiě)一段文字,然后直接把視頻創(chuàng)意上傳到這些平臺(tái),別的平臺(tái)也一樣。它給你開(kāi)放的權(quán)限,是他們認(rèn)為開(kāi)發(fā)者和非消費(fèi)者用戶真正最需要、用得上的一些工具。如果你可以把這些都放進(jìn)Agent里面,那些原來(lái)會(huì)使用這些工具的人,它會(huì)轉(zhuǎn)過(guò)來(lái)說(shuō),我寫(xiě)一行提示詞就行了,不再需要寫(xiě)那么多代碼。
泓君:在我的理解中,像Manus、Genspark還有ChatGPT Agent,它們的商業(yè)模式是ToC的,而你的商業(yè)模式聽(tīng)起來(lái)更偏ToB。
朱哲清:現(xiàn)在這個(gè)時(shí)代下,B端和C端的模糊性很高,但我們的產(chǎn)品一定是專業(yè)人士來(lái)使用的。對(duì)于專業(yè)人士以下的消費(fèi)者用戶,它們使用一款非常省時(shí)間的AI Agent的概率不是很高,這也是市面上很多AI Agent的感知非常差的原因。因?yàn)樗鼪](méi)有重復(fù)性,很多的工作流用一次就結(jié)束了。而我們目前的很多用戶每周都會(huì)跑一模一樣的工作,我們發(fā)現(xiàn)這種使用有重復(fù)性。
泓君:這個(gè)是不是也很取決于平臺(tái)會(huì)給你們開(kāi)放什么樣的SDK(軟件開(kāi)發(fā)工具包)和API(應(yīng)用程序接口)?假設(shè)我每天的微信太多了,希望有一個(gè)Agent幫我管理所有信息、回復(fù)一些比較基礎(chǔ)的信息,前提還是微信要給這樣的Agent開(kāi)放它的接口。那它們?cè)敢獍堰@些接口開(kāi)放給開(kāi)發(fā)者嗎?
朱哲清:在美國(guó),像這種開(kāi)發(fā)者的社區(qū),是很多大公司、特別是科技公司所崇尚的一個(gè)方向,所以大多數(shù)公司都有非常完善的接口和開(kāi)發(fā)工具包,甚至于說(shuō)他們給到你的是個(gè)非常簡(jiǎn)單的爬蟲(chóng)結(jié)構(gòu),它也不給你Python 開(kāi)發(fā)工具包之類。國(guó)內(nèi)公司可能相對(duì)差一些,很多接口不開(kāi)放給你。但微信的話,比如企業(yè)微信創(chuàng)作者那種級(jí)別的微信,也會(huì)把接口放給你,你也可以自動(dòng)回復(fù),什么都有。
國(guó)內(nèi)的整個(gè)生態(tài)也在慢慢在開(kāi)放,特別是MCP(多智能體協(xié)作協(xié)議)這波出來(lái)了以后,有很多公司都開(kāi)始被迫開(kāi)放他們的SDK跟API,比如高德地圖是一個(gè)例子。之前可能沒(méi)有那么開(kāi)放的高德地圖,后面在MCP出來(lái)了以后,它首先把地圖生態(tài)完全打開(kāi)了,有蠻多這樣的例子。目前,有些公司給我們開(kāi)放的API或者接口是獨(dú)家的,但有一些不是。
朱哲清:總體來(lái)說(shuō),這個(gè)商業(yè)模式一定是偏專業(yè)人士的,原因在于,許多C端場(chǎng)景具有極強(qiáng)的瀏覽器導(dǎo)向特征。比如說(shuō)你去瀏覽網(wǎng)頁(yè)規(guī)劃出差,相關(guān)需求往往是標(biāo)準(zhǔn)化的——像每?jī)芍苄栾w往灣區(qū)、且每次入住同一家酒店,那系統(tǒng)可以每?jī)芍軒湍阗I(mǎi)一次這個(gè)機(jī)票。
但如果是一個(gè)消費(fèi)者出去旅行,它就有很多變數(shù)。我可能是為了探索新東西,住宿上希望嘗試新的酒店,航班選擇也可能存在變數(shù),比如說(shuō)今天我剛發(fā)了獎(jiǎng)金,我就要飛商務(wù)艙了。所以這種用例它本身更適合基于瀏覽器的Agent,因?yàn)橛脩裘媲坝泄P記本電腦,可以開(kāi)瀏覽器去做事情。
05 Agent重塑互聯(lián)網(wǎng)入口,流量分發(fā)的深度變革
泓君:在你跟大公司合作的過(guò)程中,它們開(kāi)放API接口的動(dòng)力是什么?
朱哲清:首先,整個(gè)Agent浪潮會(huì)從某種意義上取代正常的Web流量,過(guò)往可能是一個(gè)人打開(kāi)一個(gè)瀏覽器,然后在谷歌搜索里面打入一段搜索,得到這個(gè)搜索結(jié)果以后,點(diǎn)一個(gè)網(wǎng)頁(yè),再去做某件事情。但未來(lái)可能是,消費(fèi)者端你打開(kāi)ChatGPT,專業(yè)人士端你打開(kāi)Pokee,你可能打一段字說(shuō),"今天早上我看到了回復(fù)CEO關(guān)于用戶增長(zhǎng)的采訪,你能不能直接把YouTube上面的腳本直接拉下來(lái),幫我寫(xiě)一段報(bào)告,告訴我它增長(zhǎng)策略的關(guān)鍵要點(diǎn)是什么?"然后它直接做完了整個(gè)流程——我從來(lái)沒(méi)有打開(kāi)過(guò)YouTube,一個(gè)Agent從頭到尾做完了這件事。
可能你以后購(gòu)物的用例也是一樣,你可能從頭到尾只是打開(kāi)了ChatGPT,說(shuō)"我明天要去一個(gè)晚宴,需要一套正裝"。它已經(jīng)知道了你的身材是什么樣子的,就自動(dòng)幫你找到了最合適的衣服,并試穿在你的身上。你看一眼,覺(jué)得好,然后說(shuō)現(xiàn)在有個(gè)折扣,就付款了,可能是這樣的流程。
它給我們的啟示是:以前的工作流已經(jīng)被改變了,它們不再是通過(guò)瀏覽器去啟動(dòng)整個(gè)工作流的開(kāi)端,去下單或者獲得信息,然后再進(jìn)入另外一個(gè)網(wǎng)頁(yè)進(jìn)行操作。在接下來(lái)一到兩年內(nèi),大多數(shù)門(mén)戶網(wǎng)站,無(wú)論電商、搜索、視頻網(wǎng)站,還是其他門(mén)戶網(wǎng)站,流量一定會(huì)迅速下降,而入口變成了各個(gè)方向的Agent。
這就是當(dāng)時(shí)谷歌要推出A2A(Agent-to-Agent Protocol,代理間通信協(xié)議)的原因。每一家公司都可能會(huì)有自己的Agent,可能是Agent跟Agent之間的交互,如果它能占用這個(gè)協(xié)議,在Gemini里搶先完成協(xié)議部署,最后它就會(huì)是最大的贏家,因?yàn)樗蔀榱薃gent入口。ChatGPT、Claude和我們Pokee也是一樣,推出協(xié)議的核心目的是占據(jù)Agent入口。
泓君:你們?yōu)槭裁聪胱约和瞥鰠f(xié)議,而不是接一個(gè)標(biāo)準(zhǔn)的MCP協(xié)議?這樣大家都是統(tǒng)一用的,你也可以在一個(gè)更大的生態(tài)里直接接入很多已經(jīng)接好了的APP。
朱哲清:MCP現(xiàn)在的可用性很差:當(dāng)前市面上應(yīng)該有接近2萬(wàn)個(gè)MCP了,其中可用的MCP大概不到200個(gè),而且大多數(shù)MCP都無(wú)人維護(hù),這導(dǎo)致大多數(shù)公司不愿意花時(shí)間去做MCP協(xié)議。
我們的目標(biāo)是,公司不再需要做MCP協(xié)議,你也不需要自己去做一個(gè)MCP 服務(wù)器,就直接把開(kāi)發(fā)API給我們,我們處理剩下的事。所以在服務(wù)提供商層面,公司什么也不用干,就可以得到額外的流量入口。
泓君:未來(lái)在接入了Agent以后,互聯(lián)網(wǎng)會(huì)發(fā)生什么樣的形態(tài)變化?你覺(jué)得未來(lái)對(duì)創(chuàng)作者的影響是什么?如果我現(xiàn)在做一檔播客,比如我們上一期內(nèi)容里面,有一個(gè)騰訊算法廣告大賽的口播廣告。只有更多人聽(tīng)這個(gè)播客,大家才可以聽(tīng)到這個(gè)廣告,才能支撐一個(gè)播客的商業(yè)模式運(yùn)轉(zhuǎn)下去、把這檔節(jié)目持續(xù)運(yùn)營(yíng)下去。還有人在下面說(shuō),這期播客為什么沒(méi)有開(kāi)AI總結(jié)?如果沒(méi)有這樣一個(gè)過(guò)程,觀眾就不去聽(tīng)這期播客了,就直接去看AI總結(jié)。這對(duì)廣告來(lái)說(shuō)是一種流量的折損。
朱哲清:我覺(jué)得廣告這個(gè)行業(yè)會(huì)永遠(yuǎn)存在,但它的形式會(huì)發(fā)生改變。當(dāng)前,市面上有很多專注于廣告的AI公司,它們想要去看在大語(yǔ)言模型時(shí)代或者Agent時(shí)代,廣告要如何植入。
我舉個(gè)簡(jiǎn)單例子,在播客里插播廣告這件事,未來(lái)會(huì)變成什么樣?現(xiàn)在的播客大多數(shù)除了平臺(tái)方收你錢(qián)以外,播客提供者本身是不收費(fèi)的。比如說(shuō)《硅谷101》是一個(gè)播客,但是大家都是免費(fèi)聽(tīng)的,如果你在YouTube上只是用了YouTube的廣告,然后YouTube通過(guò)廣告給你們分成。
朱哲清:那未來(lái)可能變成我們需要去訪問(wèn)你的播客,它本身的知識(shí)產(chǎn)權(quán)就是值錢(qián)的。每一次通過(guò)調(diào)用也好,通過(guò)網(wǎng)頁(yè)訪問(wèn)也好,去找到你們這個(gè)播客的時(shí)候,或者是得到你這個(gè)信息的那一刻,任何的Agent方就要向你付款,你不再需要去擔(dān)任廣告流量的負(fù)責(zé)方,廣告是由Agent來(lái)完成的。Agent 獲取信息后,在給用戶推薦其他Agent時(shí),比如讓用戶選哪個(gè)Agent試用時(shí),可以通過(guò)排名推薦收被推薦方的錢(qián)。而支持每個(gè)API、每個(gè)第三方的插件的產(chǎn)品本身,或者說(shuō)知識(shí)產(chǎn)權(quán)本身是可以直接收費(fèi)的。
所以對(duì)于創(chuàng)作者生態(tài)以及SaaS(Software as a Service,軟件即服務(wù))生態(tài),從某種意義上來(lái)說(shuō)是變好了,而不是變差了。你不再需要去在谷歌上面投廣告,也不再需要去免費(fèi)地把你的內(nèi)容發(fā)給YouTube,讓它去幫你投放,而是有一個(gè)Agent直接向你付費(fèi),通過(guò)它自己的廣告機(jī)制去覆蓋它自己的成本。我不覺(jué)得你們會(huì)受到很大的沖擊。
泓君:整體上我覺(jué)得流量分成的模式會(huì)變得越來(lái)越弱。然后,如果Agent調(diào)用了很多創(chuàng)作者的內(nèi)容,怎么給創(chuàng)作者付費(fèi)?這是未來(lái)可能會(huì)討論的一個(gè)問(wèn)題。我稍微有一點(diǎn)疑問(wèn)的是?;诹髁康倪@套方式,比如說(shuō)你有推薦算法,一個(gè)頁(yè)面可以顯示10條播客的內(nèi)容或者視頻信息,但是Agent在回答一個(gè)問(wèn)題的時(shí)候,還是比較精準(zhǔn)聚焦,可能引用的范圍就相對(duì)更小了。
朱哲清:上禮拜在ICML(International Conference on Machine Learning,機(jī)器學(xué)習(xí)國(guó)際會(huì)議)的時(shí)候,有一個(gè)專門(mén)做推薦系統(tǒng)的人,我們倆聊到了這件事情。我當(dāng)時(shí)說(shuō),推薦系統(tǒng)的大方向可能會(huì)受到巨大擠壓。
在Agent的整個(gè)框架下面,它還是個(gè)推薦系統(tǒng)的一個(gè)端到端的決策過(guò)程,但是它每一次給你的交互只是給一條信息的結(jié)果,或者說(shuō)幾條最相關(guān)信息的結(jié)果。這個(gè)時(shí)候它的整個(gè)決策線不再是按照排行第一、第二、第三這樣的方式去決策了,而是時(shí)間是它的決策點(diǎn),因?yàn)橐粋€(gè)人和一個(gè)Agent之間的交互總時(shí)長(zhǎng)是基本固定的。Agent好,我就會(huì)交互時(shí)間久一點(diǎn),它的目標(biāo)可能是在每一個(gè)時(shí)間點(diǎn)上,我給你推薦的東西可以讓你所消費(fèi)的時(shí)間和能夠得到的回報(bào)成正比。這個(gè)時(shí)候,它的整個(gè)原始的推薦系統(tǒng)算法可能就不那么成立了,因?yàn)樵瓉?lái)推薦系統(tǒng)算法是說(shuō),我可能每一條點(diǎn)擊的概率是跟排行成正比的。
而現(xiàn)在變成,我每一次給你推薦或者給你回復(fù)的這個(gè)信息,基本上都是你必定會(huì)去點(diǎn)的東西,但是你會(huì)有第二輪跟我交互的過(guò)程。下一次你花這個(gè)時(shí)間跟我交互,我所占用這個(gè)時(shí)間成本,給你推薦的這一條就必須是最精確的。這樣會(huì)使得你跟我有更多的交互,所以它的目標(biāo)可能就從"有五條、十條在一個(gè)頁(yè)面給你呈現(xiàn)",變成了"有五輪、十輪的對(duì)話,每一輪的目標(biāo)是讓你跟我做下一輪交互"。這個(gè)時(shí)候就跟傳統(tǒng)推薦系統(tǒng)的算法完全不一樣。
朱哲清:所以當(dāng)時(shí)我說(shuō),我覺(jué)得整個(gè)推薦系統(tǒng),特別是這種基于排名的推薦系統(tǒng)的長(zhǎng)期發(fā)展?jié)摿赡軙?huì)被極度壓縮。因?yàn)樗赡軟](méi)有排名,而更多是一個(gè)連續(xù)的、基于體驗(yàn)、基于探索的交互機(jī)制。
它可能唯一的目標(biāo)就是,每一條我都給你最精確的,能夠在不損失我未來(lái)機(jī)會(huì)成本的情況下,在同等級(jí)別的內(nèi)容里,選擇一個(gè)我可以有更多收入的內(nèi)容,當(dāng)然我也不是100%確定這個(gè)一定是未來(lái)的方向,但我個(gè)人從目前的Agent發(fā)展趨勢(shì)來(lái)說(shuō),感覺(jué)是這么一個(gè)方向。