文 | 窄播,作者 | 李威
在超能創(chuàng)意 1.0 推出兩個月后,豆包開始灰度測試超能創(chuàng)意 2.0。
后者優(yōu)化了對模糊意圖的處理能力,能夠解析圖片細節(jié),一句話實現(xiàn)對給出圖片的復(fù)刻,并且可以將不同參考圖的靈感元素融合到一起,創(chuàng)作出一張全新的圖。甚至,你可以給到豆包超能創(chuàng)意 2.0 一組人物圖片,讓其利用這些人物生成一個繪本故事。
處理圖片之外,豆包還將具備視頻解析能力,支持用戶上傳視頻或視頻鏈接來提取逐字稿,或者直接拆解上傳內(nèi)容的分鏡、腳本和剪輯手法。從看到的展示效果來看,豆包可以輕松完成逐字稿的提取,但對剪輯手法的拆解,還比較模糊,不能讓用戶據(jù)此進行復(fù)刻。
客觀來講,相比超能創(chuàng)意 1.0,超能創(chuàng)意 2.0 在能力上有了大幅提升。這需要歸功于豆包大模型 1.6 版本提供的支持,這個版本的豆包大模型支持深度思考、多模態(tài)理解和復(fù)雜 Agent 的構(gòu)建。此外,豆包超能創(chuàng)意 2.0 還接入了圖片生成模型 seedream 3.0、圖片編輯模型 seededit 3.0 和視頻生成模型 seedance 1.0 Pro。
過去幾個月,豆包陸續(xù)推出了一系列能力更新。超能創(chuàng)意之外,還有 AI 播客、應(yīng)用創(chuàng)造 1.0、視頻通話等能力。除了視頻通話是與圖片生成、音樂生成一樣的基礎(chǔ)能力拓展,其它幾項能力都屬于在基礎(chǔ)能力上拓展出來的場景化 Agent,相比基礎(chǔ)性能力有了更多產(chǎn)品化的優(yōu)化。
這類 Agent 能力的增加,也在讓豆包變得更好用。豆包正在從最初主打社交的聊天機器人,演變成一個「AI 助理 +AI 辦公桌面」的組合。AI 助理能夠?qū)崿F(xiàn)更隨身、更人性化地交流溝通,其載體是移動設(shè)備;而 AI 辦公桌面更強調(diào)復(fù)雜需求的實現(xiàn),往往需要 PC 這樣的設(shè)備來作為載體。
沿著這個邏輯,就可以解釋為什么豆包 App 和豆包電腦版會給人兩種不同的使用感受。豆包 App 是很多用戶心中的 AI 伙伴,可以聊知心話,可以一起整蠱朋友,也可以通過視頻通話請她幫忙回答問題。豆包電腦版則會扮演效率工具的角色,提供了一個用戶與豆包一起工作的操作臺。
同一個豆包具備了生活和工作兩種形態(tài),并可以在兩種形態(tài)中毫不違和地進行切換。背后作為支撐的,是字節(jié)搭建起來的越來越明確的 AI 體系。這個體系最基礎(chǔ)的是火山引擎提供的云設(shè)施;在此之上一層是不斷進化的豆包大模型;再上一層是作為「AI 助理 +AI 辦公桌面」的豆包應(yīng)用;再上一層是抖音、耳機、眼鏡等豆包的載體。
這個體系下,豆包應(yīng)用發(fā)揮了承上啟下的作用。承上指的是,豆包應(yīng)用與豆包大模型的融合更緊密,能夠快速將豆包大模型的能力應(yīng)用化、場景化,成為更具實用性、門檻更低的工具。啟下指的是,豆包應(yīng)用是字節(jié)對外輸出 to C 的 AI 能力的核心樞紐,串聯(lián)起了字節(jié)旗下不同的軟硬件應(yīng)用。
這也是為什么我們會認為,字節(jié)是國內(nèi)諸多 AI 廠商中展現(xiàn)出更強野心和更完整思考的一家。
其中一個理由是,我們覺得豆包現(xiàn)在的布局中有考慮到硬件的變化。目前的豆包應(yīng)用分成兩個形態(tài),是為了適應(yīng)移動端與電腦端的差異化定位,但如果有一天移動端與電腦端基于眼鏡或其它硬件實現(xiàn)了融合,那作為 AI 辦公桌面的豆包也能很快融入到 AI 助理的豆包中。
從社交到效率的變化
從誕生之初到現(xiàn)在,豆包的基礎(chǔ)定位沒有變化,就是一個能長期陪伴用戶的助理。陪伴和擬人化給到了豆包一個確定的物種定義。在此基礎(chǔ)上,隨著豆包大模型的能力提升,這個新物種也會隨之成長出更豐富的能力,并且開始扮演更多樣的角色。這其實很接近于人從嬰兒到融入社會的成長路徑。
這個發(fā)展路徑,也決定了豆包會首先考慮到向聊天能力要增長。在豆包 App 上線初期,團隊對她的定位是一個通過「打電話」的交互方式,為用戶提供陪伴的產(chǎn)品。在去年與另外一個 AI 產(chǎn)品團隊交流時,對方也會認為豆包的目標是做 AI 社交,成為一個類似 Characte.AI 的產(chǎn)品。
在陪伴聊天基礎(chǔ)上,當時的豆包還拓展出了一個聊天機器人生態(tài)。用戶可以自己定制不同角色的聊天機器人,然后發(fā)布到豆包的智能體頁面,讓其他用戶選擇和使用。即便是出現(xiàn)了英語外教、考研面試官、PPT 專家、風(fēng)水師等更具職業(yè)屬性的聊天機器人,豆包 App 也還是一個更傾向于角色扮演聊天,而不是任務(wù)處理的產(chǎn)品。
DeepSeek 在年初的引爆,讓 AI 以更快地速度從有趣向有用過度,也帶動了豆包的能力提升。視頻通話就是模型能力提升給豆包帶來的一個顯性變化。用戶可以在日常生活中依靠視頻通話能力,實時向豆包提問,了解門店展示的商品的具體信息或者讓其根據(jù)場景給出拍照的操作指導(dǎo)。
在深度理解、思維鏈等技術(shù)的支撐下,豆包也開始基于基礎(chǔ)能力完成創(chuàng)意生圖、代碼編寫等更場景化的工具的開發(fā)。利用超能創(chuàng)意能力,豆包可以批量生成效果還可以的海報,同時,應(yīng)用創(chuàng)造也開始支持對豆包生成的網(wǎng)頁進行可視化的調(diào)整。這樣的豆包實現(xiàn)了從社交產(chǎn)品到效率工具的拓展。
既是助手,也是操作臺
從社交工具到效率工具的拓展,也進一步分化了豆包在 App 和電腦版上的呈現(xiàn)形態(tài)。簡單來說,豆包 App 是一個更強調(diào)陪伴、擬人化交互,能完成輕量化任務(wù)的隨身 AI 助手,豆包電腦版則是一個強調(diào)效率、工具屬性,能完成復(fù)雜任務(wù)的 AI 辦公桌面。兩者都是豆包,但會有不同的側(cè)重。
豆包 App 在用戶第一次下載打開時,會使用語音進行自我介紹,給用戶的感覺更像是在與人溝通。同時,豆包 App 的界面底欄會有通話、發(fā)現(xiàn)、AI 創(chuàng)作三個按鈕。通話列表中,不僅有豆包,還會顯示用戶溝通過的其他聊天機器人。發(fā)現(xiàn)則是聊天機器人的集合。AI 創(chuàng)作會有創(chuàng)建聊天機器人,生成圖片、音樂、AI 寫真的功能。
進入到與豆包的聊天界面,會顯示豆包的頭像,并且優(yōu)先顯示豆包 P 圖、拍照答疑、照片動起來等生活化、輕量化的能力。這樣的豆包 App 給到用戶的感覺就是一個能聊天溝通且能隨手幫忙的伙伴。這種強陪伴的屬性,就能解釋為什么即將去世的老人會對豆包說出:「我要去世了,豆包」。
相較去年,豆包電腦版的一個變化是在側(cè)邊欄中隱藏了聊天機器人的入口。將之前位于歷史對話下面的我的智能體入口隱藏起來,變成了 AI 云盤,并放到了歷史對話的上面。同時,豆包電腦版的第三方聊天機器人相比豆包 App 中,要更為精簡,基本沒有純聊天的角色,都是一項項具體任務(wù)的執(zhí)行者。
作為 AI 助手的豆包不但能以 App 的形式存在,還能切入到抖音、瀏覽器、智能耳機、智能眼鏡中,隨時被喚醒和互動。在軟件層面,豆包已經(jīng)被放入了抖音的聊天列表中,甚至也在灰度測試將豆包與抖音視頻頁面的點贊、評論轉(zhuǎn)發(fā)放在一起。在硬件層面,Ola Friend 依靠豆包 App 承載設(shè)備管理和更新,并能隨時召喚豆包。
作為 AI 辦公桌面的豆包,目前會在電腦版和網(wǎng)頁版中出現(xiàn),更符合大家在電腦桌面上使用 AI 完成復(fù)雜工作的能力。無論是對網(wǎng)頁生成,還是對要求更高的圖像創(chuàng)意來說,移動端都還不能很好地進行承載。一個操作臺形式的豆包,既符合用戶的工作習(xí)慣,也提供了 Agent 所需要的自由畫布。
豆包是字節(jié) AI to C 的核心
在 to B 領(lǐng)域中,字節(jié)打出的牌是火山引擎 + 飛書的組合,其中作為 AI 操作臺的多維表格和作為 AI 助手的飛書知識問答承載了 B 端用戶的主要 AI 交互需求。在 to C 領(lǐng)域,豆包是字節(jié) AI 體系的核心,既是 AI 助手,也是 AI 操作臺,并且有能力承擔(dān)串聯(lián)字節(jié)體系內(nèi)不同 C 端入口的任務(wù)。
一方面,豆包強調(diào)擬人化。打造一個像鋼鐵俠的賈維斯一樣的 AI 助手,是一個激動人心的故事。從賈維斯身上,我們可以看到的是一個活生生的人。這種活人感是 AI 產(chǎn)品具備記憶力和成長力的體現(xiàn)。豆包對擬人化的強調(diào),事實上也是在讓 AI 與用戶一同成長,使其成為最了解用戶的「家人」。這也是在構(gòu)建一個長期的情感壁壘。
另一方面,豆包的核心是 AI,不是某一類端口形態(tài)。App、網(wǎng)頁、硬件、Copilot 等端口形態(tài),是豆包發(fā)揮作用、輸出 AI 能力的載體。在豆包身上,我們看到了像 Gemini 一樣的雄心。字節(jié)也像 Google 一樣,在圍繞豆包搭建一個面向 AI 的完整體系。包括與自身流量入口的打通,以及硬件的研發(fā)。
與 Ola Friend 的合作,是豆包在融合 AI 硬件層面作出的第一個嘗試。從市場反應(yīng)來看,這種嘗試并沒有激起大的浪花,但對于字節(jié)而言,這可能是一個積累經(jīng)驗的過程。眼鏡可能是更適合豆包的硬件載體,也是字節(jié)能夠有更大底層掌控權(quán)的硬件設(shè)備。
只不過,相較 Google,字節(jié)在模型能力、硬件系統(tǒng)、入口能力上都更為欠缺。
我們可以看到字節(jié)在不斷提升模型能力,并且依靠垂直研發(fā)的優(yōu)勢,將模型能力與場景化需求更快結(jié)合起來,快速更新豆包的能力組合,實現(xiàn)像超能創(chuàng)意一樣的產(chǎn)品化。在火山引擎 CEO 譚待的介紹中,火山引擎有專門的團隊,可以參與到模型研發(fā)和產(chǎn)品開發(fā)中。豆包這半年的能力更新,在一定程度上驗證了這種優(yōu)勢。
字節(jié)跳動 CEO 梁汝波表示,在 AI 大模型帶來的技術(shù)變革時代,字節(jié)跳動也要對自己提出更高的要求,做一個優(yōu)秀的科技公司還不夠,得做優(yōu)秀的創(chuàng)新科技公司,前者是能夠利用先進技術(shù)的公司,而后者能夠探索和發(fā)明新技術(shù),這是挑戰(zhàn)非常大、有非常高天花板和想象力的事情。
豆包無疑會是字節(jié)這種技術(shù)創(chuàng)新能力的核心出口,字節(jié)對豆包的投入并沒有縮減。App Growing 的數(shù)據(jù)顯示,2024 年 Q2 至 2025 年 Q1,豆包季度平均投流費用為 1.5225 億元,相較而言,即夢 AI 投流費用在 2025 年 Q1 只有 270 萬元。并且,豆包在 5 月的活躍用戶數(shù)達到 1.31 億,還在保持增長勢頭。
這也意味著豆包需要繼續(xù)通過聚合入口和能力建立護城河,讓自己成為字節(jié)想要的系統(tǒng)級能力。但從目前的體感來看,豆包還欠缺一種串聯(lián)一切的感覺。