文|周鑫雨
編輯|蘇建勛
《智能涌現(xiàn)》獨家獲悉,近日,AI 視頻生成公司「愛詩科技」完成 B 輪融資,總金額超過 6000 萬美元。
該輪融資由阿里巴巴領(lǐng)投,達(dá)晨財智、深創(chuàng)投、北京市 AI 基金、湖南電廣、巨人網(wǎng)絡(luò)和 Antler 跟投。據(jù)了解,這也是國內(nèi)視頻生成領(lǐng)域單次最大融資額。
愛詩在融資和增長上的猛勢,是如今國內(nèi)視頻生成賽道集體狂飆的一個縮影,目前愛詩旗下產(chǎn)品 PixVerse 的全球用戶已經(jīng)邁過 1 億大關(guān)。就在 4 個月前,這個數(shù)字還是 6000 萬。
同樣起飛的還有商業(yè)化。愛詩科技創(chuàng)始人兼 CEO 王長虎告訴《智能涌現(xiàn)》,公司產(chǎn)品的訂閱收入已經(jīng)覆蓋成本。
另一位視頻生成領(lǐng)域頭部玩家,快手的財報顯示,2025 年 Q2,旗下可靈 AI 的營收已經(jīng)超過 2.5 億元,占快手總營收的 4.8%。
然而,僅僅一年前,由于 Sora 的掀桌、大廠的入局,AI 視頻生成創(chuàng)業(yè),一度不被看好。
《智能涌現(xiàn)》曾在《楊立昆、朱嘯虎不看好的賽道,正在海外悄悄賺錢》一文中提到,2024 年初,不少投資人的共識是:視頻模型 ROI 短時間無法打正,以及初創(chuàng)公司會像語言模型賽道一樣,被 2-3 家大廠淘汰。
成立在 2023 年 4 月的愛詩科技,對市場的不看好深有體會:彼時的視頻生成還是非共識,創(chuàng)業(yè)公司資源有限,創(chuàng)始人王長虎和謝旭璋并非最受資本歡迎的 " 天才少年 "。
在愛詩科技 CEO 王長虎看來,愛詩回到舞臺中央,恰恰因為堅持了 " 不變 ":
從第一天起,團隊就將視頻生成作為確定性的機會,從自研模型到產(chǎn)品化,從未偏離主線;
至于產(chǎn)品,C 端則是團隊一直看好的方向——愛詩旗下的產(chǎn)品,AI 視頻創(chuàng)作平臺 PixVerse(海外)和拍我 AI(國內(nèi)),主打為普通用戶提供低門檻的 AI 視頻創(chuàng)作工具。
其特效模板通過 " 提示詞封裝 ",將視頻生成復(fù)雜的制作過程簡化為 " 一鍵生成 "。
2025 年 8 月 27 日,愛詩發(fā)布的新一代視頻生成模型 PixVerse V5,優(yōu)化了生成速度、視覺質(zhì)量、指令遵循等能力。
與此同步上線的,是一款面向 C 端用戶的 "Agent 創(chuàng)作助手 ",沒有視頻創(chuàng)作基礎(chǔ)的用戶,也能用現(xiàn)有的模板庫和極為簡單的指令,創(chuàng)作出一段視頻。
從不被看好到拿下最大單筆融資額,愛詩做對了什么?
成功逆襲,愛詩到底做對了什么,王長虎總結(jié)出了兩點:
第一,無論用戶還是團隊,都不盲目燒錢擴張。
王長虎告訴我們,過去半年內(nèi),愛詩用戶規(guī)模從 6000 萬增長到一億,比起投放,靠產(chǎn)品能力本身去做聰明的增長,是更為行之有效的方法。比如,2024 年 11 月," 毒液變身 " 等展示模型能力的特效模板,迄今已為 PixVerse 帶來了過百億的曝光量。
第二,不盲目對模型做 Scaling(擴大參數(shù)規(guī)模)。
在愛詩科技看來,Scaling Law 仍然適用于當(dāng)下的視頻生成模型。但對于資源有限的創(chuàng)業(yè)公司而言,模型訓(xùn)練不允許失敗,試錯成本遠(yuǎn)高于大廠。
這意味著,每一次的模型訓(xùn)練,愛詩都需要保證模型質(zhì)量的前提下,降低訓(xùn)練成本,同時規(guī)劃更為精細(xì)化的迭代方向。
愛詩的經(jīng)驗是,每一次模型和產(chǎn)品的迭代,都要貼著用戶的需求走。
比如,團隊發(fā)現(xiàn),不管在專業(yè)創(chuàng)作還是短視頻領(lǐng)域,大多數(shù)單鏡頭視頻的長度都在 10s 以內(nèi),廣為傳播的視頻長度在 10 秒左右,"60s 一鏡到底 " 不是用戶的核心需求。
因此愛詩把資源集中在提升視頻生成的速度、質(zhì)量和指令遵從優(yōu)化上。
基于 " 分布匹配蒸餾 " 技術(shù),愛詩在行業(yè)中率先將視頻生成速度從 " 分鐘級 " 壓縮到了 " 秒級 "。為了保證視頻生成的質(zhì)量,團隊在訓(xùn)練過程中引入特征自約束損失,穩(wěn)定了視頻生成的畫質(zhì)。
這兩點經(jīng)驗,都指向了同一個方向:創(chuàng)業(yè)公司如何更高效地利用有限的資源,建立自己的優(yōu)勢。
不過,資源有限下的遺憾也是存在的。讓王長虎最為扼腕的,是沒有全球最早訓(xùn)練出對標(biāo) Sora 的模型。
" 早些年,有些錢我們沒有拿。" 他告訴《智能涌現(xiàn)》," 但回頭看,我們應(yīng)該多儲備一些資金,盡可能地去拿錢,更早把模型做出來。"
當(dāng)然,Timing(時機)對創(chuàng)業(yè)者而言同樣重要。
2023 年 4 月,愛詩成立在一個視頻生成還是非共識的時間點。
非共識創(chuàng)業(yè)的難點是擺在明面上的。王長虎回憶,當(dāng)時,市面上還不存在高性能的視頻生成模型,小型創(chuàng)業(yè)公司常被市場質(zhì)疑的一點是:是否有訓(xùn)練高性能視頻生成模型的能力和資源。
但另一面,非共識創(chuàng)業(yè),也讓愛詩免受行業(yè) FOMO(害怕錯過)情緒的負(fù)面影響。王長虎告訴我們:" 這反而讓我們在早期處于一種更健康的狀態(tài):估值與能力相匹配,發(fā)展節(jié)奏更扎實,而不是被高估值所左右。"
再者,比別人更早,也意味著技術(shù)和產(chǎn)品上的先發(fā)優(yōu)勢。2024 年下半年,隨著 Sora 將 DiT 架構(gòu)變?yōu)橐曨l生成領(lǐng)域的技術(shù)共識,海內(nèi)外不少大廠和初創(chuàng)公司才接連入局,發(fā)布視頻生成模型。
彼時,PixVerse 的全球用戶規(guī)模已經(jīng)達(dá)到 1000 萬,并且已經(jīng)實現(xiàn)了規(guī)?;杖?。近期發(fā)布的視頻生成模型 V5,也在獨立測評平臺 Artificial Analysis 的最新測試中,登頂全球圖生視頻榜單,在文生視頻榜中位列全球第二。
視頻生成的游戲,到底有沒有創(chuàng)業(yè)公司的機會?這是創(chuàng)業(yè)以來,王長虎和團隊最常被問的問題。
愛詩幾乎用了 2024 年一整年,來回答這個問題。那一年,他們面對了 Sora 的突襲,快手和字節(jié)的輪番傾軋。
但事實證明,在一個相當(dāng)初期的賽道,機會沒有獨屬于強者。2024 年 7 月,緊接著可靈 AI,愛詩發(fā)布了 PixVerse V2,成了國內(nèi)首個發(fā)布可實際使用的 DiT 視頻模型的創(chuàng)業(yè)公司。
至于未來的格局,王長虎判斷:AI 技術(shù)并不是簡單把抖音等短視頻平臺中的內(nèi)容替換成 AI 內(nèi)容,而是帶來了全新的交互方式:
" 一旦視頻能實現(xiàn)實時或準(zhǔn)實時生成,用戶在觀看內(nèi)容的同時,也能即時調(diào)整、生成新的內(nèi)容。" 在他看來,視頻行業(yè)全新的交互邏輯,注定會像 " 短視頻孕育出抖音 " 一樣,孕育出新的國民級產(chǎn)品。
2025 年,視頻生成賽道的競速,已經(jīng)從 " 比誰先復(fù)刻出 Sora",拉到了產(chǎn)品差異化競爭。
一個明顯的跡象是,視頻生成領(lǐng)域的不同玩家,逐漸分散至風(fēng)格、用戶畫像、功能各異的細(xì)分領(lǐng)域。
比如,前商湯秒畫負(fù)責(zé)人劉宇成立的 Vivix Group Limited,其產(chǎn)品 TipTap 聚焦在 AI Porn 的生成;前光年之外聯(lián)合創(chuàng)始人曹越創(chuàng)業(yè)做的 Sand AI,則跳出了主流的 DiT 技術(shù)路線,采用自回歸路線,實現(xiàn)了視頻的無限擴展生成。
愛詩聚焦的用戶,是沒有視頻制作技術(shù)的普通人。王長虎對我們表示,由于視頻創(chuàng)作門檻高,加之工具供給不足,目前 95% 的人的視頻創(chuàng)作需求還沒被滿足。
他將目前的產(chǎn)品比作視頻生成界的 Canva," 更大眾,更平權(quán) ",而其他視頻生成產(chǎn)品則是 Photoshop 和 Figma,服務(wù)的是專業(yè)創(chuàng)作者。
在外界的視角中,2024 年 11 月以來," 美人魚變身 "" 毒液變身 " 等特效模板的全球爆火,是愛詩押對的幸運一棋。
但王長虎認(rèn)為,特效模板走紅,是遲早的事," 模板能夠?qū)⒂脩舻膭?chuàng)作門檻降下來,是團隊自然而然做出的決策。"
如今,為 C 端用戶提供視頻生成模板,也是愛詩產(chǎn)品生態(tài)中重要的一部分。在社區(qū)中,不僅有官方制作的模板,還有不少來自用戶自發(fā)的創(chuàng)作。比如,拍我 AI 上,一款用戶做出的 " 衣柜變裝 " 模板,獲得了百萬級以上的瀏覽量。
產(chǎn)品的定位,也決定了愛詩目前最看重的幾個指標(biāo):用戶增長、留存以及社區(qū)行為活躍度(如 UGC 模板創(chuàng)作)。
視頻生成行業(yè)的發(fā)展,還未到終局。著名風(fēng)投機構(gòu) BVP 在 2025 年 AI 報告中提到,在接下來 1 年中,視頻生成領(lǐng)域的格局,大概率會像如今的語言模型那樣塵埃落地。
誰能覆蓋成本、穩(wěn)步擴大用戶規(guī)模,誰就更有可能留在牌桌上。