作者|SnowyM
編輯|陳伊凡
頭圖|視覺中國
"AI 原生 100" 是虎嗅科技組推出針對(duì) AI 原生創(chuàng)新欄目,這是本系列的第「12」篇文章。
8 月 8 日,OpenAI 最新模型 GPT-5 正式發(fā)布,但性能提升幅度遠(yuǎn)沒有達(dá)到人們期待的 " 下一代模型 " 水準(zhǔn),雖然性能有一部分大幅提升,但有相當(dāng)一部分并未與 o3 或者是 Claude、Grok4 拉開距離。
這個(gè)現(xiàn)象背后,整個(gè) AI 行業(yè)正在面臨一個(gè)關(guān)鍵轉(zhuǎn)折點(diǎn):僅僅通過增加數(shù)據(jù)量和計(jì)算資源來提升模型性能的傳統(tǒng)路徑,可能已接近天花板。
此時(shí),一家給 OpenAI 喂數(shù)據(jù)的公司浮出水面—— Turing。
2022 年年初,Turing 的 CEO ——喬納森 · 西達(dá)爾特(Jonathan Siddharth)從美國硅谷帕洛阿爾托,驅(qū)車前往 OpenAI 的辦公室。彼時(shí)的 Turing 是一家人力資源招聘公司。
在去的路上,他做好了給這家新興的硅谷 AI 巨頭推銷 Turing 產(chǎn)品的準(zhǔn)備—— Turing 可以幫助 OpenAI 招聘人才。
當(dāng)走進(jìn)辦公室時(shí),一堆 OpenAI 的研究員卻向喬納森提了一個(gè)需求——他們不要人,他們要數(shù)據(jù)。彼時(shí),OpenAI 的研究員們發(fā)現(xiàn),在訓(xùn)練 GPT-3 的數(shù)據(jù)集中,加入一些計(jì)算機(jī)代碼,有助于提高模型的推理能力。因此,他們希望 Turning 能夠給他們提供質(zhì)量上乘的代碼,用于 GPT-4 的開發(fā)中。
這次會(huì)議,成為了 Turing 發(fā)展的拐點(diǎn)。只用了 7 年時(shí)間,這家公司從零達(dá)到 22 億美元估值,并且成為了繼 Scale AI 之后,硅谷第二家風(fēng)頭正盛的數(shù)據(jù)標(biāo)注公司。
如今隨著大模型能力的演進(jìn),互聯(lián)網(wǎng)上可公開的數(shù)據(jù)已經(jīng)很少了,對(duì)更難生成的數(shù)據(jù)的需求將會(huì)急劇增長。隨著 Scale AI 被 Meta 收購,Turing 將有希望在數(shù)據(jù)標(biāo)注領(lǐng)域成為估值第一的公司。
虎嗅接觸了 Turing 的早期投資方——硅谷風(fēng)投資機(jī)構(gòu) UpHonest Capital,其投資人表示,他們對(duì) Turing 團(tuán)隊(duì)的第一印象是沉穩(wěn)從容的連續(xù)創(chuàng)業(yè)團(tuán)隊(duì),對(duì)產(chǎn)品路線與商業(yè)化有清晰判斷;同時(shí),Turing 還通過高頻、透明的進(jìn)展匯報(bào)營造出強(qiáng)烈的 FOMO(形容創(chuàng)業(yè)者對(duì)新技術(shù)、新趨勢(shì)敏感的表現(xiàn)),善于動(dòng)員資源。
彼時(shí)的 Turing 與現(xiàn)在的業(yè)務(wù)相距甚遠(yuǎn),UpHonest Capital 投資 Turing 是 2019 年,正值 Zoom 上市,Zoom 早期借助了亞洲工程人才紅利快速成長,投資方認(rèn)為,這是 " 人才地理套利 " 結(jié)構(gòu)性機(jī)會(huì),而 Turing 創(chuàng)始團(tuán)隊(duì)具備亞裔跨境背景與執(zhí)行力,在這一賽道擁有天然優(yōu)勢(shì)。這也是他們投資 Turing 的原因。
不過,業(yè)內(nèi)投資人也表示,Turing 這樣的數(shù)據(jù)標(biāo)注公司,本質(zhì)上還是一種人力資源外包型企業(yè),毛利率不高,需要精細(xì)化運(yùn)作和控制成本。隨著如今數(shù)據(jù)標(biāo)注公司越來越多,數(shù)據(jù)的質(zhì)量成為了競(jìng)爭(zhēng)的勝負(fù)手。
Turing 的上升空間和想象
Turing 正在書寫著 " 經(jīng)濟(jì)上行期 " 的故事。
Turing 最初切入的是遠(yuǎn)程工程師招聘市場(chǎng),憑借 AI 驅(qū)動(dòng)的人才云(Talent cloud,Turing 積攢的人才網(wǎng)絡(luò))平臺(tái)快速壯大。
2021 年,公司成功躋身獨(dú)角獸行列。此時(shí),他們已經(jīng)有了 400 萬專業(yè)開發(fā)者的龐大人才網(wǎng)絡(luò)和 ALAN AI 平臺(tái)(Turing 自研的 AI 模型開發(fā)工具平臺(tái)),并成為了最大、最國際化的開放人才平臺(tái)之一。
但這遠(yuǎn)不是故事的結(jié)局。
當(dāng) OpenAI 等頂級(jí) AI 基礎(chǔ)模型廠商對(duì)數(shù)據(jù)的需求正在瘋漲時(shí),Turing 捕捉到這一機(jī)遇,果斷轉(zhuǎn)型為 AGI 基礎(chǔ)設(shè)施提供商,將以往積攢的龐大資源(軟件工程代碼數(shù)據(jù)及模型評(píng)估能力)包裝成標(biāo)準(zhǔn)化服務(wù)。
如今,頭部模型廠商基本都是 Turing 的客戶,例如,OpenAI、Anthropic、Google、Meta 等頂級(jí) AI 實(shí)驗(yàn)室,Turing 為他們提供模型訓(xùn)練、微調(diào)和智能體開發(fā)等底層支持。
如果了解大語言模型的誕生經(jīng)過就知道,大模型會(huì)先將大量從網(wǎng)頁上收集到的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,然后再經(jīng)過微調(diào)和后訓(xùn)練,讓 AI 模型學(xué)習(xí)如何回答問題,在監(jiān)督微調(diào)中,模型可以通過專門的數(shù)據(jù),學(xué)會(huì)新的技能。這個(gè)專門的數(shù)據(jù),就是 Turing 提供的,標(biāo)注過的,高質(zhì)量數(shù)據(jù)集。
這個(gè)目的是讓模型學(xué)習(xí)和泛化。因此,數(shù)據(jù)標(biāo)注的專業(yè)性在這個(gè)環(huán)節(jié)就顯得尤為重要。
Turing 的人才庫中,有涉及不同領(lǐng)域的專家。喬納森表示,他們要做的就是提供互聯(lián)網(wǎng)上搜不到的數(shù)據(jù)。
資本市場(chǎng)對(duì) Turing 的認(rèn)可度可以用 " 估值翻倍 " 來概括。2021 年底的 Series D 輪融資中,公司籌得 8700 萬美元,投后估值約 11 億美元,正式成為獨(dú)角獸。
2025 年 3 月完成的 Series E 輪融資:1.11 億美元的資金注入讓估值直接翻倍至 22 億美元。這輪融資由馬來西亞主權(quán)財(cái)富基金 Khazanah Nasional Berhad 領(lǐng)投,WestBridge Capital、Sozo Ventures、UpHonest Capital 等十多家機(jī)構(gòu)參投。
截至 Series E 完成,Turing 累計(jì)融資總額約 2.25 億美元。更值得關(guān)注的是其業(yè)績(jī)表現(xiàn):2024 年公司年度收入達(dá)到 3 億美元規(guī)模,較上一年增長三倍,并成功實(shí)現(xiàn)盈虧平衡。
我們梳理了 Turing 的融資歷史:
2018-2019 年:獲得種子資金,2019 年完成 1400 萬美元種子輪
2020 年 12 月:完成 3200 萬美元 Series B 輪,由 WestBridge Capital 領(lǐng)投
2021 年 12 月:完成 8700 萬美元 Series D 輪,估值 11 億美元成為獨(dú)角獸
2025 年 3 月:完成 1.11 億美元 Series E 輪,估值 22 億美元
最新財(cái)務(wù)數(shù)據(jù)顯示,Turing 的 年度經(jīng)常性收入(ARR)約 3 億美元。
創(chuàng)始人:連續(xù)創(chuàng)業(yè)者的故事
Turing 由 Jonathan Siddharth 和 Vijay Krishnan 于 2018 年聯(lián)合創(chuàng)立。
兩位創(chuàng)始人均擁有斯坦福大學(xué)計(jì)算機(jī)科學(xué)碩士背景,在校期間因?qū)C(jī)器學(xué)習(xí)的共同興趣而結(jié)識(shí),并萌生了聯(lián)合創(chuàng)業(yè)的想法 。研究生畢業(yè)后,他們多次合作技術(shù)項(xiàng)目并嘗試創(chuàng)業(yè)。
2008 年,他們聯(lián)合創(chuàng)辦了內(nèi)容推薦平臺(tái) Rover,后于 2016 年被 Revcontent 收購 ,兩人深刻體會(huì)到僅依賴灣區(qū)本地招募頂尖工程師的局限,于是開始嘗試遠(yuǎn)程分布式團(tuán)隊(duì)的模式 。
在這個(gè)過程中,他們逐步摸索出如何高效甄別和管理全球各地的人才,并 " 無心插柳 " 地獲得了打造 AI 驅(qū)動(dòng)的人才云平臺(tái)的靈感。
2018 年,Jonathan 和 Vijay 將這一洞見付諸實(shí)踐,創(chuàng)立了 Turing ,以機(jī)器學(xué)習(xí)技術(shù)對(duì)工程師進(jìn)行技能審核和匹配,幫助企業(yè) " 云端組建 " 全球開發(fā)者團(tuán)隊(duì)。
正如 Jonathan 所強(qiáng)調(diào)的,傳統(tǒng)線下招聘和外包模式已難以滿足高速發(fā)展的科技行業(yè)需求,他們希望通過 Turing 打造全球人才網(wǎng)絡(luò),讓企業(yè) " 不受地理位置限制找到世界上最優(yōu)秀的人才 "。
一個(gè) AI 轉(zhuǎn)型企業(yè)的教科書式樣本
Turing 的華麗轉(zhuǎn)身值得細(xì)說,因?yàn)樗麄兯涎莸墓适聨缀蹩胺Q傳統(tǒng)企業(yè)向 AI 企業(yè)轉(zhuǎn)型的標(biāo)準(zhǔn)教科書。
在收到 OpenAI 需求時(shí),喬納森坦言,他們當(dāng)時(shí)完全沒料到 ChatGPT 會(huì)引發(fā) AI 熱潮,更沒想到 " 軟件工程師的代碼對(duì)教會(huì)大語言模型思考和推理如此重要 "。" 他們的要求簡(jiǎn)直是瘋了,他們想要在這么短的時(shí)間內(nèi)獲得大量數(shù)據(jù)。" 喬納森回憶。
但最后,Turing 確實(shí)給 OpenAI 在模型性能上提供了巨大幫助,使得 ChatGPT 能夠在發(fā)布后,震驚世界。
另一面,Turing 并沒有完全拋棄原有業(yè)務(wù)。創(chuàng)始人強(qiáng)調(diào),各條業(yè)務(wù)線都在增長,只是把主要資源投入到 AI 相關(guān)的新業(yè)務(wù)上。這種務(wù)實(shí)的做法為新戰(zhàn)略提供了現(xiàn)金流支撐。
轉(zhuǎn)型后的 Turing 形成了兩大核心業(yè)務(wù)板塊,即公司內(nèi)部稱為 "Turing AGI Advancement" 和 "Turing Intelligence" 的兩條業(yè)務(wù)線。
Turing AGI Advancement 專門服務(wù)全球頂級(jí) AI 實(shí)驗(yàn)室,幫助提升前沿基礎(chǔ)模型的各項(xiàng)能力。簡(jiǎn)單說,就是讓 AI 模型變得更聰明。他們?yōu)?OpenAI、Anthropic、Google、Meta 等頂尖公司提供高質(zhì)量訓(xùn)練數(shù)據(jù)、代碼生成、模型微調(diào)等服務(wù)。
Turing Intelligence 則致力于將前沿 AI 能力轉(zhuǎn)化為企業(yè)應(yīng)用。面向財(cái)富 500 強(qiáng)企業(yè)和政府機(jī)構(gòu),構(gòu)建定制的 AI 系統(tǒng)和解決方案,幫助傳統(tǒng)企業(yè)實(shí)現(xiàn)智能化升級(jí)。
兩條產(chǎn)品線分別對(duì)應(yīng) " 造模型引擎 " 與 " 用模型賦能 ",既服務(wù) AI 行業(yè)本身,又將 AI 能力推廣到各行各業(yè)。
支撐業(yè)務(wù)發(fā)展的是 Turing 的兩大核心資產(chǎn),這兩大資產(chǎn)又能夠形成閉環(huán),為 Turing 提供源源不斷的專業(yè)數(shù)據(jù)資產(chǎn)。
首先是 AI 驅(qū)動(dòng)的人才云平臺(tái)。Turing 聲稱通過自動(dòng)化測(cè)試篩選,Turing 從全球數(shù)百萬報(bào)名者中篩選出 400 萬技術(shù)人才,堪稱全球最大的人類智能網(wǎng)絡(luò)之一。當(dāng) AI 項(xiàng)目需要特定專家時(shí),平臺(tái)能迅速匹配合適團(tuán)隊(duì)。
例如,當(dāng) OpenAI 需要大量 Python/C++ 工程師編寫代碼來豐富模型訓(xùn)練數(shù)據(jù)集時(shí),Turing 可以迅速組建起一支分布式的專業(yè)開發(fā)者團(tuán)隊(duì)投入任務(wù) ;又如某制藥企業(yè)需要生命科學(xué)背景的標(biāo)注人員來給模型做專業(yè)數(shù)據(jù)標(biāo)記,Turing 也能從人才庫中篩選出合格的 PhD 等高端人選。
其次是自研的 ALAN AI 工具平臺(tái),用于高效編排 AI 模型開發(fā)的各類工作流。ALAN 將人類專家與機(jī)器算法緊密結(jié)合,支持從數(shù)據(jù)生成到模型評(píng)估的全流程自動(dòng)化。Turing 通過這個(gè)平臺(tái)實(shí)現(xiàn)了模型訓(xùn)練與優(yōu)化的 " 流水線式 " 標(biāo)準(zhǔn)化生產(chǎn)。
Turing 最初采用典型的人力資源外包模式,通過撮合企業(yè)與遠(yuǎn)程開發(fā)者并抽取傭金盈利。
轉(zhuǎn)型后,商業(yè)模式變得更加多元:
在 Turing AGI Advancement 板塊,公司的主要客戶是全球頂級(jí)的 AI 模型研發(fā)機(jī)構(gòu)。這些 AI Labs 利用 Turing 來獲取大規(guī)模的定制數(shù)據(jù)服務(wù)和人類反饋,例如為模型生成代碼語料、構(gòu)建評(píng)測(cè)基準(zhǔn)、執(zhí)行模型對(duì)比測(cè)試,以及提供成百上千名有特定領(lǐng)域?qū)I(yè)的標(biāo)注人員進(jìn)行 RLHF 微調(diào)等 。
Turing Intelligence 板塊,則類似軟件項(xiàng)目制或訂閱制,從需求分析到部署運(yùn)維,提供端到端的 AI 應(yīng)用開發(fā)服務(wù)。在多個(gè)行業(yè)已有顯著成果,例如幫助醫(yī)院降低 15% 庫存成本、將制藥晶體分析時(shí)間從 250 小時(shí)縮短到 2-3 小時(shí)、提升銀行客服響應(yīng)速度 40%
2024 年,Turing 實(shí)現(xiàn)了盈利,這也證明了商業(yè)模式的可持續(xù)性。投資者也給予高度評(píng)價(jià),從 Foundation Capital、WestBridge 到馬來西亞主權(quán)基金,每輪融資都有頂級(jí)機(jī)構(gòu)背書。
數(shù)據(jù)標(biāo)注進(jìn)入 " 精英喂養(yǎng) " 時(shí)代
根據(jù)市場(chǎng)研究機(jī)構(gòu)預(yù)測(cè),全球 AI 數(shù)據(jù)收集與標(biāo)注市場(chǎng) 2024 年的規(guī)模已達(dá)到約 180 億美元,預(yù)計(jì) 2025 年將增至約 220 億美元,此后幾年維持 20 – 30% 的年復(fù)合增長率 。
這一領(lǐng)域受到資本的熱烈追捧:Scale AI 等頭部公司的高估值就是明證。例如 Meta 斥資 143 億美元 收購 Scale AI 49% 股權(quán),將該數(shù)據(jù)標(biāo)注獨(dú)角獸估值推高至 290 億美元,并挖走其 CEO 負(fù)責(zé) Meta 的超級(jí)智能項(xiàng)目 。
OpenAI 的內(nèi)部評(píng)估亦印證了這種趨勢(shì)——其表示,下一代模型若按傳統(tǒng)方式訓(xùn)練,性能增益將大幅低于預(yù)期,GPT-5 就是最好的例子 。為突破瓶頸,各大實(shí)驗(yàn)室紛紛尋求解決方案,包括從企業(yè)自身業(yè)務(wù)中挖掘私有數(shù)據(jù)、生成合成數(shù)據(jù)、引入更多人類反饋等。
去年 12 月,OpenAI 展示了一項(xiàng)叫做 "Test-Time Scaling" 的新技術(shù)測(cè)試結(jié)果,這被業(yè)界視為大模型在后預(yù)訓(xùn)練時(shí)代提升能力的重要突破。這個(gè)技術(shù)簡(jiǎn)單來說,就是讓 AI 在回答問題時(shí)花更多時(shí)間 " 思考 ",從而給出更準(zhǔn)確的答案。
2024 年下半年,OpenAI 秘密開發(fā)了一個(gè)代號(hào)為 "Orion" 的新模型。公司內(nèi)部原本計(jì)劃將它作為萬眾矚目的 GPT-5 發(fā)布,期望它能比當(dāng)時(shí)最強(qiáng)的 GPT-4o 模型表現(xiàn)更出色。然而,測(cè)試結(jié)果讓人失望—— Orion 的表現(xiàn)并沒有達(dá)到預(yù)期的大幅提升。
從 Orion 到 GPT-4.5 再到 GPT-5,海外媒體的許多報(bào)道印證了一個(gè)事實(shí):性能提升確實(shí)不夠顯著。這期間,關(guān)于 OpenAI 面臨數(shù)據(jù)瓶頸的消息不斷傳出。特別值得注意的是,OpenAI 前首席科學(xué)家 Ilya Sutskever 在一次公開演講中曾表示,支持 Scaling Law(算力越大越好)的高質(zhì)量訓(xùn)練數(shù)據(jù)已經(jīng)不多了。
一個(gè)顯而易見的趨勢(shì)是,數(shù)據(jù)標(biāo)注正在進(jìn)入 " 精英喂養(yǎng) " 時(shí)代,各領(lǐng)域的專家,取代了初級(jí)數(shù)據(jù)標(biāo)注員。
其中,引入海量高質(zhì)量人類標(biāo)注和代碼數(shù)據(jù)被證明是近期最有效的手段之一 。例如,Meta 在訓(xùn)練 Llama3 模型時(shí)投入了超過 1000 萬條人類標(biāo)注數(shù)據(jù) 。但如此巨量且高質(zhì)量的數(shù)據(jù)獲取絕非易事,必須建立起專業(yè)化的數(shù)據(jù)生產(chǎn)流水線。
這正是像 Turing 這樣的 AI 數(shù)據(jù)服務(wù)商崛起的背景:它們填補(bǔ)了 AI 實(shí)驗(yàn)室 " 數(shù)據(jù)生產(chǎn)能力 " 的空白,幫助后者源源不斷地獲取所需的 " 燃料 ",從而延續(xù) Scaling Law。
喬納森在 Turing 官網(wǎng)上發(fā)布了一篇文章提出,領(lǐng)先的前沿實(shí)驗(yàn)室正在面臨新的挑戰(zhàn)——需要具有適當(dāng)深度、多樣性和反饋結(jié)構(gòu)的數(shù)據(jù),從而真正釋放能力提升——這意味著,數(shù)據(jù)標(biāo)注領(lǐng)域,正在進(jìn)入 " 精英喂養(yǎng) " 的模式。喬納森則表示,Turing 采取的是中立的態(tài)度,不會(huì)與任何實(shí)驗(yàn)室對(duì)抗。
Surge AI 的創(chuàng)始人 Edwin Chen 表示,質(zhì)量高于一切。Turing 則能夠提供 400 多萬軟件工程師、數(shù)據(jù)科學(xué)家、領(lǐng)域?qū)<业娜瞬艓?;能夠即時(shí)聘跨專業(yè)領(lǐng)域的博士、奧林匹克級(jí)別的人才;發(fā)起人工智能驅(qū)動(dòng)的審查,確保每位貢獻(xiàn)者的質(zhì)量一致。
不過,隨著資本不斷涌入,這個(gè)賽道正變得越來越擁擠。數(shù)據(jù)質(zhì)量是決定這個(gè)行業(yè)的勝負(fù)手,并且,當(dāng)大語言模型的性能提升曲線逐漸平緩,對(duì)數(shù)據(jù)標(biāo)注的質(zhì)量要求將越來越高。
Turing 的挑戰(zhàn):精細(xì)化運(yùn)營和數(shù)據(jù)質(zhì)量
在 AI 數(shù)據(jù)服務(wù)領(lǐng)域,Turing 和 SurgeAI 這兩家十分有潛力的 AI 公司走出了截然不同的路子,就像兩個(gè)基因不同的物種,各有各的生存策略。
Turing 更像一個(gè)什么都能干的 " 一站式平臺(tái) "。由于一開始的人才云業(yè)務(wù)積累,它的業(yè)務(wù)范圍很寬,既能提供技術(shù)人員(工程師、數(shù)據(jù)科學(xué)家),又能提供高質(zhì)量的代碼數(shù)據(jù)和評(píng)測(cè),并依靠這些能力幫助企業(yè)搭建 AI 系統(tǒng)。
而 Surge AI 走的是精品路線,主要做多輪對(duì)話標(biāo)注、AI 安全測(cè)試、復(fù)雜評(píng)測(cè)等高難度任務(wù),需要頂級(jí)專家和嚴(yán)格流程來保證質(zhì)量。業(yè)內(nèi)提到它的融資時(shí),都會(huì)強(qiáng)調(diào) " 人類在環(huán) " 這個(gè)定位。其創(chuàng)始人 Edwin Chen 在談及 SurgeAI 業(yè)務(wù)時(shí),十分 " 驕傲 ",并始終強(qiáng)調(diào) " 質(zhì)量為王 "。
它的擴(kuò)張邏輯與 Turing 完全不同:不求量大,但求價(jià)值高。圍繞高質(zhì)量數(shù)據(jù)這個(gè)核心,不斷完善工具和流程,讓每個(gè)數(shù)據(jù)樣本都更值錢。
在 AI 數(shù)據(jù)提供這方面,SurgeAI 雖然晚成立 2 年,但已經(jīng)圍繞數(shù)據(jù)深入做好了相關(guān)技術(shù)儲(chǔ)備,甚至被稱為 " 業(yè)內(nèi)早已公認(rèn)超越了 ScaleAI",而 Turing 的資源池積累相對(duì)更大一些,未來的 Turing 還有多大上升空間,值得關(guān)注。