
作者|李一飛
編輯|陳伊凡
頭圖|AI 生成
"AI 原生 100" 是虎嗅科技組推出針對 AI 原生創(chuàng)新欄目,這是本系列的第「31」篇文章。
兩個(gè)滑鐵盧大學(xué)生,靠數(shù)據(jù)標(biāo)注平臺(tái),在半年里賺了 290 萬美金,并在成立一年多的時(shí)間,撬動(dòng)了 1770 萬美元(約合人民幣 1.2 億元)的融資。

這就是 Datacurve,一個(gè)試圖挑戰(zhàn) Scale AI 的年輕公司。
高質(zhì)量數(shù)據(jù)領(lǐng)域的爭奪已經(jīng)成為了 AI 里最激烈的戰(zhàn)場。催生了 Scale AI、Turing、Surge 以及 Mercor 這樣的公司,Scale AI 作為這個(gè)領(lǐng)域絕對獨(dú)角獸,估值已經(jīng)達(dá)到 200 多億美元,我們的 "AI 原生 100" 欄目之前寫過的 Turing 這家公司,估值達(dá)到 22 億美元。
Datacurve 區(qū)別于這些數(shù)據(jù)標(biāo)注公司一個(gè)很重要的點(diǎn),也是我們之所以在欄目中介紹這家公司的原因是,他們選擇了一個(gè)" 游戲化標(biāo)注" 的方式,
它搭建了一個(gè)名為 Shipd 的平臺(tái),將算法題、調(diào)試任務(wù)、測試用例等中高難度編程挑戰(zhàn)打包為 " 通關(guān)任務(wù) "(Quests),明碼標(biāo)價(jià)邀請工程師參與完成,任務(wù)通過后即可獲得現(xiàn)金報(bào)酬。這些經(jīng)過工程師驗(yàn)證的數(shù)據(jù)最終會(huì)被售賣給 AI 公司或模型實(shí)驗(yàn)室,用于訓(xùn)練和微調(diào)大模型。
這種 " 賞金獵人 " 的方式給 Datacurve 積攢了人氣。2025 年 10 月,Datacurve 宣布完成 1500 萬美元 A 輪融資,累計(jì)融資總額達(dá)到 1770 萬美元。這輪融資由 Chemistry 的 Mark Goldberg 領(lǐng)投,DeepMind、Anthropic、OpenAI 等 AI 一線公司員工也出現(xiàn)在投資名單中。
虎嗅和業(yè)內(nèi)投資人聊過數(shù)據(jù)標(biāo)注公司的模式,對這些公司來說,除了數(shù)據(jù)質(zhì)量,組織管理也至關(guān)重要,這些負(fù)責(zé)標(biāo)注的人就類似一種 " 零工 " 的形式,如何有效管理這些數(shù)據(jù)標(biāo)注師,通過精細(xì)化管理,讓這些 " 零工 " 參與到數(shù)據(jù)標(biāo)注中。
如何用非金錢誘惑撬動(dòng)頂尖工程師?
Datacurve 在官網(wǎng)提到,旗下 Shipd 平臺(tái)目前已經(jīng)吸引超過一萬四千名工程師注冊參與任務(wù)。
這個(gè)數(shù)據(jù)引出了一個(gè)關(guān)鍵問題:在報(bào)酬遠(yuǎn)低于正式開發(fā)工作的情況下,為什么仍有如此多具備中高級技能的工程師愿意投入時(shí)間與精力參與這樣一項(xiàng)看似數(shù)據(jù)標(biāo)注的任務(wù)?
在公開采訪中,CEO Serena Ge 給出了答案,她強(qiáng)調(diào)金錢并不是最強(qiáng)的驅(qū)動(dòng)力,真正吸引工程師留下的是平臺(tái)提供的挑戰(zhàn)感、游戲感與參與體驗(yàn)。她將 Shipd 定義為 "a consumer product, not a data labeling operation",Shipd 是一個(gè)供玩家消費(fèi)和體驗(yàn)的產(chǎn)品,金錢只是附加獎(jiǎng)勵(lì)。
為了實(shí)現(xiàn)這一理念,Datacurve 從以下幾個(gè)方面優(yōu)化了用戶體驗(yàn),提升了平臺(tái)的吸引力:
其一,任務(wù)本身具備足夠的技術(shù)挑戰(zhàn)性。平臺(tái)通過設(shè)定多層驗(yàn)證機(jī)制,包括自動(dòng)測試、同行評審與專家審核,確保數(shù)據(jù)集達(dá)到研究級標(biāo)準(zhǔn)。這種設(shè)計(jì)既提高了數(shù)據(jù)質(zhì)量,也提升了工程師的技術(shù)門檻,從而增強(qiáng)了他們面對任務(wù)時(shí)的解題動(dòng)機(jī)。

其二,平臺(tái)引入了 " 賞金獵人 " 形式與游戲化結(jié)構(gòu)。Shipd 中的任務(wù)被包裝為 "Quests",涵蓋算法挑戰(zhàn)、調(diào)試任務(wù)、UI/UX 生成等內(nèi)容。平臺(tái)設(shè)有排行榜、連勝獎(jiǎng)勵(lì)與任務(wù)等級,參與者在其中既是解題者,也是競技者。這些機(jī)制讓任務(wù)更像一場技術(shù)副本,而非一份重復(fù)工單,也為工程師提供了可量化的聲望積累。
其三,Shipd 試圖搭建一種工程師為中心的社區(qū)文化,平臺(tái)多次強(qiáng)調(diào) engineer-first culture,力圖為高技能參與者提供一個(gè)有歸屬感、認(rèn)可度與專業(yè)認(rèn)同的生態(tài)環(huán)境,而非單純的任務(wù)派發(fā)系統(tǒng)。
這種 " 游戲化 + 精英制 " 的設(shè)計(jì),讓 Shipd 與傳統(tǒng)平臺(tái)形成了鮮明對比,它并不試圖讓所有人都能參與,而是挑選能完成特定類型任務(wù)的那一類人。從工程師側(cè)來看,這種機(jī)制既好玩、有成就感,也有現(xiàn)實(shí)收益;從平臺(tái)側(cè)來看,它在數(shù)據(jù)質(zhì)量這件事上建立了篩選機(jī)制,形成了獨(dú)特的護(hù)城河。
Shipd 成了一個(gè)介于挑戰(zhàn)、游戲、交易與知識生產(chǎn)之間的混合型產(chǎn)品,它靠的不是更多的人,而是更強(qiáng)的人和更優(yōu)質(zhì)的數(shù)據(jù)。
產(chǎn)品理念與冷啟動(dòng)過程
Datacurve 的起點(diǎn)是從需求倒推回來的。
Serena Ge 曾在 Cohere 實(shí)習(xí),參與大語言模型的訓(xùn)練項(xiàng)目。Cohere 是一家從事大型語言模型和 AI 產(chǎn)品開發(fā)與商業(yè)化的人工智能技術(shù)公司,致力于提高內(nèi)部模型的推理能力和代碼生成能力;相比之下,Datacurve 則專注于外部數(shù)據(jù)收集,致力于構(gòu)建更高質(zhì)量、更具挑戰(zhàn)性的編碼數(shù)據(jù)集。兩家公司的性質(zhì)差異決定其天然是上下游合作伙伴,而這種技術(shù)合作也延續(xù)到資本層面,Cohere 后來成為 Datacurve 的早期投資人之一。
在 Cohere 的實(shí)習(xí)經(jīng)歷令 Serena Ge 很快意識到一個(gè)現(xiàn)實(shí)困境:模型能力越來越強(qiáng),但高質(zhì)量編碼數(shù)據(jù)的供給卻始終是瓶頸。傳統(tǒng)標(biāo)注方式無法滿足模型所需的復(fù)雜度與專業(yè)性,而缺失的數(shù)據(jù)又像一塊空白拼圖,直接影響模型的實(shí)際能力。
如果把這些缺失的數(shù)據(jù)變成具備挑戰(zhàn)性質(zhì)的題目,把數(shù)據(jù)標(biāo)注變成以游戲化平臺(tái)激勵(lì)工程師貢獻(xiàn)數(shù)據(jù)呢?
在這樣的想法推動(dòng)下,Serena 和 Charley Lee 嘗試搭建了一個(gè)簡化原型并在幾個(gè)技術(shù)社區(qū)嘗試發(fā)布任務(wù)、收集回應(yīng)。他們發(fā)現(xiàn)這些測試任務(wù)很快吸引了一批對另類編程挑戰(zhàn)感興趣的工程師,而這些人給出的反饋遠(yuǎn)遠(yuǎn)超出他們預(yù)期:不僅認(rèn)真完成任務(wù),還提出了改進(jìn)建議,并希望能獲得排行榜積分。
這一嘗試為 Datacurve 打通了進(jìn)入硅谷最大孵化器—— Y Combinator 的大門。2024 年冬季,Datacurve 正式入選 YC 冬季項(xiàng)目中,并在這期間完成了平臺(tái)早期版本的開發(fā)、跑通了任務(wù)的評審機(jī)制,也驗(yàn)證了平臺(tái)在工程師群體中的吸引力。

Serena 始終認(rèn)為 "Shipd 是面向工程師的消費(fèi)者產(chǎn)品,而不是數(shù)據(jù)標(biāo)記操作。" 他們將大量精力投入在用戶體驗(yàn)優(yōu)化上,每一處都朝著 " 讓人愿意來、愿意留 " 的方向打磨。平臺(tái)上線不久就已支付出超過 100 萬美元的賞金,吸引了來自亞馬遜、AMD 等企業(yè)的高級工程師參與,并獲得正向反饋。
在打通數(shù)據(jù)收集與社區(qū)運(yùn)營這兩個(gè)核心環(huán)節(jié)后,Datacurve 開始推進(jìn)商業(yè)化路徑。在產(chǎn)品啟動(dòng)初期,Datacurve 聚焦于與高端 AI 實(shí)驗(yàn)室和工具型初創(chuàng)公司建立合作,包括 OpenAI、Anthropic 等基礎(chǔ)模型實(shí)驗(yàn)室,以及面向開發(fā)者的智能編碼工具團(tuán)隊(duì)。依托早期投資人網(wǎng)絡(luò)與口碑傳播,Datacurve 逐步實(shí)現(xiàn)高質(zhì)量數(shù)據(jù)的對接與銷售。
Datacurve 成立于 2024 年,不到一年便完成種子輪與 A 輪,總?cè)谫Y達(dá) 1770 萬美元,成功實(shí)現(xiàn)了從融資到打通工程師、獲取高質(zhì)量數(shù)據(jù),再到對接頂級客戶,隨后融資增長的閉環(huán),呈現(xiàn)出一條清晰的初創(chuàng)公司成長路徑。
代碼歸誰:版權(quán)風(fēng)險(xiǎn)與合規(guī)機(jī)制
在 Datacurve 的平臺(tái)上,工程師提交的每一份代碼最終都會(huì)被打包進(jìn)高質(zhì)量數(shù)據(jù)集售賣給 AI 公司。這不由讓人思考:代碼的歸屬權(quán)到底是誰的?這些數(shù)據(jù)真的安全嗎?這并非單一平臺(tái)的問題,而是整個(gè)數(shù)據(jù)標(biāo)注行業(yè)的普遍挑戰(zhàn)。
作為數(shù)據(jù)標(biāo)注領(lǐng)域的代表性公司,Surge AI 采用 human-in-the-loop 機(jī)制,由領(lǐng)域?qū)<遗浜隙ㄖ苹P凸餐瓿蓸?biāo)注,確保輸出不僅精準(zhǔn),還具備較好的上下文理解力。面對敏感或模糊任務(wù),平臺(tái)通常安排多輪人工復(fù)核,盡量減少偏差與誤判。在合規(guī)層面,Surge AI 提供可審計(jì)的數(shù)據(jù)流程,支持客戶對數(shù)據(jù)使用路徑進(jìn)行追蹤與管理。盡管如此,Surge AI 也曾被爆出內(nèi)部文檔泄露,可見其仍存在監(jiān)管與安全漏洞。
Datacurve 的解題思路則是在機(jī)制上做了幾層防護(hù):
第一層是貢獻(xiàn)者聲明。每個(gè)工程師在提交代碼前都要簽署一份承諾書,保證自己提交的內(nèi)容是原創(chuàng)的或者已經(jīng)擁有足夠的使用授權(quán)。
第二層是自動(dòng)抄襲檢測。平臺(tái)會(huì)用工具自動(dòng)掃描代碼內(nèi)容,識別是否存在復(fù)制、篡改或來自敏感源的內(nèi)容,避免搬運(yùn)工混進(jìn)來。
第三層是共識評審機(jī)制。一個(gè)任務(wù)的解決方案不只由平臺(tái)驗(yàn)收,還會(huì)交給多位工程師打分。這種同行互評,既提高了解法質(zhì)量,也相當(dāng)于多雙眼睛在幫忙看有沒有版權(quán)風(fēng)險(xiǎn)。
除此之外,Datacurve 還從源頭控制任務(wù)來源,也就是優(yōu)先發(fā)布來自受控倉庫的題目,避免涉及企業(yè)私有代碼。有些任務(wù)甚至要求工程師在沙盒環(huán)境中從零寫起,不允許修改已有代碼。
在法律層面,Datacurve 也做了清晰的劃分。平臺(tái)通過 " 數(shù)據(jù)合同 " 和 " 許可協(xié)議 " 來定義數(shù)據(jù)的使用范圍、歸屬權(quán)和責(zé)任邊界,無論是客戶還是貢獻(xiàn)者,合作的前提都是雙方知道自己在交什么、買什么、承擔(dān)什么。
當(dāng)然,機(jī)制做得再多,公司可能面臨的版權(quán)風(fēng)險(xiǎn)在數(shù)據(jù)走向規(guī)模化和跨機(jī)構(gòu)流通的過程中依然不能忽視。目前來看,Datacurve 的做法已比傳統(tǒng)數(shù)據(jù)平臺(tái)更扎實(shí),只是這些風(fēng)險(xiǎn)防范措施是否能撐得住未來復(fù)雜的版權(quán)訴求,仍待實(shí)踐驗(yàn)證。
亞裔聚集的數(shù)據(jù)標(biāo)注領(lǐng)域
在數(shù)據(jù)標(biāo)注領(lǐng)域,聚集了亞裔創(chuàng)始人的身影。
虎嗅和業(yè)內(nèi)投資人探討過這個(gè)問題,數(shù)據(jù)標(biāo)注領(lǐng)域是個(gè)苦活兒,亞裔努力的特質(zhì)可能更適合這個(gè)行業(yè)。
無論是已經(jīng)在行業(yè)領(lǐng)先的獨(dú)角獸巨頭 Scale AI,還是將專家網(wǎng)絡(luò)轉(zhuǎn)為訓(xùn)練工廠的 Mercor、Turning,亦或是剛剛嶄露頭角 Datacurve,我們都能看到一群來自不同文化背景的亞裔面孔。我們整理了部分代表性的團(tuán)隊(duì)成員和他們正在推動(dòng)的產(chǎn)品方向。
| 公司 | 成立時(shí)間 | 核心團(tuán)隊(duì)亞裔成員 | 公司背景(原生數(shù)據(jù)公司 /HR 公司轉(zhuǎn)型) | 專注方向(精細(xì)高端化 / 一站式平臺(tái)) | 核心業(yè)務(wù) | 核心競爭力 |
|---|---|---|---|---|---|---|
| Scale AI | 2016 | Alexandr Wang(CEO)、Lucy Guo(聯(lián)合創(chuàng)始人) | 原生數(shù)據(jù)公司 | 一站式平臺(tái) | 數(shù)據(jù)標(biāo)注、模型評估與平臺(tái)能力 ; 深耕自動(dòng)駕駛、生成式 AI、國防領(lǐng)域 ; 設(shè)有安全對齊實(shí)驗(yàn)室 | 深耕自動(dòng)駕駛、生成式 AI、國防等垂直領(lǐng)域 ; 設(shè)有安全對齊實(shí)驗(yàn)室 |
| Turing | 2018 | Jonathan Siddharth (CEO)、Vijay Krishnan (CTO) | 人力資源公司轉(zhuǎn)型 | 精細(xì)高端化 + 人才云一體化 | 人才云服務(wù)、AI 驅(qū)動(dòng)匹配 ; 訓(xùn)練數(shù)據(jù)與人才管理一體化 ; 合作客戶含 OpenAI 等 | AI 驅(qū)動(dòng)的人才匹配技術(shù) ; 與 OpenAI 頂級客戶的合作關(guān)系 |
| Mercor | 2023 | Adarsh Hiremath(CTO)、Surya Midha(聯(lián)合創(chuàng)始人) | 人力資源公司轉(zhuǎn)型 | 精細(xì)高端化 | 用 AI 面試篩選跨領(lǐng)域人才,承接 RLHF、SFT、Eval 任務(wù) | AI 驅(qū)動(dòng)的人才匹配技術(shù);高薪酬吸引頂尖專家; 與 OpenAI、Anthropic 等簽下長約 |
| Surge AI | 2020 | Edwin Chen(CEO) | 原生數(shù)據(jù)公司 | 精細(xì)高端化 | 高質(zhì)量數(shù)據(jù)標(biāo)注、RLHF 支持、NLP 與對抗訓(xùn)練等 | 嚴(yán)格的質(zhì)控流程、專家級標(biāo)注團(tuán)隊(duì)和現(xiàn)代化 API 接入能力 |
| Datacurve | 2024 | Serena Ge(CEO)、Charley Lee(CTO) | 原生數(shù)據(jù)公司 | 精細(xì)高端化 | 高質(zhì)量數(shù)據(jù)標(biāo)注 | " 賞金獵人 " 模式吸引熟練的軟件工程師、工程師優(yōu)先理念、嚴(yán)格的質(zhì)量控制措施 |
虎嗅根據(jù)公開資料整理
在梳理這些數(shù)據(jù)標(biāo)注公司時(shí),我們也發(fā)現(xiàn),這些數(shù)據(jù)標(biāo)注公司基本分為幾大類,一類是由人力資源公司轉(zhuǎn)型而來,例如 mercor 和 Turing;一類是新型數(shù)據(jù)公司轉(zhuǎn)型而來。
Mercor 最初是一家 AI 招聘公司,通過 AI 面試技術(shù)匹配技術(shù)人才,擁有一個(gè)高質(zhì)量的專家人才庫。隨著 AI 數(shù)據(jù)標(biāo)注需求的增長,Mercor 依托其積累的醫(yī)生、律師等專家資源迅速轉(zhuǎn)向?yàn)?AI 實(shí)驗(yàn)室提供數(shù)據(jù)標(biāo)注服務(wù)。這一轉(zhuǎn)型使其從 Scale AI 的勞務(wù)供應(yīng)商蛻變?yōu)橹苯痈偁帉κ郑貏e是在 RLHF 和垂直領(lǐng)域標(biāo)注任務(wù)方面,Mercor 展現(xiàn)出了很強(qiáng)的競爭力。
Turing 的轉(zhuǎn)型路徑與之類似。Turing 最初專注于遠(yuǎn)程工程師招聘,通過 Talent Cloud 模式建立人才庫。隨著市場需求演變,Turing 逐步擴(kuò)展至 AI 基礎(chǔ)設(shè)施服務(wù)領(lǐng)域,將業(yè)務(wù)范圍從人才匹配延伸至代碼數(shù)據(jù)標(biāo)注、模型微調(diào)及企業(yè) AI 轉(zhuǎn)型咨詢,實(shí)現(xiàn)了從單一人才服務(wù)向訓(xùn)練數(shù)據(jù)與人才管理一體化平臺(tái)的轉(zhuǎn)型升級。
Datacurve 面臨的競爭壓力并不小,最直接的是來自 Surge AI,兩家都是走精細(xì)化高質(zhì)量數(shù)據(jù)的路線。并且 Datacurve 的賞金模式看似新穎,但復(fù)制門檻卻并不高,真正決定平臺(tái)護(hù)城河的是它能否真的持續(xù)產(chǎn)出對模型性能有幫助的數(shù)據(jù),能否在高質(zhì)量與可擴(kuò)展性之間找到平衡,能否維持社區(qū)內(nèi)工程師的長期參與。
不過,Datacurve 并未把未來押在工程師數(shù)據(jù)這一條路上,創(chuàng)始人 Serena Ge 已明確表示他們的平臺(tái)機(jī)制具備跨行業(yè)遷移的能力,未來可能拓展到金融、醫(yī)學(xué)、營銷等垂直專業(yè)領(lǐng)域。
