聽(tīng)說(shuō)了嗎,GPT-5 這兩天那叫一個(gè)瘋狂造勢(shì),奧特曼怕不是真有些急了(doge)。
不僅由 " 萬(wàn)物皆可吉卜力 " 為始,GPT-4o 生圖功能被網(wǎng)友們瘋玩至今,更重要的是,還引發(fā)了更深的技術(shù)思考:
AIGC 的范式,已經(jīng)被悄然改變。
從割裂地處理文本、圖像、聲音,到現(xiàn)在,大眾在應(yīng)用領(lǐng)域的反饋已經(jīng)證明,AI 需要以更接近人類認(rèn)知的方式,融合多模態(tài)信息。
新的技術(shù)趨勢(shì)值得關(guān)注,也有人第一時(shí)間開(kāi)源了對(duì)新范式的深入思考:
昆侖萬(wàn)維已開(kāi)源多模態(tài)統(tǒng)一模型 Skywork UniPic,和 GPT-4o 呈現(xiàn)出類似的圖像一體化能力,在單一模型里實(shí)現(xiàn)圖像理解、文本到圖像生成、圖像編輯三大核心能力的深度融合。
對(duì)生圖提示詞的理解力,是這樣的:
把圖片轉(zhuǎn)換成吉卜力風(fēng)格,也很有內(nèi)味兒:
1.5B 參數(shù)模型效果就能接近甚至超越十幾億參數(shù)專用模型,可以在消費(fèi)級(jí)顯卡上流暢運(yùn)行。
開(kāi)源還很全套:
完整模型權(quán)重、詳細(xì)技術(shù)報(bào)告、配套全流程代碼,通通開(kāi)源。
想要學(xué)習(xí)借鑒增長(zhǎng)姿勢(shì)知識(shí)的小伙伴,值得馬克一波。
1.5B 模型效果逼近大型專用模型
一句話總結(jié)一下 Skywork UniPic 的模型特點(diǎn),就是既可以像視覺(jué)模型(VLM)一樣理解圖像,也可以像擴(kuò)散模型一樣生成圖片,用戶還只需 " 動(dòng)動(dòng)嘴 ",就可以指導(dǎo)模型完成圖像編輯。
在不同任務(wù)上,1.5B 的 Skywork UniPic 都有不錯(cuò)的指令理解和生成效果。
比如文本到圖像生成:
修女的鉛筆肖像畫(huà)
在 GenEval指令遵循評(píng)估中,Skywork UniPic 取得 0.86 的優(yōu)異成績(jī),超越了絕大多數(shù)同類統(tǒng)一模型,在無(wú) CoT 的情況下取得了 SOTA 分?jǐn)?shù),逼近較大模型 BAGEL(7B+7B*)帶 CoT 的 0.88 分。
在 DPG-Bench復(fù)雜指令生圖基準(zhǔn)上,Skywork UniPic 達(dá)到 85.5 分的行業(yè) SOTA 水平,與 14B 參數(shù)的 BAGEL(85.07 分)不相上下。
在圖像編輯能力方面,Skywork UniPic 在 GEditBench-EN 獲得 5.83 分,ImgEdit-Bench 達(dá)到 3.49 分,展現(xiàn)出一定的編輯執(zhí)行能力。
值得一提的是,1.5B 的參數(shù)量,使得 Skywork UniPic 可以在 RTX 4090 這樣的消費(fèi)級(jí)顯卡上流暢運(yùn)行,提供了一套真正可落地的統(tǒng)一模型解決方案。
技術(shù)細(xì)節(jié)大揭秘
而 Skywork UniPic 具體是如何做到,昆侖萬(wàn)維此次也給出了非常詳細(xì)的技術(shù)報(bào)告。
自回歸模型架構(gòu)
首先在架構(gòu)方面,Skywork UniPic 采用自回歸模型(Autoregressive Model)架構(gòu),這是其實(shí)現(xiàn)多模態(tài)統(tǒng)一能力的核心技術(shù)基礎(chǔ),與 GPT-4o 的技術(shù)路線一脈相承,顯著區(qū)別于主流的擴(kuò)散模型(Diffusion Model)。
該架構(gòu)的核心優(yōu)勢(shì)在于將圖像生成深度整合到多模態(tài)框架中,而非作為一個(gè)獨(dú)立模塊存在,從而能讓圖像理解、文本到圖像生成、圖像編輯三大核心能力在單一模型中實(shí)現(xiàn)完美融合。
整體框架借鑒了Harmon的設(shè)計(jì)思路,在表征方式和結(jié)構(gòu)上做出關(guān)鍵調(diào)整——
采用解耦的視覺(jué)編碼器設(shè)計(jì),分別用于不同路徑:
圖像生成路徑采用 MAR 編碼器作為視覺(jué)表征基礎(chǔ);
圖像理解路徑采用 SigLIP2 編碼器作為主干。
MAR 編碼器與 SigLIP2 都天然契合自回歸的統(tǒng)一訓(xùn)練范式,有助于實(shí)現(xiàn)跨任務(wù)、跨模態(tài)的一體化建模。
此外,昆侖萬(wàn)維 Skywork 天工大模型團(tuán)隊(duì),通過(guò)大規(guī)模預(yù)訓(xùn)練對(duì)模型進(jìn)行升級(jí):
基于億級(jí)高質(zhì)量圖像 - 文本對(duì)進(jìn)行獨(dú)立預(yù)訓(xùn)練,使其從單純的 " 圖像生成 " 能力,躍升為兼具 " 高質(zhì)量生成 " 與 " 強(qiáng)大語(yǔ)義表征 " 的綜合視覺(jué)基座,能夠有效支持圖像概念的精準(zhǔn)抽取。
圖像與文本的統(tǒng)一表征學(xué)習(xí)
跨模態(tài)的上下文理解與推理
生成與編輯的端到端流程優(yōu)化
精煉高質(zhì)量數(shù)據(jù)體系
另外值得一提的是,Skywork UniPic 的卓越性能并非依賴于海量數(shù)據(jù)的簡(jiǎn)單堆砌,而是源于一套高度精煉、系統(tǒng)優(yōu)化的高質(zhì)量數(shù)據(jù)構(gòu)建體系。
團(tuán)隊(duì)突破了 " 數(shù)據(jù)量越大模型性能越強(qiáng) " 的傳統(tǒng)認(rèn)知,通過(guò)億級(jí)精選預(yù)訓(xùn)練語(yǔ)料與數(shù)百萬(wàn)級(jí)任務(wù)精調(diào)(SFT)樣本,構(gòu)建了一套面向圖像理解、文本到圖像生成與圖像編輯三大核心任務(wù)的高效能多模態(tài)訓(xùn)練語(yǔ)料庫(kù)。
該數(shù)據(jù)體系在數(shù)量上遠(yuǎn)低于當(dāng)前行業(yè)內(nèi)普遍依賴的數(shù)億至百億級(jí)數(shù)據(jù)規(guī)模,卻實(shí)現(xiàn)了與主流大模型相當(dāng)?shù)男阅鼙憩F(xiàn),充分驗(yàn)證了高質(zhì)量小規(guī)模數(shù)據(jù)訓(xùn)練多模態(tài)模型的可行性與高效性。
在數(shù)據(jù)構(gòu)建階段,團(tuán)隊(duì)實(shí)施了三大關(guān)鍵優(yōu)化策略,以 " 提純 " 為核心目標(biāo):
嚴(yán)格控制任務(wù)類型的均衡分布,確保模型在各領(lǐng)域的泛化能力;
精心設(shè)計(jì)多樣化的指令模板,覆蓋不同應(yīng)用場(chǎng)景的表達(dá)需求;
建立多層質(zhì)檢機(jī)制,包括自動(dòng)過(guò)濾、人工復(fù)核和交叉驗(yàn)證,保證數(shù)據(jù)純凈度。
這種精細(xì)化的數(shù)據(jù)管理方法不僅顯著提升了數(shù)據(jù)的利用效率,降低了訓(xùn)練資源消耗,更促進(jìn)了模型在跨模態(tài)任務(wù)中的知識(shí)遷移與協(xié)同學(xué)習(xí)能力。
自研專用獎(jiǎng)勵(lì)模型
數(shù)據(jù)質(zhì)量如何把控,官方技術(shù)報(bào)告中也給出了詳細(xì)說(shuō)明。
為確保 Skywork UniPic 在圖像生成與編輯任務(wù)中性能卓越,昆侖萬(wàn)維天工大模型團(tuán)隊(duì)意識(shí)到高質(zhì)量訓(xùn)練數(shù)據(jù)的關(guān)鍵作用。
為此,研究團(tuán)隊(duì)針對(duì)性設(shè)計(jì)了兩套專用獎(jiǎng)勵(lì)模型,構(gòu)建起覆蓋生成與編輯數(shù)據(jù)質(zhì)量的智能評(píng)估體系。
其一,是專用圖像生成 Reward Model。
Skywork-ImgReward 是基于強(qiáng)化學(xué)習(xí)訓(xùn)練的 Reward Model,相比于其他 T2I Reward Model,Skywork-ImgReward 在多個(gè)文生圖場(chǎng)景下的偏好選擇表現(xiàn)都更接近人類偏好。它不僅被用來(lái)作為文生圖數(shù)據(jù)質(zhì)量的篩選,也可以在后續(xù)被用于圖像生成能力強(qiáng)化學(xué)習(xí)訓(xùn)練中的獎(jiǎng)勵(lì)信號(hào),以及作為生成圖像的質(zhì)量評(píng)估指標(biāo)。
其二,是專用圖像編輯 Reward Model。
面對(duì)圖像編輯這一核心挑戰(zhàn),團(tuán)隊(duì)創(chuàng)新性地構(gòu)建了具有針對(duì)性的 Skywork-EditReward,其被用作數(shù)據(jù)質(zhì)量評(píng)估時(shí)可以自動(dòng)剔除超過(guò) 30% 的低質(zhì)量編輯樣本,在 GEditBench-E 和 ImgEdit-Bench 基準(zhǔn)測(cè)試中表現(xiàn)明顯改善。后續(xù)同樣也可以被用作圖像編輯強(qiáng)化學(xué)習(xí)訓(xùn)練中的獎(jiǎng)勵(lì)信號(hào),以及作為圖像編輯的質(zhì)量評(píng)估指標(biāo)。
經(jīng)其篩選數(shù)據(jù)訓(xùn)練的 Skywork UniPic,編輯性能明顯改善,充分驗(yàn)證了對(duì)編輯任務(wù)的強(qiáng)效賦能。
例如,當(dāng)指令要求 "Remove the birds from the image.(將圖中的鳥(niǎo)移除)" 時(shí),即便鳥(niǎo)橫跨草甸、湖面、石頭等多個(gè)區(qū)域,Skywork UniPic 仍能精準(zhǔn)移除。對(duì)于湖面被遮擋的倒影,模型也能依據(jù)場(chǎng)景的光影邏輯與物體關(guān)聯(lián)性,進(jìn)行自然且連貫的補(bǔ)全,最終呈現(xiàn)出毫無(wú)編輯痕跡的畫(huà)面效果。
接下來(lái),訓(xùn)練策略方面,Skywork UniPic 是如何讓模型在圖像理解能力、圖像生成質(zhì)量與圖像編輯精度這三大核心任務(wù)上實(shí)現(xiàn)均衡發(fā)展,避免出現(xiàn) " 一強(qiáng)兩弱 " 或 " 全而不精 " 的局面?
Skywork UniPic 團(tuán)隊(duì)的做法是:創(chuàng)新性引入漸進(jìn)式多任務(wù)訓(xùn)練機(jī)制,并結(jié)合了 MAR 訓(xùn)練優(yōu)化體系與 Harmon 訓(xùn)練優(yōu)化體系的精髓,實(shí)現(xiàn)了模型能力的有序、高效提升。
1、MAR 訓(xùn)練優(yōu)化體系
基于 ImageNet-1M 訓(xùn)練的 MAR 基線模型存在表征能力弱、語(yǔ)義層次淺的問(wèn)題,百萬(wàn)級(jí)數(shù)據(jù)限制了視覺(jué)特征泛化能力,256 × 256 低分辨率輸入制約細(xì)節(jié)建模。
為此,團(tuán)隊(duì)采取兩項(xiàng)關(guān)鍵優(yōu)化:
數(shù)據(jù)層面引入覆蓋更廣場(chǎng)景與類別的億級(jí)專有圖像數(shù)據(jù),拓展學(xué)習(xí)空間;
訓(xùn)練中采用漸進(jìn)式分辨率提升策略,先在 256 × 256 下建立穩(wěn)定底層特征抽取能力,再逐步遷移至 512 × 512,增強(qiáng)語(yǔ)義理解與細(xì)粒度建模能力。
2、Harmon 訓(xùn)練優(yōu)化體系
為進(jìn)一步提升性能并兼顧效率,團(tuán)隊(duì)設(shè)計(jì)多階段分層分辨率訓(xùn)練:
第一階段在 512 × 512 分辨率下微調(diào),聚焦基礎(chǔ)特征提取的穩(wěn)定性與收斂性;隨后逐步提升至 1024 × 1024,強(qiáng)化對(duì)紋理、邊緣等高精度細(xì)節(jié)的捕捉。
同時(shí)采用分階段參數(shù)解凍策略,初始階段僅訓(xùn)練 Projector 模塊以對(duì)齊視覺(jué)與語(yǔ)言特征,凍結(jié)主干網(wǎng)絡(luò)和 LLM 參數(shù);接著在保持 LLM 編碼器凍結(jié)的前提下優(yōu)化視覺(jué)主干;最終全量解凍,進(jìn)行端到端聯(lián)合優(yōu)化,實(shí)現(xiàn)多模態(tài)協(xié)同增強(qiáng)。
3、漸進(jìn)式多任務(wù)訓(xùn)練策略
為解決理解、生成和編輯三類任務(wù)難以兼得的問(wèn)題,團(tuán)隊(duì)提出漸進(jìn)式多任務(wù)訓(xùn)練機(jī)制。
訓(xùn)練初期聚焦單一任務(wù)(如文本到圖像生成),待其穩(wěn)定收斂后,再按難度遞增順序引入理解與編輯任務(wù),避免早期任務(wù)間的相互干擾。
精細(xì)化調(diào)優(yōu)階段,通過(guò)獎(jiǎng)勵(lì)模型篩選構(gòu)建高質(zhì)量訓(xùn)練數(shù)據(jù),結(jié)合動(dòng)態(tài)閾值與多樣性采樣策略,確保樣本既具備高置信度,又覆蓋豐富的語(yǔ)義場(chǎng)景。
整體而言,這些策略在訓(xùn)練過(guò)程中實(shí)現(xiàn)了能力的有序釋放與任務(wù)的逐步適配,顯著提升了模型在理解、生成和編輯任務(wù)上的綜合表現(xiàn),真正達(dá)成 " 一專多能 " 的效果。
說(shuō)回到技術(shù)趨勢(shì)上,原生多模態(tài)統(tǒng)一模型,本身正在受到技術(shù)圈越來(lái)越多的關(guān)注。
為什么原生多模態(tài)統(tǒng)一模型如此受研究者們重視?
首先,在落地層面上,GPT-4o" 吉卜力風(fēng) " 的成功出圈已經(jīng)證明,相比于割裂的視覺(jué)大模型(VLM)的 " 讀圖 "、擴(kuò)散模型的 " 生圖 ",真正在統(tǒng)一模型中集成 " 看圖 "+" 生圖 "+" 改圖 " 等全能多模態(tài)能力,才更能切實(shí)滿足用戶的使用體驗(yàn)。
簡(jiǎn)而言之,就是把多模態(tài) AI 的使用門(mén)檻給打下來(lái)了,真的人人可用了。
其次,在技術(shù)層面上,原生多模態(tài)統(tǒng)一模型把跨模態(tài)表征、上下文推理、內(nèi)容生成全部鎖進(jìn)同一組參數(shù),帶來(lái)了 " 一次訓(xùn)練,處處生效 " 的范式升級(jí),為 AIGC 從 " 拼規(guī)模 " 走向 " 拼效率、拼體驗(yàn) " 指明了發(fā)展方向。
Skywork UniPic 就證明了,高質(zhì)量小數(shù)據(jù) + 統(tǒng)一自回歸框架,也能逼近甚至超越大型專用模型的性能極限。
在這個(gè)技術(shù)方向上,好消息是,像昆侖萬(wàn)維這樣全面開(kāi)放核心資源,一方面,技術(shù)社區(qū)能夠在開(kāi)放的氛圍里持續(xù)推動(dòng)底層技術(shù)的演進(jìn)。
另一方面,小而可靠的統(tǒng)一模型架構(gòu),代表了技術(shù)平民化的重要方向,也有助于開(kāi)發(fā)者們探索 AI 應(yīng)用的更多可能性。
值得一提的是,自 2023 年 8 月 23 日,昆侖萬(wàn)維發(fā)布國(guó)內(nèi)第一款 AI 搜索產(chǎn)品 " 天工 AI 搜索 " 以來(lái),其一直保持著持續(xù)開(kāi)源的狀態(tài)。
2023 年 10 月,開(kāi)源百億級(jí)大語(yǔ)言模型 " 天工 "Skywork-13B 系列,并配套開(kāi)源了 600GB、150B Tokens 的超大高質(zhì)量開(kāi)源中文數(shù)據(jù)集。
從 2024 年開(kāi)始,又陸續(xù)開(kāi)源數(shù)字智能體全流程研發(fā)工具包 AgentStudio、" 天工大模型 3.0"4000 億參數(shù) MoE 超級(jí)模型、2 千億稀疏大模型 Skywork-MoE、Skywork-o1-Open 等模型。
今年初,昆侖萬(wàn)維還一次性開(kāi)源了兩大視頻模型——國(guó)內(nèi)首個(gè)面向 AI 短劇創(chuàng)作的視頻生成模型SkyReels-V1,和國(guó)內(nèi)首個(gè) SOTA 級(jí)別基于視頻基座模型的表情動(dòng)作可控算法SkyReels-A1。
可以說(shuō),從 ChatGPT 掀起大模型風(fēng)暴以來(lái),昆侖萬(wàn)維一直是國(guó)內(nèi)重要的開(kāi)源力量。也在中國(guó)開(kāi)源越來(lái)越被世界關(guān)注的過(guò)程中,從基礎(chǔ)模型,到音頻,到視頻,多模態(tài)全方位覆蓋。
更令人期待的是,這一次,Made in China 引領(lǐng)風(fēng)潮。
模型權(quán)重:https://huggingface.co/Skywork/Skywork-UniPic-1.5B
技術(shù)報(bào)告:https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf
代碼倉(cāng)庫(kù):https://github.com/SkyworkAI/UniPic
一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評(píng)論區(qū)留下你的想法!
— 完 —
點(diǎn)亮星標(biāo)
科技前沿進(jìn)展每日見(jiàn)