中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      量子位 昨天

      1.5B 參數(shù)撬動(dòng)“吉卜力級(jí)”全能體驗(yàn),國(guó)產(chǎn)開(kāi)源之光多模態(tài)統(tǒng)一模型,來(lái)了

      聽(tīng)說(shuō)了嗎,GPT-5 這兩天那叫一個(gè)瘋狂造勢(shì),奧特曼怕不是真有些急了(doge)。

      但有一說(shuō)一,回顧上半年最火 AI 事件,GPT-4o 帶來(lái)的 " 吉卜力 " 風(fēng)暴,還是熱度 TOP。

      數(shù)據(jù)來(lái)自微信指數(shù)

      不僅由 " 萬(wàn)物皆可吉卜力 " 為始,GPT-4o 生圖功能被網(wǎng)友們瘋玩至今,更重要的是,還引發(fā)了更深的技術(shù)思考:

      AIGC 的范式,已經(jīng)被悄然改變。

      從割裂地處理文本、圖像、聲音,到現(xiàn)在,大眾在應(yīng)用領(lǐng)域的反饋已經(jīng)證明,AI 需要以更接近人類認(rèn)知的方式,融合多模態(tài)信息。

      新的技術(shù)趨勢(shì)值得關(guān)注,也有人第一時(shí)間開(kāi)源了對(duì)新范式的深入思考:

      昆侖萬(wàn)維已開(kāi)源多模態(tài)統(tǒng)一模型 Skywork UniPic,和 GPT-4o 呈現(xiàn)出類似的圖像一體化能力,在單一模型里實(shí)現(xiàn)圖像理解、文本到圖像生成、圖像編輯三大核心能力的深度融合。

      對(duì)生圖提示詞的理解力,是這樣的:

      提示詞:兩位壽司師傅在江戶時(shí)代熙攘的街市投擲彩虹壽司。他們頭頂?shù)募垷艋\明滅閃爍。整個(gè)場(chǎng)景呈現(xiàn)出像素化的復(fù)古游戲畫(huà)風(fēng)。

      把圖片轉(zhuǎn)換成吉卜力風(fēng)格,也很有內(nèi)味兒:

      并且相比狂卷大參數(shù)量的同類模型,Skywork UniPic 主打一個(gè)高 " 性能密度 "

      1.5B 參數(shù)模型效果就能接近甚至超越十幾億參數(shù)專用模型,可以在消費(fèi)級(jí)顯卡上流暢運(yùn)行。

      開(kāi)源還很全套:

      完整模型權(quán)重、詳細(xì)技術(shù)報(bào)告、配套全流程代碼,通通開(kāi)源。

      想要學(xué)習(xí)借鑒增長(zhǎng)姿勢(shì)知識(shí)的小伙伴,值得馬克一波。

      1.5B 模型效果逼近大型專用模型

      一句話總結(jié)一下 Skywork UniPic 的模型特點(diǎn),就是既可以像視覺(jué)模型(VLM)一樣理解圖像,也可以像擴(kuò)散模型一樣生成圖片,用戶還只需 " 動(dòng)動(dòng)嘴 ",就可以指導(dǎo)模型完成圖像編輯。

      在不同任務(wù)上,1.5B 的 Skywork UniPic 都有不錯(cuò)的指令理解和生成效果。

      比如文本到圖像生成:

      修女的鉛筆肖像畫(huà)

      一幅身著絲絨長(zhǎng)裙的貴婦人油畫(huà)

      圖像編輯方面,換個(gè)背景:

      調(diào)整表情:

      換個(gè)風(fēng)格:

      效果上看都不遜色于一些商業(yè)閉源模型。

      更定量地來(lái)看,Skywork UniPic 以 1.5B 的緊湊參數(shù)規(guī)模,在四大核心評(píng)估維度上均展現(xiàn)出了卓越表現(xiàn)。

      在 GenEval指令遵循評(píng)估中,Skywork UniPic 取得 0.86 的優(yōu)異成績(jī),超越了絕大多數(shù)同類統(tǒng)一模型,在無(wú) CoT 的情況下取得了 SOTA 分?jǐn)?shù),逼近較大模型 BAGEL(7B+7B*)帶 CoT 的 0.88 分。

      在 DPG-Bench復(fù)雜指令生圖基準(zhǔn)上,Skywork UniPic 達(dá)到 85.5 分的行業(yè) SOTA 水平,與 14B 參數(shù)的 BAGEL(85.07 分)不相上下。

      圖像編輯能力方面,Skywork UniPic 在 GEditBench-EN 獲得 5.83 分,ImgEdit-Bench 達(dá)到 3.49 分,展現(xiàn)出一定的編輯執(zhí)行能力。

      值得一提的是,1.5B 的參數(shù)量,使得 Skywork UniPic 可以在 RTX 4090 這樣的消費(fèi)級(jí)顯卡上流暢運(yùn)行,提供了一套真正可落地的統(tǒng)一模型解決方案。

      技術(shù)細(xì)節(jié)大揭秘

      而 Skywork UniPic 具體是如何做到,昆侖萬(wàn)維此次也給出了非常詳細(xì)的技術(shù)報(bào)告。

      自回歸模型架構(gòu)

      首先在架構(gòu)方面,Skywork UniPic 采用自回歸模型(Autoregressive Model)架構(gòu),這是其實(shí)現(xiàn)多模態(tài)統(tǒng)一能力的核心技術(shù)基礎(chǔ),與 GPT-4o 的技術(shù)路線一脈相承,顯著區(qū)別于主流的擴(kuò)散模型(Diffusion Model)。

      該架構(gòu)的核心優(yōu)勢(shì)在于將圖像生成深度整合到多模態(tài)框架中,而非作為一個(gè)獨(dú)立模塊存在,從而能讓圖像理解、文本到圖像生成、圖像編輯三大核心能力在單一模型中實(shí)現(xiàn)完美融合。

      文生圖 prompt:一只紋理鮮明的綠色鬣蜥靜臥在飽經(jīng)風(fēng)霜的樹(shù)干上,倚靠著一堵幽暗墻壁。

      整體框架借鑒了Harmon的設(shè)計(jì)思路,在表征方式和結(jié)構(gòu)上做出關(guān)鍵調(diào)整——

      采用解耦的視覺(jué)編碼器設(shè)計(jì),分別用于不同路徑:

      圖像生成路徑采用 MAR 編碼器作為視覺(jué)表征基礎(chǔ);

      圖像理解路徑采用 SigLIP2 編碼器作為主干。

      MAR 編碼器與 SigLIP2 都天然契合自回歸的統(tǒng)一訓(xùn)練范式,有助于實(shí)現(xiàn)跨任務(wù)、跨模態(tài)的一體化建模。

      MAR(Autoregressive Image Generation without Vector Quantization)本身具有連續(xù)空間自回歸的特性,通過(guò)采用 Diffusion Loss 替代傳統(tǒng)的 VQ 離散化處理,天然具備高質(zhì)量圖像生成、低延遲響應(yīng)以及自回歸可控的優(yōu)勢(shì)。MAR 編碼器還展現(xiàn)了極強(qiáng)的語(yǔ)義理解能力,linear probing 精度出色,能有效支持圖像概念抽取。

      此外,昆侖萬(wàn)維 Skywork 天工大模型團(tuán)隊(duì),通過(guò)大規(guī)模預(yù)訓(xùn)練對(duì)模型進(jìn)行升級(jí):

      基于億級(jí)高質(zhì)量圖像 - 文本對(duì)進(jìn)行獨(dú)立預(yù)訓(xùn)練,使其從單純的 " 圖像生成 " 能力,躍升為兼具 " 高質(zhì)量生成 " 與 " 強(qiáng)大語(yǔ)義表征 " 的綜合視覺(jué)基座,能夠有效支持圖像概念的精準(zhǔn)抽取。

      通過(guò)這一自回歸框架的構(gòu)建,Skywork UniPic 成功實(shí)現(xiàn)了:

      圖像與文本的統(tǒng)一表征學(xué)習(xí)

      跨模態(tài)的上下文理解與推理

      生成與編輯的端到端流程優(yōu)化

      精煉高質(zhì)量數(shù)據(jù)體系

      另外值得一提的是,Skywork UniPic 的卓越性能并非依賴于海量數(shù)據(jù)的簡(jiǎn)單堆砌,而是源于一套高度精煉、系統(tǒng)優(yōu)化的高質(zhì)量數(shù)據(jù)構(gòu)建體系。

      團(tuán)隊(duì)突破了 " 數(shù)據(jù)量越大模型性能越強(qiáng) " 的傳統(tǒng)認(rèn)知,通過(guò)億級(jí)精選預(yù)訓(xùn)練語(yǔ)料與數(shù)百萬(wàn)級(jí)任務(wù)精調(diào)(SFT)樣本,構(gòu)建了一套面向圖像理解、文本到圖像生成與圖像編輯三大核心任務(wù)的高效能多模態(tài)訓(xùn)練語(yǔ)料庫(kù)。

      該數(shù)據(jù)體系在數(shù)量上遠(yuǎn)低于當(dāng)前行業(yè)內(nèi)普遍依賴的數(shù)億至百億級(jí)數(shù)據(jù)規(guī)模,卻實(shí)現(xiàn)了與主流大模型相當(dāng)?shù)男阅鼙憩F(xiàn),充分驗(yàn)證了高質(zhì)量小規(guī)模數(shù)據(jù)訓(xùn)練多模態(tài)模型的可行性與高效性。

      在數(shù)據(jù)構(gòu)建階段,團(tuán)隊(duì)實(shí)施了三大關(guān)鍵優(yōu)化策略,以 " 提純 " 為核心目標(biāo):

      嚴(yán)格控制任務(wù)類型的均衡分布,確保模型在各領(lǐng)域的泛化能力;

      精心設(shè)計(jì)多樣化的指令模板,覆蓋不同應(yīng)用場(chǎng)景的表達(dá)需求;

      建立多層質(zhì)檢機(jī)制,包括自動(dòng)過(guò)濾、人工復(fù)核和交叉驗(yàn)證,保證數(shù)據(jù)純凈度。

      這種精細(xì)化的數(shù)據(jù)管理方法不僅顯著提升了數(shù)據(jù)的利用效率,降低了訓(xùn)練資源消耗,更促進(jìn)了模型在跨模態(tài)任務(wù)中的知識(shí)遷移與協(xié)同學(xué)習(xí)能力。

      自研專用獎(jiǎng)勵(lì)模型

      數(shù)據(jù)質(zhì)量如何把控,官方技術(shù)報(bào)告中也給出了詳細(xì)說(shuō)明。

      為確保 Skywork UniPic 在圖像生成與編輯任務(wù)中性能卓越,昆侖萬(wàn)維天工大模型團(tuán)隊(duì)意識(shí)到高質(zhì)量訓(xùn)練數(shù)據(jù)的關(guān)鍵作用。

      為此,研究團(tuán)隊(duì)針對(duì)性設(shè)計(jì)了兩套專用獎(jiǎng)勵(lì)模型,構(gòu)建起覆蓋生成與編輯數(shù)據(jù)質(zhì)量的智能評(píng)估體系。

      其一,是專用圖像生成 Reward Model。

      Skywork-ImgReward 是基于強(qiáng)化學(xué)習(xí)訓(xùn)練的 Reward Model,相比于其他 T2I Reward Model,Skywork-ImgReward 在多個(gè)文生圖場(chǎng)景下的偏好選擇表現(xiàn)都更接近人類偏好。它不僅被用來(lái)作為文生圖數(shù)據(jù)質(zhì)量的篩選,也可以在后續(xù)被用于圖像生成能力強(qiáng)化學(xué)習(xí)訓(xùn)練中的獎(jiǎng)勵(lì)信號(hào),以及作為生成圖像的質(zhì)量評(píng)估指標(biāo)。

      文生圖 prompt:一幅老式廚房場(chǎng)景,鑄鐵水壺與陶瓷茶壺置于粗削木桌上。

      其二,是專用圖像編輯 Reward Model。

      面對(duì)圖像編輯這一核心挑戰(zhàn),團(tuán)隊(duì)創(chuàng)新性地構(gòu)建了具有針對(duì)性的 Skywork-EditReward,其被用作數(shù)據(jù)質(zhì)量評(píng)估時(shí)可以自動(dòng)剔除超過(guò) 30% 的低質(zhì)量編輯樣本,在 GEditBench-E 和 ImgEdit-Bench 基準(zhǔn)測(cè)試中表現(xiàn)明顯改善。后續(xù)同樣也可以被用作圖像編輯強(qiáng)化學(xué)習(xí)訓(xùn)練中的獎(jiǎng)勵(lì)信號(hào),以及作為圖像編輯的質(zhì)量評(píng)估指標(biāo)。

      經(jīng)其篩選數(shù)據(jù)訓(xùn)練的 Skywork UniPic,編輯性能明顯改善,充分驗(yàn)證了對(duì)編輯任務(wù)的強(qiáng)效賦能。

      例如,當(dāng)指令要求 "Remove the birds from the image.(將圖中的鳥(niǎo)移除)" 時(shí),即便鳥(niǎo)橫跨草甸、湖面、石頭等多個(gè)區(qū)域,Skywork UniPic 仍能精準(zhǔn)移除。對(duì)于湖面被遮擋的倒影,模型也能依據(jù)場(chǎng)景的光影邏輯與物體關(guān)聯(lián)性,進(jìn)行自然且連貫的補(bǔ)全,最終呈現(xiàn)出毫無(wú)編輯痕跡的畫(huà)面效果。

      漸進(jìn)式多任務(wù)訓(xùn)練策略

      接下來(lái),訓(xùn)練策略方面,Skywork UniPic 是如何讓模型在圖像理解能力、圖像生成質(zhì)量與圖像編輯精度這三大核心任務(wù)上實(shí)現(xiàn)均衡發(fā)展,避免出現(xiàn) " 一強(qiáng)兩弱 " 或 " 全而不精 " 的局面?

      Skywork UniPic 團(tuán)隊(duì)的做法是:創(chuàng)新性引入漸進(jìn)式多任務(wù)訓(xùn)練機(jī)制,并結(jié)合了 MAR 訓(xùn)練優(yōu)化體系與 Harmon 訓(xùn)練優(yōu)化體系的精髓,實(shí)現(xiàn)了模型能力的有序、高效提升。

      1、MAR 訓(xùn)練優(yōu)化體系

      基于 ImageNet-1M 訓(xùn)練的 MAR 基線模型存在表征能力弱、語(yǔ)義層次淺的問(wèn)題,百萬(wàn)級(jí)數(shù)據(jù)限制了視覺(jué)特征泛化能力,256 × 256 低分辨率輸入制約細(xì)節(jié)建模。

      為此,團(tuán)隊(duì)采取兩項(xiàng)關(guān)鍵優(yōu)化:

      數(shù)據(jù)層面引入覆蓋更廣場(chǎng)景與類別的億級(jí)專有圖像數(shù)據(jù),拓展學(xué)習(xí)空間;

      訓(xùn)練中采用漸進(jìn)式分辨率提升策略,先在 256 × 256 下建立穩(wěn)定底層特征抽取能力,再逐步遷移至 512 × 512,增強(qiáng)語(yǔ)義理解與細(xì)粒度建模能力。

      2、Harmon 訓(xùn)練優(yōu)化體系

      為進(jìn)一步提升性能并兼顧效率,團(tuán)隊(duì)設(shè)計(jì)多階段分層分辨率訓(xùn)練:

      第一階段在 512 × 512 分辨率下微調(diào),聚焦基礎(chǔ)特征提取的穩(wěn)定性與收斂性;隨后逐步提升至 1024 × 1024,強(qiáng)化對(duì)紋理、邊緣等高精度細(xì)節(jié)的捕捉。

      同時(shí)采用分階段參數(shù)解凍策略,初始階段僅訓(xùn)練 Projector 模塊以對(duì)齊視覺(jué)與語(yǔ)言特征,凍結(jié)主干網(wǎng)絡(luò)和 LLM 參數(shù);接著在保持 LLM 編碼器凍結(jié)的前提下優(yōu)化視覺(jué)主干;最終全量解凍,進(jìn)行端到端聯(lián)合優(yōu)化,實(shí)現(xiàn)多模態(tài)協(xié)同增強(qiáng)。

      3、漸進(jìn)式多任務(wù)訓(xùn)練策略

      為解決理解、生成和編輯三類任務(wù)難以兼得的問(wèn)題,團(tuán)隊(duì)提出漸進(jìn)式多任務(wù)訓(xùn)練機(jī)制。

      訓(xùn)練初期聚焦單一任務(wù)(如文本到圖像生成),待其穩(wěn)定收斂后,再按難度遞增順序引入理解與編輯任務(wù),避免早期任務(wù)間的相互干擾。

      精細(xì)化調(diào)優(yōu)階段,通過(guò)獎(jiǎng)勵(lì)模型篩選構(gòu)建高質(zhì)量訓(xùn)練數(shù)據(jù),結(jié)合動(dòng)態(tài)閾值與多樣性采樣策略,確保樣本既具備高置信度,又覆蓋豐富的語(yǔ)義場(chǎng)景。

      整體而言,這些策略在訓(xùn)練過(guò)程中實(shí)現(xiàn)了能力的有序釋放與任務(wù)的逐步適配,顯著提升了模型在理解、生成和編輯任務(wù)上的綜合表現(xiàn),真正達(dá)成 " 一專多能 " 的效果。

      為什么原生多模態(tài)統(tǒng)一模型值得關(guān)注

      說(shuō)回到技術(shù)趨勢(shì)上,原生多模態(tài)統(tǒng)一模型,本身正在受到技術(shù)圈越來(lái)越多的關(guān)注。

      為什么原生多模態(tài)統(tǒng)一模型如此受研究者們重視?

      首先,在落地層面上,GPT-4o" 吉卜力風(fēng) " 的成功出圈已經(jīng)證明,相比于割裂的視覺(jué)大模型(VLM)的 " 讀圖 "、擴(kuò)散模型的 " 生圖 ",真正在統(tǒng)一模型中集成 " 看圖 "+" 生圖 "+" 改圖 " 等全能多模態(tài)能力,才更能切實(shí)滿足用戶的使用體驗(yàn)。

      簡(jiǎn)而言之,就是把多模態(tài) AI 的使用門(mén)檻給打下來(lái)了,真的人人可用了。

      其次,在技術(shù)層面上,原生多模態(tài)統(tǒng)一模型把跨模態(tài)表征、上下文推理、內(nèi)容生成全部鎖進(jìn)同一組參數(shù),帶來(lái)了 " 一次訓(xùn)練,處處生效 " 的范式升級(jí),為 AIGC 從 " 拼規(guī)模 " 走向 " 拼效率、拼體驗(yàn) " 指明了發(fā)展方向。

      Skywork UniPic 就證明了,高質(zhì)量小數(shù)據(jù) + 統(tǒng)一自回歸框架,也能逼近甚至超越大型專用模型的性能極限。

      在這個(gè)技術(shù)方向上,好消息是,像昆侖萬(wàn)維這樣全面開(kāi)放核心資源,一方面,技術(shù)社區(qū)能夠在開(kāi)放的氛圍里持續(xù)推動(dòng)底層技術(shù)的演進(jìn)。

      另一方面,小而可靠的統(tǒng)一模型架構(gòu),代表了技術(shù)平民化的重要方向,也有助于開(kāi)發(fā)者們探索 AI 應(yīng)用的更多可能性。

      值得一提的是,自 2023 年 8 月 23 日,昆侖萬(wàn)維發(fā)布國(guó)內(nèi)第一款 AI 搜索產(chǎn)品 " 天工 AI 搜索 " 以來(lái),其一直保持著持續(xù)開(kāi)源的狀態(tài)。

      2023 年 10 月,開(kāi)源百億級(jí)大語(yǔ)言模型 " 天工 "Skywork-13B 系列,并配套開(kāi)源了 600GB、150B Tokens 的超大高質(zhì)量開(kāi)源中文數(shù)據(jù)集。

      從 2024 年開(kāi)始,又陸續(xù)開(kāi)源數(shù)字智能體全流程研發(fā)工具包 AgentStudio、" 天工大模型 3.0"4000 億參數(shù) MoE 超級(jí)模型、2 千億稀疏大模型 Skywork-MoE、Skywork-o1-Open 等模型。

      今年初,昆侖萬(wàn)維還一次性開(kāi)源了兩大視頻模型——國(guó)內(nèi)首個(gè)面向 AI 短劇創(chuàng)作的視頻生成模型SkyReels-V1,和國(guó)內(nèi)首個(gè) SOTA 級(jí)別基于視頻基座模型的表情動(dòng)作可控算法SkyReels-A1。

      可以說(shuō),從 ChatGPT 掀起大模型風(fēng)暴以來(lái),昆侖萬(wàn)維一直是國(guó)內(nèi)重要的開(kāi)源力量。也在中國(guó)開(kāi)源越來(lái)越被世界關(guān)注的過(guò)程中,從基礎(chǔ)模型,到音頻,到視頻,多模態(tài)全方位覆蓋。

      正如 " 吉卜力現(xiàn)象 " 的本質(zhì)所示,是更易用的工具打開(kāi)了普通人利用 AI 突破想象力邊界的窗口,而昆侖萬(wàn)維這樣的開(kāi)源力量,正在推動(dòng)著我們更快迎來(lái)創(chuàng)意大爆炸時(shí)代。

      更令人期待的是,這一次,Made in China 引領(lǐng)風(fēng)潮。

      模型權(quán)重:https://huggingface.co/Skywork/Skywork-UniPic-1.5B

      技術(shù)報(bào)告:https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf

      代碼倉(cāng)庫(kù):https://github.com/SkyworkAI/UniPic

      一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

      歡迎在評(píng)論區(qū)留下你的想法!

      點(diǎn)亮星標(biāo)

      科技前沿進(jìn)展每日見(jiàn)

      相關(guān)標(biāo)簽

      相關(guān)閱讀

      最新評(píng)論

      沒(méi)有更多評(píng)論了