在高質(zhì)量 3D 生成需求日益增長(zhǎng)的背景下,如何高效生成結(jié)構(gòu)精良、幾何精細(xì)的三維資產(chǎn),已成為 AIGC 和數(shù)字內(nèi)容創(chuàng)作領(lǐng)域的關(guān)鍵挑戰(zhàn)。
盡管近年來(lái)的 3D 生成方法發(fā)展迅速,精度越來(lái)越高,但現(xiàn)有框架在兼顧效率和質(zhì)量上依然面臨瓶頸,尤其是在高分辨率建模中,計(jì)算的高復(fù)雜度嚴(yán)重制約了生成速度和應(yīng)用落地。
為解決上述困境,南洋理工大學(xué)聯(lián)合數(shù)美萬(wàn)物、西湖大學(xué)提出了 Ultra3D:一種全新的 3D 生成框架。
該機(jī)制僅在語(yǔ)義一致的局部區(qū)域內(nèi)進(jìn)行注意力計(jì)算,大幅降低全局注意力的冗余計(jì)算,有效提升生成效率。該方法支持 1024 分辨率輸出,實(shí)現(xiàn)在保持高保真度的同時(shí),實(shí)現(xiàn)高達(dá) 6.7 × 的加速比,為三維資產(chǎn)的快速生成和下游應(yīng)用提供了切實(shí)可行的解決方案。
3D 生成領(lǐng)域近年來(lái)進(jìn)展迅猛,稀疏體素憑借其對(duì)表面細(xì)節(jié)強(qiáng)大的建模能力成為了近來(lái)的各個(gè) SoTA 方法普遍采用的 3D 表征。
這一表征將 3D 物體編碼成稀疏體素以及與各個(gè)體素對(duì)應(yīng)的 latent token。其雖然表達(dá)能力非常強(qiáng),但由于其 token 數(shù)目巨大,在高分辨率下往往過(guò)萬(wàn),所以導(dǎo)致其計(jì)算效率很低。
鑒于此,之前的工作往往局限于一個(gè)較低的分辨率,從而難以沖擊更高的質(zhì)量。為解決這一問(wèn)題,Ultra3D 旨在提出一個(gè)全新的兼顧效率和質(zhì)量的二階段生成 pipeline,在不降低質(zhì)量的情況下大幅加速了訓(xùn)練和推理,從而將其擴(kuò)展到了更高的分辨率和更高的質(zhì)量。
方法概述
Ultra3D 由一個(gè)二階段的 Pipeline 構(gòu)成:第一階段通過(guò)緊湊高效的 VecSet 表征快速生成 coarse mesh,并據(jù)此體素化得到稀疏體素的結(jié)構(gòu)布局;第二階段則基于該布局引入結(jié)構(gòu)感知的 Part Attention,對(duì)每個(gè)體素進(jìn)行 latent feature 精細(xì)建模。
Ultra3D 的核心在于其新提出的 part attention 機(jī)制,sparse voxel 這一表征雖然表達(dá)力很強(qiáng),但苦于其 token 數(shù)太大,導(dǎo)致 attention 的計(jì)算開(kāi)銷巨大。
為解決這一問(wèn)題,Ultra3D 提出了一種專為 3D 設(shè)計(jì)的 part attention,其將 attention 計(jì)算限制在同一個(gè) part group 內(nèi),避免了冗余的全局 attention,從而在不降低質(zhì)量的情況下大幅度地降低了計(jì)算壓力。
一個(gè)簡(jiǎn)單的替代方案是使用在大語(yǔ)言模型領(lǐng)域常用到的 window attention,但如下圖所示,實(shí)驗(yàn)表明這種 attention 直接運(yùn)用到 3D 中會(huì)導(dǎo)致質(zhì)量的下降。這是因?yàn)槠涔潭ǖ姆指钅J脚c 3D 物體的語(yǔ)義并不吻合。
Ultra3D 提出了一個(gè)兼顧效率與保真度的創(chuàng)新性 3D 生成框架,成功突破了當(dāng)前主流方法在分辨率和計(jì)算成本之間的權(quán)衡瓶頸。
通過(guò) coarse-to-fine 的雙階段設(shè)計(jì),以及結(jié)構(gòu)感知的 Part Attention 機(jī)制,Ultra3D 顯著提高了稀疏體素建模的效率,在保持高質(zhì)量輸出的同時(shí)實(shí)現(xiàn)了多倍加速,支持高達(dá) 1024 分辨率的三維資產(chǎn)生成。
這一方法不僅在多個(gè)定量指標(biāo)上大幅超越現(xiàn)有 SoTA 方法,在用戶主觀評(píng)價(jià)中也表現(xiàn)優(yōu)異,能夠真實(shí)還原復(fù)雜幾何結(jié)構(gòu)和微小紋理細(xì)節(jié),如毛發(fā)、衣褶等,展現(xiàn)出卓越的細(xì)節(jié)還原能力。
更重要的是,Ultra3D 具備良好的擴(kuò)展性和通用性,為數(shù)字內(nèi)容創(chuàng)作、游戲建模、AR/VR、影視制作等多種下游應(yīng)用提供了更快速、更高質(zhì)的 3D 建模方案。
隨著生成式 AI 向多模態(tài)和高保真內(nèi)容生成不斷邁進(jìn),Ultra3D 所展現(xiàn)出的性能和潛力,標(biāo)志著高分辨率 3D 生成進(jìn)入了一個(gè)新階段。
未來(lái),Ultra3D 有望進(jìn)一步拓展到動(dòng)畫(huà)、可編輯 3D 內(nèi)容生成以及 3D-4D 一體化建模等更多復(fù)雜任務(wù),成為推動(dòng) AIGC 向更高維空間發(fā)展的關(guān)鍵技術(shù)基石。
論文鏈接:https://arxiv.org/abs/2507.17745
項(xiàng)目地址:https://buaacyw.github.io/ultra3d/
一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評(píng)論區(qū)留下你的想法!
— 完 —
點(diǎn)亮星標(biāo)
科技前沿進(jìn)展每日見(jiàn)