中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作
      量子位 05-08

      AI 視頻的 DeepSeek 時(shí)刻!開(kāi)源 13B 模型生成提速 30 倍,5090 跑出好萊塢特效

      AI 視頻的 DeepSeek 時(shí)刻什么時(shí)候來(lái)?沒(méi)想到吧,這就來(lái)了。

      最新開(kāi)源模型 LTXV-13B,免費(fèi)可商用、推理速度快、游戲顯卡就能跑,視覺(jué)效果也不錯(cuò)。要素都齊了,想不火都難。

      從官方透露的信息看,新模型在速度、質(zhì)量控制三個(gè)方面有所提升。

      生成速度——同類(lèi)產(chǎn)品的 30 倍,提出想法可以獲得接近實(shí)時(shí)的反饋。

      視頻質(zhì)量——眼見(jiàn)為實(shí),請(qǐng)看 VCR。

      可控制性——支持逐幀控制,能讓你按照自己想法來(lái)打造視頻,創(chuàng)作自由度直接拉滿(mǎn)。

      這個(gè) 13B 參數(shù)的模型,官方證實(shí)在 24G 顯存的 4090/5090 上就能跑,也難怪網(wǎng)友紛紛為之瘋狂。

      大家曬出的 " 買(mǎi)家秀 ",效果比官方賣(mài)家秀看起來(lái)也毫不縮水:

      開(kāi)源視頻生成新標(biāo)桿

      LTX-Video 支持文本轉(zhuǎn)圖像、圖像轉(zhuǎn)視頻、基于關(guān)鍵幀的動(dòng)畫(huà)、視頻擴(kuò)展(正向和反向)、視頻轉(zhuǎn)視頻,以及上述所有這些功能的任意排列組合。

      視覺(jué)效果爆炸

      LTXV-13B 擁有超 130 億個(gè)參數(shù),即使在快速?gòu)?fù)雜的場(chǎng)景,也能提供更流暢的運(yùn)動(dòng)、更少的偽影和更清晰的視覺(jué)效果。

      那么下面再直觀(guān)感受一下效果。

      Prompt:一位有著棕色長(zhǎng)發(fā)和白皙皮膚的女人對(duì)著另一位女人微笑……一位有著棕色長(zhǎng)發(fā)、膚色白皙的女子正對(duì)著另一位有著金色長(zhǎng)發(fā)的女子微笑。這位棕色頭發(fā)的女子身穿黑色夾克,右臉頰上長(zhǎng)著一顆幾乎難以察覺(jué)的小痣。鏡頭角度為特寫(xiě)鏡頭,聚焦于這位棕色頭發(fā)女子的臉部。光線(xiàn)溫暖自然,似乎是落日的余暉,在場(chǎng)景中投射出柔和的光芒。這幅場(chǎng)景似乎是真實(shí)拍攝的。

      還可以不斷地調(diào)整拍攝角度,營(yíng)造出非常自然的航拍效果。

      Prompt:海浪沖擊著海岸線(xiàn)上嶙峋的巖石……海浪拍打著海岸線(xiàn)上嶙峋的巖石,濺起陣陣?yán)嘶?。巖石呈深灰色,邊緣鋒利,裂縫深邃。海水清澈碧綠,浪花拍打巖石的地方泛起白色的泡沫。天空呈淺灰色,幾朵白云點(diǎn)綴在地平線(xiàn)上。

      這下誰(shuí)還能分清什么是現(xiàn)實(shí)什么又是 AI 生成的呢?

      但記得要在生成之前放大圖片,不要像下面這位網(wǎng)友一樣:

      生成速度提升

      相較于同類(lèi)產(chǎn)品,LTXV-13B 生成速度領(lǐng)先近30 倍,但質(zhì)量可是一點(diǎn)都沒(méi)打折扣,相當(dāng)適合快速迭代、實(shí)時(shí)反饋和大規(guī)模生產(chǎn)場(chǎng)景。

      不僅效率大幅度提升,成本也跟著降低,用消費(fèi)級(jí) GPU 就能搞定,也可以選擇官方平臺(tái) LTX Studio 云體驗(yàn)。

      精細(xì)創(chuàng)意控制

      此外,LTXV 還有強(qiáng)大的創(chuàng)意控制功能,提供多關(guān)鍵幀調(diào)節(jié)(起始幀和結(jié)束幀)、攝像機(jī)控制(推拉、變焦、搖臂、軌道等)、面部表情控制等。

      LTXV-Video:實(shí)時(shí)視頻潛空間擴(kuò)散模型

      官方透露,LTX Video 做到更流暢的運(yùn)動(dòng)和更一致的幀間連貫性,關(guān)鍵在于多尺度渲染技術(shù),即同時(shí)以多種空間分辨率分析場(chǎng)景,保留精細(xì)細(xì)節(jié)的同時(shí)理解大規(guī)模結(jié)構(gòu)。

      如下面的例子,可以看到從左到右人物臉上的細(xì)節(jié)越來(lái)越豐富。

      從團(tuán)隊(duì)幾個(gè)月前發(fā)布的 2B 參數(shù)模型論文也可以看出,訓(xùn)練階段就同時(shí)使用了多種分辨率和時(shí)長(zhǎng)組合的數(shù)據(jù)。

      訓(xùn)練時(shí)通過(guò)調(diào)整原始視頻大小,使輸入樣本包含大致相同數(shù)量的 token,并采用隨機(jī)丟棄 token 的策略,避免復(fù)雜的 token 填充或打包操作,保持?jǐn)?shù)據(jù)多樣性。

      上一代 2B 參數(shù)的模型就以速度和效率見(jiàn)長(zhǎng),能夠以超過(guò)實(shí)時(shí)的速度生成高質(zhì)量視頻,在 H100 GPU 上僅需2 秒就能生成 5 秒、24 幀每秒、768 × 512 分辨率的視頻。

      優(yōu)化生成速度的秘訣在于一種整體式 Latent Diffusion 方法,將 Video-VAE 和去噪 Transformer 的任務(wù)無(wú)縫融合,在它們之間共享去噪目標(biāo)。

      另外 Video VAE 部分對(duì)時(shí)空維度進(jìn)行 32 × 32 × 8 的下采樣壓縮,將高分辨率的視頻數(shù)據(jù)轉(zhuǎn)換到低分辨率的潛在空間進(jìn)行處理,通過(guò)空間和時(shí)間壓縮來(lái)降低冗余。

      它實(shí)現(xiàn)了1:192的壓縮比,超過(guò)當(dāng)時(shí)的主流開(kāi)源模型如 MovieGen、CogVideoX 等的 1:48 或 1:96 的壓縮比。

      為實(shí)現(xiàn)這種高壓縮率,團(tuán)隊(duì)將圖像塊化操作(patchify)從 Transformer 的輸入移到了 VAE 的輸入,使每個(gè) token 能夠表示更多的像素信息,幫助 Transformer 計(jì)算全時(shí)空自注意力(full spatiotemporal self-attention)。

      高壓縮率雖好,但會(huì)限制對(duì)細(xì)節(jié)的表示能力。為了解決這個(gè)問(wèn)題,LTX-Video 還采取了多種新策略。

      在訓(xùn)練 Video VAE 時(shí)引入 GAN,減少高壓縮率下 L2 loss 產(chǎn)生的模糊問(wèn)題。

      為此提出改進(jìn)的 Reconstruction GAN,判別器同時(shí)接收原始樣本和重建樣本,通過(guò)判斷哪個(gè)是原始的、哪個(gè)是重建的,簡(jiǎn)化了判別器的任務(wù),提高了其引導(dǎo)生成器的能力,使生成的視頻在保持與原始樣本相似性的同時(shí),能更有效地平衡保真度和感知質(zhì)量。

      此外還有一些小的改動(dòng)如下:

      多層噪聲注入:受 StyleGAN 啟發(fā),在 VAE 解碼器的多個(gè)層注入噪聲,允許生成更多樣化的高頻細(xì)節(jié)。

      統(tǒng)一對(duì)數(shù)方差:使用寬潛空間(大量 channels)時(shí),標(biāo)準(zhǔn) KL 損失會(huì)導(dǎo)致不均勻的利用。團(tuán)隊(duì)使用了所有潛通道共享的單一預(yù)測(cè)對(duì)數(shù)方差,均勻分配 KL 損失的影響。

      視頻 DWT 損失:引入了 spatio-temporal Discrete Wavelet Transform ( DWT ) loss,確保高頻細(xì)節(jié)的重建。

      LTX-Video 同時(shí)支持文本生成視頻和圖像生成視頻兩種能力。

      對(duì)于文本條件生成,團(tuán)隊(duì)使用了預(yù)訓(xùn)練的 T5-XXL 文本編碼器生成初始文本嵌入,并采用了交叉注意力機(jī)制,而非 MM-DiT 方法。

      而對(duì)于圖像條件生成,他們擴(kuò)展了 Open-Sora 的方法,利用擴(kuò)散時(shí)間步作為條件指示器,允許無(wú)縫條件化視頻的任何部分。

      這種方法不需要特殊的 tokens 或?qū)iT(mén)為圖像到視頻任務(wù)訓(xùn)練的模型,大大簡(jiǎn)化了流程。

      2013 年成立的老牌團(tuán)隊(duì)

      LTX-Video 開(kāi)發(fā)團(tuán)隊(duì) Lightricks 成立于 2013 年,前大模型時(shí)代有兩個(gè)招牌產(chǎn)品,為美顏相機(jī)應(yīng)用 Facetune 和視頻剪輯應(yīng)用 Videoleap,在蘋(píng)果商店至今仍排得上號(hào)。

      2023 轉(zhuǎn)型 AI 后,推出 LTX Studio 視頻生成平臺(tái),支持逐鏡頭地構(gòu)建視頻和時(shí)間線(xiàn)編輯,可以精細(xì)控制每個(gè)場(chǎng)景,并保持角色一致性,主要面向影視、廣告和個(gè)人視頻創(chuàng)作者。

      除開(kāi)源模型外,Lightricks 還提供配套的訓(xùn)練工具,支持微調(diào)、預(yù)處理數(shù)據(jù)集、為視頻添加字幕、分割場(chǎng)景等使用功能。

      LTX Video 13B 模型推出后開(kāi)源社區(qū)也非常感興趣,已經(jīng)有人在一天之內(nèi)就為其訓(xùn)練好了 LoRA,讓不同類(lèi)型角色的眼睛都能冒電光特效,引起網(wǎng)友圍觀(guān)。

      Github:

      https://github.com/Lightricks/LTX-Video

      論文:

      https://arxiv.org/pdf/2501.00103

      參考鏈接:

      [ 1 ] https://x.com/maxescu/status/1919801813987164527

      [ 2 ] https://www.lightricks.com/ltxv-documentation

      [ 3 ] https://www.reddit.com/r/StableDiffusion/comments/1kgxgtg/ive_trained_a_ltxv_13b_lora_its_insane/

      量子位 AI 主題策劃正在征集中!歡迎參與專(zhuān)題365 行 AI 落地方案,一千零一個(gè) AI 應(yīng),或與我們分享你在尋找的 AI 產(chǎn)品,或發(fā)現(xiàn)的AI 新動(dòng)向。

      也歡迎你加入量子位每日 AI 交流群,一起來(lái)暢聊 AI 吧~

      一鍵關(guān)注 點(diǎn)亮星標(biāo)

      科技前沿進(jìn)展每日見(jiàn)

      一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

      歡迎在評(píng)論區(qū)留下你的想法!

      相關(guān)標(biāo)簽