中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>
    • 關(guān)于ZAKER 合作

      DeepMind:LLM 是貪婪的 agent;MIT 打造機(jī)器學(xué)習(xí)版「元素周期表」

      速覽熱門(mén)論文

      1.Meta:利用自回歸模型生成高分辨率圖像

      2.DeepMind:LLM 是貪婪的 agent

      3.MIT 打造機(jī)器學(xué)習(xí)版「元素周期表」

      4. 字節(jié)推出高保真「人臉變換模型」DreamID

      1.Meta:利用自回歸模型生成高分辨率圖像

      自回歸(AR)模型在語(yǔ)言生成領(lǐng)域長(zhǎng)期占據(jù)主導(dǎo)地位,近年來(lái)也逐步擴(kuò)展至圖像合成任務(wù)。但相較于擴(kuò)散模型,AR 模型通常被認(rèn)為在生成質(zhì)量和效率方面存在劣勢(shì),主要原因在于其需處理大量圖像 token,導(dǎo)致訓(xùn)練和推理成本高,且限制了生成分辨率。

      為了解決這個(gè)問(wèn)題,Meta 團(tuán)隊(duì)提出了一種新穎、簡(jiǎn)單的方法 Token-Shuffle,旨在減少 Transformer 中的圖像 token 數(shù)量。該方法的核心基于對(duì)多模態(tài)大語(yǔ)言模型(MLLM)中視覺(jué)詞匯維度冗余的觀察:即視覺(jué)編碼器生成的低維視覺(jué)特征可直接映射到高維語(yǔ)言詞匯空間。利用這一點(diǎn),他們考慮了兩個(gè)關(guān)鍵操作:

      token-shuffle:在輸入階段沿通道維度合并空間局部 token,從而顯著降低輸入 token 數(shù)量;

      token-unshuffle:在 Transformer 模塊后對(duì)預(yù)測(cè) token 進(jìn)行還原,恢復(fù)其空間結(jié)構(gòu)以生成最終圖像。

      該方法支持與文本提示聯(lián)合訓(xùn)練,無(wú)需額外預(yù)訓(xùn)練文本編碼器,就可以在保持高效訓(xùn)練與推理的同時(shí),實(shí)現(xiàn)統(tǒng)一的 " 下一個(gè) token 預(yù)測(cè) " 式高分辨率圖像生成。

      他們首次將自回歸文本到圖像生成的分辨率提高到了 2048x2048,并取得了令人滿(mǎn)意的生成性能。在 GenAI 基準(zhǔn)測(cè)試中,2.7B 模型在高難度文本提示上獲得了 0.77 的總分,比自回歸模型 LlamaGen 高 0.18,比擴(kuò)散模型 LDM 高 0.15。大規(guī)模人工評(píng)估結(jié)果亦表明,其在文本對(duì)齊、圖像質(zhì)量與視覺(jué)表現(xiàn)方面具有顯著優(yōu)勢(shì)。

      研究團(tuán)隊(duì)表示,Token-Shuffle 有望成為 MLLM 架構(gòu)中高效、高分辨率圖像生成的一項(xiàng)通用設(shè)計(jì)。

      論文鏈接:https://arxiv.org/abs/2504.17789

      大語(yǔ)言模型(LLM)利用常識(shí)和思維鏈(CoT)推理,可以有效地探索和高效地解決復(fù)雜領(lǐng)域的問(wèn)題。然而,人們發(fā)現(xiàn) LLM agent 存在次優(yōu)探索和 " 知行差距 ",無(wú)法根據(jù)模型中的知識(shí)有效地采取行動(dòng)。

      在這項(xiàng)工作中,Google DeepMind 團(tuán)隊(duì)系統(tǒng)地研究了 LLM 在決策場(chǎng)景中表現(xiàn)次優(yōu)的原因。特別是,他們仔細(xì)研究了 3 種普遍存在的失敗模式:貪婪、頻率偏差和知行差距。他們建議通過(guò)對(duì)自生成的 CoT 推理依據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào)來(lái)緩解這些缺陷。

      他們?cè)诙啾劾匣C(jī)、情境式老虎機(jī)和井字棋中進(jìn)行的實(shí)驗(yàn)表明,強(qiáng)化學(xué)習(xí)微調(diào)通過(guò)增加探索和縮小知行差距,提高了 LLM 的決策能力。

      最后,他們研究了傳統(tǒng)的探索機(jī)制(如 -greedy)和 LLM 特有的方法(如自我校正和自一致性),以便在決策中對(duì) LLM 進(jìn)行更有效的微調(diào)。

      論文鏈接:https://arxiv.org/abs/2504.16078

      隨著表征學(xué)習(xí)領(lǐng)域的發(fā)展,出現(xiàn)了大量不同的損失函數(shù)來(lái)解決不同類(lèi)別的問(wèn)題。

      在這項(xiàng)工作中,來(lái)自 MIT、谷歌和微軟的研究團(tuán)隊(duì)提出了一個(gè)單一的信息論方程,它概括了機(jī)器學(xué)習(xí)中大量的現(xiàn)代損失函數(shù)。特別是,他們提出的框架表明,幾大類(lèi)機(jī)器學(xué)習(xí)方法都在精確地最小化兩個(gè)條件分布(監(jiān)督表征和學(xué)習(xí)表征)之間的綜合 KL 發(fā)散。這一觀點(diǎn)揭示了聚類(lèi)、譜方法、降維、對(duì)比學(xué)習(xí)和監(jiān)督學(xué)習(xí)背后隱藏的信息幾何。

      通過(guò)結(jié)合以往其他技術(shù),這一框架開(kāi)發(fā)出了新的損失函數(shù)。他們不僅提出了一系列證明,將超過(guò) 23 種不同的方法聯(lián)系在一起,而且還利用這些理論成果創(chuàng)建了 SOTA 無(wú)監(jiān)督圖像分類(lèi)器,在 ImageNet-1K 上的無(wú)監(jiān)督分類(lèi)方面比之前的 SOTA 方法提高了 8%。

      他們還證明,I-Con 可以用于推導(dǎo)有原則的去偏(debiasing)方法,從而改進(jìn)對(duì)比表示學(xué)習(xí)方法。

      論文鏈接:https://arxiv.org/abs/2504.16929

      在這項(xiàng)工作中,字節(jié)團(tuán)隊(duì)提出了基于擴(kuò)散的人臉變換模型 DreamID,它能夠?qū)崿F(xiàn)高水平的 ID 相似性、屬性保留、圖像保真和快速推理。

      典型的人臉變換訓(xùn)練過(guò)程通常依賴(lài)于隱式監(jiān)督,很難取得令人滿(mǎn)意的結(jié)果,與之不同,DreamID 通過(guò)構(gòu)建三重身份組數(shù)據(jù),為人臉交換建立了顯式監(jiān)督,大大提高了身份相似性和屬性保持性。

      擴(kuò)散模型的迭代特性為利用高效的圖像空間損失函數(shù)帶來(lái)了挑戰(zhàn),因?yàn)樵谟?xùn)練過(guò)程中執(zhí)行耗時(shí)的多步采樣以獲取生成的圖像是不切實(shí)際的。為此,他們利用加速擴(kuò)散模型 SD Turbo,將推理步驟減少到單次迭代,實(shí)現(xiàn)了高效的像素級(jí)端到端訓(xùn)練,并具有明確的三重 ID 組監(jiān)督。

      此外,他們還提出了一種改進(jìn)的基于擴(kuò)散的模型架構(gòu),包括 SwapNet、FaceNet 和 ID Adapter。這種魯棒的架構(gòu)充分釋放了三重 ID 組顯式監(jiān)督的能力。

      最后,為了進(jìn)一步擴(kuò)展這一方法,他們?cè)谟?xùn)練過(guò)程中修改了三重 ID 組數(shù)據(jù),以微調(diào)和保留特定屬性,如眼鏡和臉型。

      廣泛的實(shí)驗(yàn)證明,DreamID 在身份相似性、姿勢(shì)和表情保持以及圖像保真度方面實(shí)現(xiàn)了 SOTA。

      論文鏈接:https://arxiv.org/abs/2504.14509

      整理:學(xué)術(shù)君

      如需轉(zhuǎn)載或投稿,請(qǐng)直接在公眾號(hào)內(nèi)留言

      相關(guān)標(biāo)簽

      相關(guān)閱讀

      最新評(píng)論

      沒(méi)有更多評(píng)論了
      學(xué)術(shù)頭條

      學(xué)術(shù)頭條

      專(zhuān)注科學(xué)傳播和學(xué)術(shù)分享,關(guān)注計(jì)算機(jī)科學(xué)、認(rèn)知科學(xué)、人工智能科學(xué)、神經(jīng)科學(xué)、腦科學(xué)等學(xué)科領(lǐng)域。

      訂閱

      覺(jué)得文章不錯(cuò),微信掃描分享好友

      掃碼分享