中文字幕乱老妇女一视频,97青草香蕉依人在线视频,男人的天堂国产综合,伊人中文字幕亚洲精品

<style id="pje8p"><tr id="pje8p"></tr></style>

量子位 14小時(shí)前

破解三大數(shù)據(jù)庫(kù) AI 難題！北大亞馬遜推出全球首個(gè)圖中心 RDB 基礎(chǔ)模型

在企業(yè)系統(tǒng)和科學(xué)研究中普遍存在、結(jié)構(gòu)復(fù)雜的關(guān)系型數(shù)據(jù)庫(kù)（Relational DataBase, RDB）場(chǎng)景中，基礎(chǔ)模型的探索仍處于早期階段。

這是因?yàn)?RDB 中的多表交互和異質(zhì)特征，使傳統(tǒng)通用大模型在此類結(jié)構(gòu)化環(huán)境下難以直接發(fā)揮效能。

基于此，北京大學(xué)張牧涵團(tuán)隊(duì)聯(lián)合亞馬遜云科技共同提出了Griffin：一個(gè)具有開(kāi)創(chuàng)性的、以圖為中心的 RDB 基礎(chǔ)模型。

Griffin 將 RDB 視為動(dòng)態(tài)異質(zhì)圖進(jìn)行建模與推理，通過(guò)在超過(guò) 1.5 億行的表格數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練和監(jiān)督微調(diào)，構(gòu)建了一個(gè)具備可遷移性與強(qiáng)泛化能力的基礎(chǔ)模型，相關(guān)成果已被國(guó)際頂級(jí)會(huì)議 ICML 2025 正式接收。

挑戰(zhàn)：復(fù)雜的表間關(guān)系及豐富的表內(nèi)語(yǔ)義信息

關(guān)系數(shù)據(jù)庫(kù)通過(guò)明確的模式（Schema）定義數(shù)據(jù)結(jié)構(gòu)，廣泛服務(wù)于金融、電商、科研、物流、政府信息系統(tǒng)等關(guān)鍵領(lǐng)域，是現(xiàn)代信息社會(huì)的核心數(shù)字基礎(chǔ)設(shè)施。

根據(jù)市場(chǎng)預(yù)測(cè)，到 2028 年全球數(shù)據(jù)庫(kù)管理系統(tǒng)（DBMS）市場(chǎng)將超過(guò) 1330 億美元。

然而，RDB 智能建模所面臨的挑戰(zhàn)極為復(fù)雜，集中體現(xiàn)在以下三方面：

拓?fù)浣Y(jié)構(gòu)高度復(fù)雜

數(shù)據(jù)以多表形式存儲(chǔ)，并通過(guò)主鍵外鍵等約束關(guān)系構(gòu)成復(fù)雜的圖結(jié)構(gòu)，傳統(tǒng)單表范式難以捕捉全局上下文。

特征高度異構(gòu)

表內(nèi)字段涵蓋文本、數(shù)值、類別、時(shí)間序列等多種類型，信息表現(xiàn)形態(tài)各異，模型需具備統(tǒng)一表征能力。

深層次語(yǔ)義關(guān)系

表內(nèi)外存在豐富的顯性與隱性邏輯關(guān)系，對(duì)模型的關(guān)系理解和推理能力構(gòu)成巨大挑戰(zhàn)。

上圖展示了一個(gè)典型的 RDB，綠色的 Purchase Table 記錄了交易數(shù)據(jù)（每一行包括用戶 ID、購(gòu)買的商品 ID、用戶對(duì)商品的評(píng)分、以及購(gòu)買日期）。而每一行又可通過(guò) User ID 這一外鍵鏈接到 User Table 里的對(duì)應(yīng)行，或通過(guò) Item ID 這一外鍵鏈接到 Product Table 里的對(duì)應(yīng)行，來(lái)獲取用戶或商品的特定信息。

相比普通表格（單表）數(shù)據(jù)，RDB 往往具有非常復(fù)雜的表間關(guān)系以及豐富的表內(nèi)語(yǔ)義信息，對(duì)建模和基礎(chǔ)模型訓(xùn)練提出了挑戰(zhàn)。同時(shí)，社區(qū)長(zhǎng)期缺乏能真實(shí)反映生產(chǎn)場(chǎng)景的標(biāo)準(zhǔn)化基準(zhǔn)。

諸如 4DBInfer ( arXiv:2404.18209 ) 等數(shù)據(jù)集正緩慢填補(bǔ)空白，為新模型（包括 Griffin）提供了統(tǒng)一的評(píng)測(cè)土壤。

方法：以圖為中心的數(shù)據(jù)庫(kù)建模

Griffin 的核心思想是將關(guān)系型數(shù)據(jù)庫(kù)整體抽象為時(shí)序異質(zhì)圖，再在此圖上進(jìn)行統(tǒng)一的編碼、消息傳遞和解碼，以此捕捉跨表、跨時(shí)間的深層依賴。具體來(lái)說(shuō)，它的創(chuàng)新設(shè)計(jì)可以拆解為以下幾點(diǎn) :

RDB 的數(shù)據(jù)建模：結(jié)構(gòu)化圖表示與時(shí)序感知

首先，Griffin 把每張數(shù)據(jù)表中的一行記錄映射為圖中的一個(gè)節(jié)點(diǎn)，而主鍵 - 外鍵（PK-FK）約束被建模為帶類型的有向邊。這樣，原本分散在多張表中的記錄就組成了一張異質(zhì)圖，其節(jié)點(diǎn) / 邊類型天然反映了模式信息。

為了避免未來(lái)信息泄漏并符合生產(chǎn)預(yù)測(cè)任務(wù)的因果約束，模型在訓(xùn)練和推理時(shí)會(huì)圍繞目標(biāo)節(jié)點(diǎn)采樣 " 局部時(shí)序子圖 "：僅納入時(shí)間戳早于目標(biāo)節(jié)點(diǎn)的鄰域。

該采樣流程借鑒了 4DBInfer 等基準(zhǔn)的成熟做法，可在保證效率的同時(shí)顯式注入時(shí)間方向。

統(tǒng)一數(shù)據(jù)編碼器：異構(gòu)信息的規(guī)范化表征

RDB 中既包含文本 / 類別字段，也有數(shù)值、時(shí)間序列等多模態(tài)特征。Griffin 設(shè)計(jì)了一套統(tǒng)一編碼機(jī)制，把不同類型轉(zhuǎn)換為同一語(yǔ)義空間中的向量：

類別 & 文本：先將類別值映射為其自然語(yǔ)言描述，再同原生文本一起輸入經(jīng)過(guò)預(yù)訓(xùn)練的文本編碼器（如 Nomic Embeddings），得到語(yǔ)義豐富的高維嵌入。

數(shù)值：歸一化后的數(shù)值輸入給預(yù)訓(xùn)練的浮點(diǎn)編碼器（ENC）。ENC 與其配對(duì)的解碼器 DEC 通過(guò)聯(lián)合重構(gòu)任務(wù)訓(xùn)練：編碼后必須能夠無(wú)損地解碼回原始浮點(diǎn)值，重構(gòu)誤差被最小化后這兩個(gè)組件參數(shù)即被凍結(jié)。

元數(shù)據(jù) & 任務(wù)上下文：表名、列名以及邊類型被同樣送入文本編碼器；同時(shí)，根據(jù)當(dāng)前預(yù)測(cè)目標(biāo)列名生成的任務(wù)描述會(huì)在后續(xù)所有層次參與注意力計(jì)算，指導(dǎo)模型聚焦目標(biāo)。

經(jīng)過(guò)上述步驟，原始多態(tài)信息被規(guī)范化為一組高語(yǔ)義的向量，為后續(xù)圖消息傳遞奠定基礎(chǔ)。

先進(jìn) MPNN 架構(gòu)：深度關(guān)系推理網(wǎng)絡(luò)

統(tǒng)一編碼后的圖被送入 Griffin 定制的 Message Passing Neural Network ( MPNN ) ，其核心由兩個(gè)互補(bǔ)模塊構(gòu)成：

交叉注意力（Cross-Attention）列內(nèi)聚合：對(duì)每個(gè)節(jié)點(diǎn)，模型利用當(dāng)前節(jié)點(diǎn)嵌入和任務(wù)嵌入生成查詢向量，與列元數(shù)據(jù)和列特征進(jìn)行交互，動(dòng)態(tài)評(píng)估不同列對(duì)當(dāng)前任務(wù)的重要性并加權(quán)聚合。該設(shè)計(jì)天然滿足列置換不變性，且可處理列數(shù)可變的表。

層級(jí)聚合（Hierarchical Aggregation）跨表推理：在消息傳遞的每一層，先對(duì)同一邊類型的鄰居消息做均值聚合，再在不同邊類型間做最大池化。這種兩階段層級(jí)策略提升了模型在處理具有復(fù)雜拓?fù)浣Y(jié)構(gòu)和多變鄰居數(shù)量的表間關(guān)聯(lián)時(shí)的穩(wěn)定性。

通過(guò)多層迭代，MPNN 能夠捕獲從近鄰到遠(yuǎn)程的復(fù)合依賴，為下游任務(wù)提供信息豐富的節(jié)點(diǎn)表征。

統(tǒng)一任務(wù)解碼器：多任務(wù)輸出的一體化方案

MPNN 輸出的節(jié)點(diǎn)向量隨后進(jìn)入統(tǒng)一解碼器，使 Griffin 能夠在不改動(dòng)架構(gòu)的前提下同時(shí)處理多種預(yù)測(cè)任務(wù)。

分類任務(wù)：把候選類別標(biāo)簽本身的文本嵌入當(dāng)作可學(xué)習(xí)的動(dòng)態(tài)分類頭，與節(jié)點(diǎn)向量做內(nèi)積得到概率分布 , 能夠拓展到可變類比數(shù)量的任務(wù)。

回歸任務(wù)：直接將節(jié)點(diǎn)向量輸入預(yù)訓(xùn)練 DEC，反解得到最終的預(yù)測(cè)數(shù)值。

訓(xùn)練：三階段優(yōu)化方案

Griffin 通過(guò)" 自監(jiān)督預(yù)訓(xùn)練→聯(lián)合監(jiān)督微調(diào)→下游任務(wù)微調(diào) "的三級(jí)管線，逐步注入從通用表格語(yǔ)義到特定 RDB 任務(wù)知識(shí)的能力層次。

第一階段：補(bǔ)全預(yù)訓(xùn)練 ( Completion Pretraining )

Griffin 首先在海量且多樣化的單表數(shù)據(jù)集上進(jìn)行自監(jiān)督學(xué)習(xí)，任務(wù)形式類似 " 完形填空 "。模型根據(jù)一行數(shù)據(jù)中已知列信息來(lái)預(yù)測(cè)被遮蔽單元的嵌入表示，并最小化預(yù)測(cè)嵌入與真實(shí)嵌入間的余弦距離，從而建立對(duì)表格結(jié)構(gòu)與語(yǔ)義的基礎(chǔ)理解。

第二階段：聯(lián)合監(jiān)督微調(diào) ( Joint Supervised Fine-Tuning, SFT )

在完成自監(jiān)督預(yù)訓(xùn)練后，Griffin 使用單表任務(wù)或 RDB 任務(wù)的數(shù)據(jù)集進(jìn)行監(jiān)督微調(diào)，使模型進(jìn)一步貼合真實(shí)場(chǎng)景中的預(yù)測(cè)需求與數(shù)據(jù)特性。

第三階段：下游任務(wù)微調(diào) ( Downstream Task Fine-Tuning )

最后，經(jīng)過(guò)預(yù)訓(xùn)練和 SFT 的 Griffin 會(huì)針對(duì)具體下游 RDB 基準(zhǔn)任務(wù)進(jìn)行精細(xì)化微調(diào)，以在特定應(yīng)用場(chǎng)景中取得最佳性能。

驗(yàn)證：三階段訓(xùn)練的優(yōu)越性

為全面評(píng)估各訓(xùn)練階段對(duì)模型性能的具體貢獻(xiàn)，對(duì) Griffin 的三個(gè)關(guān)鍵變體進(jìn)行深入分析：Griffin-unpretrained（僅采用 Griffin 的基礎(chǔ)架構(gòu)，未經(jīng)任何預(yù)訓(xùn)練）、Griffin-pretrained（僅進(jìn)行單表預(yù)訓(xùn)練及單表 SFT）以及 Griffin-RDB-SFT（經(jīng)歷完整的三階段訓(xùn)練流程）。

上圖比較了四個(gè) GNN 基線模型、四個(gè)使用 DFS 的單表基線模型以及兩個(gè) Griffin 變體的性能，每個(gè)模型均在單個(gè)任務(wù)上進(jìn)行了微調(diào)。

最左側(cè)的子圖展示了所有任務(wù)上的平均排名，其余子圖按評(píng)估指標(biāo)對(duì)任務(wù)進(jìn)行分組，結(jié)果相應(yīng)地進(jìn)行了平均。

通過(guò)系統(tǒng)實(shí)驗(yàn)驗(yàn)證了 Griffin 在架構(gòu)設(shè)計(jì)和預(yù)訓(xùn)練策略上的有效性，發(fā)現(xiàn) Griffin 在多個(gè) RDB 基準(zhǔn)測(cè)試（如 4DBInfer 和 RelBench）中表現(xiàn)優(yōu)異，并進(jìn)一步分析了其在少樣本場(chǎng)景下的跨任務(wù)遷移能力與數(shù)據(jù)領(lǐng)域間關(guān)系的影響。

Griffin 的核心優(yōu)勢(shì)可歸納為以下三點(diǎn)：

1. 強(qiáng)大的基礎(chǔ)架構(gòu)性能

即便完全未預(yù)訓(xùn)練（Griffin-unpretrained），憑借統(tǒng)一編碼、交叉注意力和層級(jí)化 MPNN 等設(shè)計(jì)，模型在各下游 RDB 任務(wù)微調(diào)后的表現(xiàn)仍優(yōu)于 GNN 基線方法及結(jié)合深度特征合成（DFS）的傳統(tǒng)單表模型，體現(xiàn)了架構(gòu)本身的先進(jìn)性。

2. 單表預(yù)訓(xùn)練的普適性增益

僅在大規(guī)模、多樣化單表數(shù)據(jù)上完成預(yù)訓(xùn)練的 Griffin-pretrained，相較未預(yù)訓(xùn)練版本取得性能提升，驗(yàn)證單表場(chǎng)景中學(xué)習(xí)到的知識(shí)可遷移至復(fù)雜的 RDB 任務(wù)，增強(qiáng)模型泛化能力。

3.RDB-SFT 驅(qū)動(dòng)的遷移

當(dāng)進(jìn)一步在針對(duì)性 RDB 數(shù)據(jù)上進(jìn)行監(jiān)督微調(diào)（Griffin-RDB-SFT）后，模型在一定情況下展現(xiàn)出跨任務(wù)遷移能力，尤其在小樣本場(chǎng)景下更為突出，取決于以下 2 個(gè)因素：

數(shù)據(jù)相似性：SFT 數(shù)據(jù)與目標(biāo)任務(wù)領(lǐng)域具有較高相似性（例如，同為電商領(lǐng)域的跨任務(wù)遷移），模型性能將獲得提升；

數(shù)據(jù)多樣性：在更多樣化的 SFT 數(shù)據(jù)上訓(xùn)練（例如，使用包含體育、社交、醫(yī)療等多個(gè)其他領(lǐng)域的混合數(shù)據(jù)進(jìn)行 SFT，再遷移至電商領(lǐng)域任務(wù)），同樣能有效提升模型性能。

論文鏈接：https://arxiv.org/abs/2505.05568

代碼鏈接：https://github.com/yanxwb/griffin

一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評(píng)論區(qū)留下你的想法！

— 完 —

點(diǎn)亮星標(biāo)

科技前沿進(jìn)展每日見(jiàn)

宙世代

ZAKER旗下Web3.0元宇宙平臺(tái)

一起剪

ZAKER旗下免費(fèi)視頻剪輯工具

相關(guān)標(biāo)簽

數(shù)據(jù)庫(kù)abs

相關(guān)閱讀

Synopsys中國(guó)業(yè)務(wù)開(kāi)始恢復(fù) 但是！EDA還是不能賣

快科技 2小時(shí)前

AMD AM5主板存安全漏洞：趕緊刷新BIOS

快科技 3小時(shí)前

安克推出S1自帶線45W帶屏移動(dòng)電源：2C+1A設(shè)計(jì)首發(fā)299元

快科技 3小時(shí)前

17.8億元！賽微電子被迫賣掉海外晶圓廠

快科技 6小時(shí)前

王騰曬高考之后的小米之家：被老中青三代擠爆

快科技 9小時(shí)前

殘值高45%：蘋果iPhone為什么比安卓手機(jī)更耐用

快科技 10小時(shí)前

19歲曾從麻省理工輟學(xué)創(chuàng)業(yè)！Meta用150億美元收購(gòu)華裔“天才少年”公司

快科技 10小時(shí)前

華為Pura 80系列開(kāi)售熱度空前！華為何剛空降門店直播揭秘移動(dòng)影像王者歸來(lái)背后的實(shí)力

快科技 10小時(shí)前

港劇有望登上衛(wèi)視黃金檔！TVB進(jìn)軍內(nèi)地市場(chǎng)更進(jìn)一步

網(wǎng)易娛樂(lè) 2小時(shí)前

Win11遭用戶痛批狂噴！微軟回應(yīng)：正在傾聽(tīng)反饋贏回信任

快科技 11小時(shí)前

何剛揭秘！華為P系列更名Pura真相來(lái)了

數(shù)碼測(cè)評(píng) 13小時(shí)前

華為2025 XMAGE影像大賽開(kāi)賽全新賽制全新獎(jiǎng)勵(lì)機(jī)制

雷科技 7小時(shí)前

Intel銳炫A750和A770獨(dú)顯停產(chǎn)！多款移動(dòng)端產(chǎn)品也在列

快科技 13小時(shí)前

任正非的話含金量還在上升！黃仁勛：中國(guó)的能源非常充足可用更多芯片并行來(lái)解決問(wèn)題

快科技 16小時(shí)前

華為打造AI時(shí)代的酒店：萬(wàn)兆是標(biāo)配

數(shù)碼測(cè)評(píng) 昨天

最新評(píng)論

沒(méi)有更多評(píng)論了

量子位

訂閱

覺(jué)得文章不錯(cuò)，微信掃描分享好友

掃碼分享

熱門推薦

熱門訂閱換一批

Blockchain News