0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

介紹圖機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)

OSC開(kāi)源社區(qū) ? 來(lái)源:Hugging Face ? 2023-02-03 14:07 ? 次閱讀

本文主要介紹圖機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)。

我們首先學(xué)習(xí)什么是圖、為什么使用圖以及如何最佳地表示圖。然后,我們簡(jiǎn)要介紹大家如何在圖數(shù)據(jù)上學(xué)習(xí),從神經(jīng)網(wǎng)絡(luò)以前的方法 (同時(shí)我們會(huì)探索圖特征) 到現(xiàn)在廣為人知的圖神經(jīng)網(wǎng)絡(luò) (Graph Neural Network,GNN) ,最后,我們將一窺圖數(shù)據(jù)上的 Transformers 世界。

什么是圖?

本質(zhì)上來(lái)講,圖描述了由關(guān)系互相鏈接起來(lái)的實(shí)體。

現(xiàn)實(shí)中有很多圖的例子,包括社交網(wǎng)絡(luò) (如推特,長(zhǎng)毛象,以及任何鏈接論文和作者的引用網(wǎng)絡(luò)) 、分子、知識(shí)圖譜 (如 UML 圖,百科全書(shū),以及那些頁(yè)面之間有超鏈接的網(wǎng)站) 、被表示成句法樹(shù)的句子、3D 網(wǎng)格等等。因此,可以毫不夸張地講,圖無(wú)處不在。

圖 (或網(wǎng)絡(luò)) 中的實(shí)體稱為 節(jié)點(diǎn) (或頂點(diǎn)) ,它們之間的連接稱為 邊 (或鏈接) 。舉個(gè)例子,在社交網(wǎng)絡(luò)中,節(jié)點(diǎn)是用戶,而邊是他 (她) 們之間的連接關(guān)系;在分子中,節(jié)點(diǎn)是原子,而邊是它們之間的分子鍵。

可以存在不止一種類型的節(jié)點(diǎn)或邊的圖稱為 異構(gòu)圖 (heterogeneous graph) (例子:引用網(wǎng)絡(luò)的節(jié)點(diǎn)有論文和作者兩種類型,含有多種關(guān)系類型的 XML 圖的邊是多類型的) 。異構(gòu)圖不能僅由其拓?fù)浣Y(jié)構(gòu)來(lái)表征,它需要額外的信息。本文主要討論同構(gòu)圖 (homogeneous graph) 。

圖還可以是 有向 (directed) 的 (如一個(gè)關(guān)注網(wǎng)絡(luò)中,A 關(guān)注了 B,但 B 可以不關(guān)注 A) 或者是 無(wú)向 (undirected) 的 (如一個(gè)分子中,原子間的關(guān)系是雙向的) 。邊可以連接不同的節(jié)點(diǎn),也可以自己連接自己 (自連邊,self-edges) ,但不是所有的節(jié)點(diǎn)都必須有連接。

如果你想使用自己的數(shù)據(jù),首先你必須考慮如何最佳地刻畫(huà)它 (同構(gòu) / 異構(gòu),有向 / 無(wú)向等) 。

圖有什么用途?

我們一起看看在圖上我們可以做哪些任務(wù)吧。

在 圖層面,主要的任務(wù)有:

圖生成: 可在藥物發(fā)現(xiàn)任務(wù)中用于生成新的可能的藥物分子,

圖演化 (給定一個(gè)圖,預(yù)測(cè)它會(huì)如何隨時(shí)間演化) : 可在物理學(xué)中用于預(yù)測(cè)系統(tǒng)的演化,

圖層面預(yù)測(cè) (基于圖的分類或回歸任務(wù)) : 如預(yù)測(cè)分子毒性。

在 節(jié)點(diǎn)層面,通常用于預(yù)測(cè)節(jié)點(diǎn)屬性。舉個(gè)例子,Alphafold 使用節(jié)點(diǎn)屬性預(yù)測(cè)方法,在給定分子總體圖的條件下預(yù)測(cè)原子的 3D 坐標(biāo),并由此預(yù)測(cè)分子在 3D 空間中如何折疊,這是個(gè)比較難的生物化學(xué)問(wèn)題。

在 邊層面,我們可以做邊屬性預(yù)測(cè)或缺失邊預(yù)測(cè)。邊屬性預(yù)測(cè)可用于在給定藥物對(duì) (pair) 的條件下預(yù)測(cè)藥物的不良副作用。缺失邊預(yù)測(cè)被用于在推薦系統(tǒng)中預(yù)測(cè)圖中的兩個(gè)節(jié)點(diǎn)是否相關(guān)。

另一種可能的工作是在 子圖層面 的,可用于社區(qū)檢測(cè)或子圖屬性預(yù)測(cè)。社交網(wǎng)絡(luò)用社區(qū)檢測(cè)確定人們之間如何連接。我們可以在行程系統(tǒng) (如 Google Maps) 中發(fā)現(xiàn)子圖屬性預(yù)測(cè)的身影,它被用于預(yù)測(cè)到達(dá)時(shí)間。

完成這些任務(wù)有兩種方式。

當(dāng)你想要預(yù)測(cè)特定圖的演化時(shí),你工作在 直推 (transductive) 模式,直推模式中所有的訓(xùn)練、驗(yàn)證和推理都是基于同一張圖。如果這是你的設(shè)置,要多加小心!在同一張圖上創(chuàng)建訓(xùn)練 / 評(píng)估 / 測(cè)試集可不容易。 然而,很多任務(wù)其實(shí)是工作在不同的圖上的 (不同的訓(xùn)練 / 評(píng)估 / 測(cè)試集劃分) ,我們稱之為 歸納 (inductive) 模式。

如何表示圖?

常用的表示圖以用于后續(xù)處理和操作的方法有 2 種:

表示成所有邊的集合 (很有可能也會(huì)加上所有節(jié)點(diǎn)的集合用以補(bǔ)充) 。

或表示成所有節(jié)點(diǎn)間的鄰接矩陣。鄰接矩陣是一個(gè) 大小的方陣,它指明圖上哪些節(jié)點(diǎn)間是直接相連的 (若 和 相連則 ,否則為 0) 。

?

注意:多數(shù)圖的邊連接并不稠密,因此它們的鄰接矩陣是稀疏的,這個(gè)會(huì)讓計(jì)算變得困難。

雖然這些表示看上去很熟悉,但可別被騙了!

圖與機(jī)器學(xué)習(xí)中使用的典型對(duì)象大不相同,因?yàn)樗鼈兊耐負(fù)浣Y(jié)構(gòu)比序列 (如文本或音頻) 或有序網(wǎng)格 (如圖像和視頻) 復(fù)雜得多:即使它們可以被表示成鏈表或者矩陣,但它們并不能被當(dāng)作有序?qū)ο髞?lái)處理。

這究竟意味著什么呢?如果你有一個(gè)句子,你交換了這個(gè)句子的詞序,你就創(chuàng)造了一個(gè)新句子。如果你有一張圖像,然后你重排了這個(gè)圖像的列,你就創(chuàng)造了一張新圖像。

f8ecdf2e-a2f7-11ed-bfe3-dac502259ad0.jpg

左圖是 Hugging Face 的標(biāo)志。右圖是一個(gè)重排后的 Hugging Face 標(biāo)志,已經(jīng)是一張不同的新圖像了。

但圖并不會(huì)如此。如果你重排了圖的邊列表或者鄰接矩陣的列,圖還是同一個(gè)圖 (一個(gè)更正式的叫法是置換不變性 (permutation invariance) ) 。

f8fe8a62-a2f7-11ed-bfe3-dac502259ad0.jpg

左圖,一個(gè)小型圖 (黃色是節(jié)點(diǎn),橙色是邊) 。中圖,該圖的鄰接矩陣,行與列的節(jié)點(diǎn)按字母排序:可以看到第一行的節(jié)點(diǎn) A,與 E 和 C 相連。右圖,重排后的鄰接矩陣 (列不再按字母序排了),但這還是該圖的有效表示:A 節(jié)點(diǎn)仍然與 E 和 C 相連。

基于機(jī)器學(xué)習(xí)的圖表示

使用機(jī)器學(xué)習(xí)處理圖的一般流程是:首先為你感興趣的對(duì)象 (根據(jù)你的任務(wù),可以是節(jié)點(diǎn)、邊或是全圖) 生成一個(gè)有意義的表示,然后使用它們訓(xùn)練一個(gè)目標(biāo)任務(wù)的預(yù)測(cè)器。與其他模態(tài)數(shù)據(jù)一樣,我們想要對(duì)這些對(duì)象的數(shù)學(xué)表示施加一些約束,使得相似的對(duì)象在數(shù)學(xué)上是相近的。然而,這種相似性在圖機(jī)器學(xué)習(xí)上很難嚴(yán)格定義,舉個(gè)例子,具有相同標(biāo)簽的兩個(gè)節(jié)點(diǎn)和具有相同鄰居的兩個(gè)節(jié)點(diǎn)哪兩個(gè)更相似?

?

注意:在隨后的部分,我們將聚焦于如何生成節(jié)點(diǎn)的表示。一旦你有了節(jié)點(diǎn)層面的表示,就有可能獲得邊或圖層面的信息。你可以通過(guò)把邊所連接的兩個(gè)節(jié)點(diǎn)的表示串聯(lián)起來(lái)或者做一個(gè)點(diǎn)積來(lái)得到邊層面的信息。至于圖層面的信息,可以通過(guò)對(duì)圖上所有節(jié)點(diǎn)的表示串聯(lián)起來(lái)的張量做一個(gè)全局池化 (平均,求和等) 來(lái)獲得。當(dāng)然,這么做會(huì)平滑掉或丟失掉整圖上的一些信息,使用迭代的分層池化可能更合理,或者增加一個(gè)連接到圖上所有其他節(jié)點(diǎn)的虛擬節(jié)點(diǎn),然后使用它的表示作為整圖的表示。

神經(jīng)網(wǎng)絡(luò)以前的方法

只使用手工設(shè)計(jì)特征

在神經(jīng)網(wǎng)絡(luò)出現(xiàn)之前,圖以及圖中的感興趣項(xiàng)可以被表示成特征的組合,這些特征組合是針對(duì)特定任務(wù)的。盡管現(xiàn)在存在 更復(fù)雜的特征生成方法,這些特征仍然被用于數(shù)據(jù)增強(qiáng)和 半監(jiān)督學(xué)習(xí)。這時(shí),你主要的工作是根據(jù)目標(biāo)任務(wù),找到最佳的用于后續(xù)網(wǎng)絡(luò)訓(xùn)練的特征。

節(jié)點(diǎn)層面特征 可以提供關(guān)于其重要性 (該節(jié)點(diǎn)對(duì)于圖有多重要?) 以及 / 或結(jié)構(gòu)性 (節(jié)點(diǎn)周圍的圖的形狀如何?) 信息,兩者可以結(jié)合。

節(jié)點(diǎn) 中心性 (centrality) 度量圖中節(jié)點(diǎn)的重要性。它可以遞歸計(jì)算,即不斷對(duì)每個(gè)節(jié)點(diǎn)的鄰節(jié)點(diǎn)的中心性求和直到收斂,也可以通過(guò)計(jì)算節(jié)點(diǎn)間的最短距離來(lái)獲得,等等。節(jié)點(diǎn)的 度 (degree) 度量節(jié)點(diǎn)的直接鄰居的數(shù)量。聚類系數(shù) (clustering coefficient) 度量一個(gè)節(jié)點(diǎn)的鄰節(jié)點(diǎn)之間相互連接的程度。

圖元度向量 (Graphlets degree vectors,GDV) 計(jì)算給定根節(jié)點(diǎn)的不同圖元的數(shù)目,這里圖元是指給定數(shù)目的連通節(jié)點(diǎn)可創(chuàng)建的所有迷你圖 (如:3 個(gè)連通節(jié)點(diǎn)可以生成一個(gè)有兩條邊的線,或者一個(gè) 3 條邊的三角形) 。

f91839d0-a2f7-11ed-bfe3-dac502259ad0.jpg

2 個(gè)節(jié)點(diǎn)到 5 個(gè)節(jié)點(diǎn)的圖元 (Pr?ulj, 2007)

邊層面特征帶來(lái)了關(guān)于節(jié)點(diǎn)間連通性的更多細(xì)節(jié)信息,有效地補(bǔ)充了圖的表示,有:兩節(jié)點(diǎn)間的 最短距離 (shortest distance),它們的公共鄰居 (common neighbours),以及它們的 卡茲指數(shù) (Katz index) (表示兩節(jié)點(diǎn)間從所有長(zhǎng)度小于某個(gè)值的路徑的數(shù)目,它可以由鄰接矩陣直接算得) 。

圖層面特征 包含了關(guān)于圖相似性和規(guī)格的高層信息???圖元數(shù) 盡管計(jì)算上很昂貴,但提供了關(guān)于子圖形狀的信息。核方法 通過(guò)不同的節(jié)點(diǎn)袋 (bag of nodes) (類似于詞袋 (bag of words) ) 方法度量圖之間的相似性。

基于游走的方法

基于游走的方法 使用在隨機(jī)游走時(shí)從節(jié)點(diǎn)j訪問(wèn)節(jié)點(diǎn)i的可能性來(lái)定義相似矩陣;這些方法結(jié)合了局部和全局的信息。舉個(gè)例子,Node2Vec模擬圖中節(jié)點(diǎn)間的隨機(jī)游走,把這些游走路徑建模成跳字 (skip-gram) ,這與我們處理句子中的詞很相似,然后計(jì)算嵌入?;陔S機(jī)游走的方法也可被用于加速 Page Rank 方法,幫助計(jì)算每個(gè)節(jié)點(diǎn)的重要性得分 (舉個(gè)例子:如果重要性得分是基于每個(gè)節(jié)點(diǎn)與其他節(jié)點(diǎn)的連通度的話,我們可以用隨機(jī)游走訪問(wèn)到每個(gè)節(jié)點(diǎn)的頻率來(lái)模擬這個(gè)連通度) 。

然而,這些方法也有限制:它們不能得到新的節(jié)點(diǎn)的嵌入向量,不能很好地捕獲節(jié)點(diǎn)間的結(jié)構(gòu)相似性,也使用不了新加入的特征。

圖神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)可泛化至未見(jiàn)數(shù)據(jù)。我們?cè)谏衔囊呀?jīng)提到了一些圖表示的約束,那么一個(gè)好的神經(jīng)網(wǎng)絡(luò)應(yīng)該有哪些特性呢?

它應(yīng)該:

滿足置換不變性:

等式:,這里 f 是神經(jīng)網(wǎng)絡(luò),P 是置換函數(shù),G 是圖。

解釋:置換后的圖和原圖經(jīng)過(guò)同樣的神經(jīng)網(wǎng)絡(luò)后,其表示應(yīng)該是相同的。

滿足置換等價(jià)性

公式:,同樣 f 是神經(jīng)網(wǎng)絡(luò),P 是置換函數(shù),G 是圖。

解釋:先置換圖再傳給神經(jīng)網(wǎng)絡(luò)和對(duì)神經(jīng)網(wǎng)絡(luò)的輸出圖表示進(jìn)行置換是等價(jià)的。

典型的神經(jīng)網(wǎng)絡(luò),如循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 或卷積神經(jīng)網(wǎng)絡(luò) (CNN) 并不是置換不變的。因此,圖神經(jīng)網(wǎng)絡(luò) (Graph Neural Network, GNN) 作為新的架構(gòu)被引入來(lái)解決這一問(wèn)題 (最初是作為狀態(tài)機(jī)使用) 。

一個(gè) GNN 由連續(xù)的層組成。一個(gè) GNN 層通過(guò) 消息傳遞 (message passing) 過(guò)程把一個(gè)節(jié)點(diǎn)表示成其鄰節(jié)點(diǎn)及其自身表示的組合 (聚合 (aggregation)) ,然后通常我們還會(huì)使用一個(gè)激活函數(shù)去增加一些非線性。

與其他模型相比:CNN 可以看作一個(gè)鄰域 (即滑動(dòng)窗口) 大小和順序固定的 GNN,也就是說(shuō) CNN 不是置換等價(jià)的。一個(gè)沒(méi)有位置嵌入 (positional embedding) 的 Transformer 模型可以被看作一個(gè)工作在全連接的輸入圖上的 GNN。

聚合與消息傳遞

多種方式可用于聚合鄰節(jié)點(diǎn)的消息,舉例來(lái)講,有求和,取平均等。一些值得關(guān)注的工作有:

圖卷積網(wǎng)絡(luò) 對(duì)目標(biāo)節(jié)點(diǎn)的所有鄰節(jié)點(diǎn)的歸一化表示取平均來(lái)做聚合 (大多數(shù) GNN 其實(shí)是 GCN) ;

圖注意力網(wǎng)絡(luò) 會(huì)學(xué)習(xí)如何根據(jù)鄰節(jié)點(diǎn)的重要性不同來(lái)加權(quán)聚合鄰節(jié)點(diǎn) (與 transformer 模型想法相似) ;

GraphSAGE 先在不同的跳數(shù)上進(jìn)行鄰節(jié)點(diǎn)采樣,然后基于采樣的子圖分多步用最大池化 (max pooling) 方法聚合信息;

圖同構(gòu)網(wǎng)絡(luò) 先計(jì)算對(duì)鄰節(jié)點(diǎn)的表示求和,然后再送入一個(gè) MLP 來(lái)計(jì)算最終的聚合信息。

選擇聚合方法:一些聚合技術(shù) (尤其是均值池化和最大池化) 在遇到在鄰節(jié)點(diǎn)上僅有些微差別的相似節(jié)點(diǎn)的情況下可能會(huì)失敗 (舉個(gè)例子:采用均值池化,一個(gè)節(jié)點(diǎn)有 4 個(gè)鄰節(jié)點(diǎn),分別表示為 1,1,-1,-1,取均值后變成 0;而另一個(gè)節(jié)點(diǎn)有 3 個(gè)鄰節(jié)點(diǎn),分別表示為 - 1,0,1,取均值后也是 0。兩者就無(wú)法區(qū)分了。) 。

GNN 的形狀和過(guò)平滑問(wèn)題

每加一個(gè)新層,節(jié)點(diǎn)表示中就會(huì)包含越來(lái)越多的節(jié)點(diǎn)信息。

一個(gè)節(jié)點(diǎn),在第一層,只會(huì)聚合它的直接鄰節(jié)點(diǎn)的信息。到第二層,它們?nèi)匀恢痪酆现苯余徆?jié)點(diǎn)信息,但這次,他們的直接鄰節(jié)點(diǎn)的表示已經(jīng)包含了它們各自的鄰節(jié)點(diǎn)信息 (從第一層獲得) 。經(jīng)過(guò) n 層后,所有節(jié)點(diǎn)的表示變成了它們距離為 n 的所有鄰節(jié)點(diǎn)的聚合。如果全圖的直徑小于 n 的話,就是聚合了全圖的信息!

如果你的網(wǎng)絡(luò)層數(shù)過(guò)多,就有每個(gè)節(jié)點(diǎn)都聚合了全圖所有節(jié)點(diǎn)信息的風(fēng)險(xiǎn) (并且所有節(jié)點(diǎn)的表示都收斂至相同的值) ,這被稱為過(guò)平滑問(wèn)題 (the oversmoothing problem)。

這可以通過(guò)如下方式來(lái)解決:

在設(shè)計(jì) GNN 的層數(shù)時(shí),要首先分析圖的直徑和形狀,層數(shù)不能過(guò)大,以確保每個(gè)節(jié)點(diǎn)不聚合全圖的信息

增加層的復(fù)雜性

增加非消息傳遞層來(lái)處理消息 (如簡(jiǎn)單的 MLP 層)

增加跳躍連接 (skip-connections)

過(guò)平滑問(wèn)題是圖機(jī)器學(xué)習(xí)的重要研究領(lǐng)域,因?yàn)樗柚沽?GNN 的變大,而在其他模態(tài)數(shù)據(jù)上 Transformers 之類的模型已經(jīng)證明了把模型變大是有很好的效果的。

圖 Transformers

沒(méi)有位置嵌入 (positional encoding) 層的 Transformer 模型是置換不變的,再加上 Transformer 模型已被證明擴(kuò)展性很好,因此最近大家開(kāi)始看如何改造 Transformer 使之適應(yīng)圖數(shù)據(jù) (綜述) 。多數(shù)方法聚焦于如何最佳表示圖,如找到最好的特征、最好的表示位置信息的方法以及如何改變注意力以適應(yīng)這一新的數(shù)據(jù)。

這里我們收集了一些有意思的工作,截至本文寫(xiě)作時(shí)為止,這些工作在現(xiàn)有的最難的測(cè)試基準(zhǔn)之一 斯坦福開(kāi)放圖測(cè)試基準(zhǔn) (Open Graph Benchmark, OGB) 上取得了最高水平或接近最高水平的結(jié)果:

Graph Transformer for Graph-to-Sequence Learning (Cai and Lam, 2020) 介紹了一個(gè)圖編碼器,它把節(jié)點(diǎn)表示為它本身的嵌入和位置嵌入的級(jí)聯(lián),節(jié)點(diǎn)間關(guān)系表示為它們間的最短路徑,然后用一個(gè)關(guān)系增強(qiáng)的自注意力機(jī)制把兩者結(jié)合起來(lái)。

Rethinking Graph Transformers with Spectral Attention (Kreuzer et al, 2021) 介紹了譜注意力網(wǎng)絡(luò) (Spectral Attention Networks, SANs) 。它把節(jié)點(diǎn)特征和學(xué)習(xí)到的位置編碼 (從拉普拉斯特征值和特征向量中計(jì)算得到) 結(jié)合起來(lái),把這些作為注意力的鍵 (keys) 和查詢 (queries) ,然后把邊特征作為注意力的值 (values) 。

GRPE: Relative Positional Encoding for Graph Transformer (Park et al, 2021) 介紹了圖相對(duì)位置編碼 Transformer。它先在圖層面的位置編碼中結(jié)合節(jié)點(diǎn)信息,在邊層面的位置編碼中也結(jié)合節(jié)點(diǎn)信息,然后在注意力機(jī)制中進(jìn)一步把兩者結(jié)合起來(lái)。

Global Self-Attention as a Replacement for Graph Convolution (Hussain et al, 2021) 介紹了邊增強(qiáng) Transformer。該架構(gòu)分別對(duì)節(jié)點(diǎn)和邊進(jìn)行嵌入,并通過(guò)一個(gè)修改過(guò)的注意力機(jī)制聚合它們。

Do Transformers Really Perform Badly for Graph Representation (Ying et al, 2021) 介紹了微軟的 Graphormer, 該模型在面世時(shí)贏得了 OGB 第一名。這個(gè)架構(gòu)使用節(jié)點(diǎn)特征作為注意力的查詢 / 鍵 / 值 (Q/K/V) ,然后在注意力機(jī)制中把這些表示與中心性,空間和邊編碼信息通過(guò)求和的方式結(jié)合起來(lái)。

最新的工作是 Pure Transformers are Powerful Graph Learners (Kim et al, 2022),它引入了 TokenGT。這一方法把輸入圖表示為一個(gè)節(jié)點(diǎn)和邊嵌入的序列 (并用正交節(jié)點(diǎn)標(biāo)識(shí) (orthonormal node identifiers) 和可訓(xùn)練的類型標(biāo)識(shí) (type identifiers) 增強(qiáng)它) ,而不使用位置嵌入,最后把這個(gè)序列輸入給 Tranformer 模型。超級(jí)簡(jiǎn)單,但很聰明!

稍有不同的是,Recipe for a General, Powerful, Scalable Graph Transformer (Rampá?ek et al, 2022) 引入的不是某個(gè)模型,而是一個(gè)框架,稱為 GraphGPS。它允許把消息傳遞網(wǎng)絡(luò)和線性 (長(zhǎng)程的) transformer 模型結(jié)合起來(lái)輕松地創(chuàng)建一個(gè)混合網(wǎng)絡(luò)。這個(gè)框架還包含了不少工具,用于計(jì)算位置編碼和結(jié)構(gòu)編碼 (節(jié)點(diǎn)、圖、邊層面的) 、特征增強(qiáng)、隨機(jī)游走等等。

在圖數(shù)據(jù)上使用 transformer 模型還是一個(gè)非常初生的領(lǐng)域,但是它看上去很有前途,因?yàn)樗梢詼p輕 GNN 的一些限制,如擴(kuò)展到更大 / 更稠密的圖,抑或是增加模型尺寸而不必?fù)?dān)心過(guò)平滑問(wèn)題。

不錯(cuò)的處理圖數(shù)據(jù)的庫(kù)有 PyGeometric (用于圖機(jī)器學(xué)習(xí)) 以及 NetworkX (用于更通用的圖操作)。

如果你需要質(zhì)量好的測(cè)試基準(zhǔn),你可以試試看:

OGB, 開(kāi)放圖測(cè)試基準(zhǔn) (the Open Graph Benchmark) :一個(gè)可用于不同的任務(wù)和數(shù)據(jù)規(guī)模的參考圖測(cè)試基準(zhǔn)數(shù)據(jù)集。

Benchmarking GNNs: 用于測(cè)試圖機(jī)器學(xué)習(xí)網(wǎng)絡(luò)和他們的表現(xiàn)力的庫(kù)以及數(shù)據(jù)集。相關(guān)論文特地從統(tǒng)計(jì)角度研究了哪些數(shù)據(jù)集是相關(guān)的,它們可被用于評(píng)估圖的哪些特性,以及哪些圖不應(yīng)該再被用作測(cè)試基準(zhǔn)。

長(zhǎng)程圖測(cè)試基準(zhǔn) (Long Range Graph Benchmark): 最新的 (2022 年 10 月份) 測(cè)試基準(zhǔn),主要關(guān)注長(zhǎng)程的圖信息。

Taxonomy of Benchmarks in Graph Representation Learning: 發(fā)表于 2022 年 Learning on Graphs 會(huì)議,分析并對(duì)現(xiàn)有的測(cè)試基準(zhǔn)數(shù)據(jù)集進(jìn)行了排序。

如果想要更多的數(shù)據(jù)集,可以看看:

Paper with code 圖任務(wù)排行榜:公開(kāi)數(shù)據(jù)集和測(cè)試基準(zhǔn)的排行榜,請(qǐng)注意,不是所有本排行榜上的測(cè)試基準(zhǔn)都仍然適宜。

TU 數(shù)據(jù)集: 公開(kāi)可用的數(shù)據(jù)集的合輯,現(xiàn)在以類別和特征排序。大多數(shù)數(shù)據(jù)集可以用 PyG 加載,而且其中一些已經(jīng)被集成進(jìn) PyG 的 Datsets。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4730

    瀏覽量

    100355
  • XML
    XML
    +關(guān)注

    關(guān)注

    0

    文章

    186

    瀏覽量

    33016
  • UML
    UML
    +關(guān)注

    關(guān)注

    0

    文章

    122

    瀏覽量

    30837
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8331

    瀏覽量

    132225
  • GNN
    GNN
    +關(guān)注

    關(guān)注

    1

    文章

    31

    瀏覽量

    6322

原文標(biāo)題:一文帶你入門圖機(jī)器學(xué)習(xí)

文章出處:【微信號(hào):OSC開(kāi)源社區(qū),微信公眾號(hào):OSC開(kāi)源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    電感基礎(chǔ)知識(shí) 圖文介紹

    `電感基礎(chǔ)知識(shí) 圖文介紹`
    發(fā)表于 08-16 19:34

    IGBT的介紹和應(yīng)用基礎(chǔ)知識(shí)

    IGBT的介紹和應(yīng)用,基礎(chǔ)知識(shí)
    發(fā)表于 06-24 22:42

    【下載】《機(jī)器學(xué)習(xí)》+《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》

    讀者, 本書(shū)附錄給出了一些相關(guān)數(shù)學(xué)基礎(chǔ)知識(shí)簡(jiǎn)介.目錄:全書(shū)共16 章,大致分為3 個(gè)部分:第1 部分(第1~3 章)介紹機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí);
    發(fā)表于 06-01 15:49

    電阻的基礎(chǔ)知識(shí)介紹

    電阻基礎(chǔ)知識(shí)介紹
    發(fā)表于 02-26 06:17

    介紹關(guān)于編程的基礎(chǔ)知識(shí)

    關(guān)注、星標(biāo)公眾號(hào),不錯(cuò)過(guò)精彩內(nèi)容作者:strongerHuang對(duì)于軟件工程師來(lái)說(shuō),代碼升級(jí)(或程序更新)算是必備基礎(chǔ)知識(shí)。下面將介紹關(guān)于編程的基礎(chǔ)知識(shí),以及結(jié)合STM32官方提供的De...
    發(fā)表于 07-27 08:13

    MatLab基礎(chǔ)知識(shí)介紹

    MatLab學(xué)習(xí)筆記(一)綱要:界面介紹幫助系統(tǒng)基礎(chǔ)知識(shí)基本數(shù)據(jù)類型一.界面介紹 (基于 MATLAB R2018a)  MATLAB的工作界面形式簡(jiǎn)潔,主要由標(biāo)題欄、功能區(qū)、工具欄、
    發(fā)表于 08-17 07:08

    介紹PLC的原理及基礎(chǔ)知識(shí)

    在自動(dòng)化控制領(lǐng)域,PLC應(yīng)用十分廣泛,這里開(kāi)始介紹PLC的原理及基礎(chǔ)知識(shí)。
    發(fā)表于 09-09 09:07

    介紹各種單片機(jī)基礎(chǔ)知識(shí)概念

    從本文開(kāi)始進(jìn)入單片機(jī)入門篇的學(xué)習(xí)。入門篇主要介紹各種單片機(jī)基礎(chǔ)知識(shí)概念。入門篇閱讀建議:根據(jù)個(gè)人已經(jīng)掌握的知識(shí),有重點(diǎn)的去讀。如果介紹到你已
    發(fā)表于 01-19 07:40

    GSM基礎(chǔ)知識(shí)介紹

    GSM基礎(chǔ)知識(shí)介紹
    發(fā)表于 07-29 17:18 ?75次下載
    GSM<b class='flag-5'>基礎(chǔ)知識(shí)</b>的<b class='flag-5'>介紹</b>

    PLC基礎(chǔ)知識(shí)學(xué)習(xí),不看后悔

    PLC基礎(chǔ)知識(shí)學(xué)習(xí),不看后悔
    發(fā)表于 09-09 08:43 ?103次下載
    PLC<b class='flag-5'>基礎(chǔ)知識(shí)</b><b class='flag-5'>學(xué)習(xí)</b>,不看后悔

    機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí)詳細(xì)說(shuō)明

    本文檔的主要內(nèi)容詳細(xì)介紹的是機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí)詳細(xì)說(shuō)明。
    發(fā)表于 03-24 08:00 ?0次下載
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的<b class='flag-5'>基礎(chǔ)知識(shí)</b>詳細(xì)說(shuō)明

    直流穩(wěn)壓電路的基礎(chǔ)知識(shí)學(xué)習(xí)課件免費(fèi)下載

    本文檔的主要內(nèi)容詳細(xì)介紹的是直流穩(wěn)壓電路的基礎(chǔ)知識(shí)學(xué)習(xí)課件免費(fèi)下載
    發(fā)表于 02-02 11:59 ?22次下載
    直流穩(wěn)壓電路的<b class='flag-5'>基礎(chǔ)知識(shí)</b><b class='flag-5'>學(xué)習(xí)</b>課件免費(fèi)下載

    了解一下機(jī)器學(xué)習(xí)中的基礎(chǔ)知識(shí)

    機(jī)器學(xué)習(xí)中的基礎(chǔ)知識(shí) demi 在 周四, 03/07/2019 - 09:16 提交 機(jī)器學(xué)習(xí)中涉及到了很多的概念,當(dāng)然要想了解
    的頭像 發(fā)表于 03-31 17:08 ?3769次閱讀

    機(jī)器視覺(jué)基礎(chǔ)知識(shí)詳解模板

    機(jī)器視覺(jué)基礎(chǔ)知識(shí)詳解模板下載。
    發(fā)表于 05-28 14:48 ?13次下載

    FPGA基礎(chǔ)知識(shí)介紹

    電子發(fā)燒友網(wǎng)站提供《FPGA基礎(chǔ)知識(shí)介紹.pdf》資料免費(fèi)下載
    發(fā)表于 02-23 09:45 ?27次下載