在第二屆中國計算機學會芯片大會上,中科馭數(shù)與中國科學院計算技術(shù)研究所處理器芯片全國重點實驗室共同完成的一項成果《GRACE: An End-to-End Graph Processing Accelerator on FPGA with Graph Reordering Engine》獲得“CCF芯片大會最佳論文獎”。該項工作由鄢貴海研究員指導(dǎo)完成,論文第一作者是博士研究生樊海爽,論文的其他作者為蒙睿、孫啟楚、吳婧雅、盧文巖、李曉維。
GRACE提出一種利用FPGA加速器圖預(yù)處理及圖計算全流程的全卸載方法,解決了其他方法中的預(yù)處理瓶頸問題,提高了圖計算的端到端處理速度。
圖數(shù)據(jù)在芯片設(shè)計、社交網(wǎng)絡(luò)分析等應(yīng)用中發(fā)揮著重要作用。隨著現(xiàn)實生活中圖頂點數(shù)量的迅速增加以及圖數(shù)據(jù)不規(guī)則的內(nèi)存訪問模式,現(xiàn)有的基于CPU和GPU的大規(guī)模圖處理框架在優(yōu)化緩存使用方面遇到了挑戰(zhàn)。為了解決這一問題,通常利用圖重排序的方法改善圖的局部性,但這會帶來顯著的開銷導(dǎo)致未能實現(xiàn)顯著的端到端性能提升。盡管已有許多基于FPGA的圖處理加速器,但要實現(xiàn)高吞吐量通常需要在CPU上進行復(fù)雜的圖預(yù)處理。因此,構(gòu)建一個高效的端到端圖處理系統(tǒng)仍然具有挑戰(zhàn)性。
基于此,本文提出了一種基于FPGA的端到端圖處理加速器GRACE,它的核心結(jié)構(gòu)包括圖重排序引擎和基于Pull模式的頂點中心編程模型(Pull-based Vertex-Centric Programming Model, PL-VCPM)引擎。
本文采用的主要優(yōu)化方法包括:首先,GRACE采用定制的高度頂點緩存(High-Degree Vertex Cache, HDC)來提高內(nèi)存訪問效率;其次,GRACE定制了高效的圖重排序引擎以完成圖預(yù)處理;第三,GRACE采用了圖剪枝策略,以消除圖處理中的激活和計算冗余;最后,GRACE引入了圖沖突板(Graph Conflict Board, GCB)以解決數(shù)據(jù)沖突,并通過多端口緩存提高并行效率。
實驗結(jié)果表明,本文所提出的GRACE的端到端處理性能在多個圖算法和數(shù)據(jù)集上平均為通用CPU的10倍、GPU的2.3倍,超過現(xiàn)有基于FPGA加速器方法的34倍,展現(xiàn)出卓越的端到端處理效果。
實驗平臺利用中科馭數(shù)自研的數(shù)據(jù)網(wǎng)絡(luò)應(yīng)用開發(fā)平臺“開物K-Machine”,模擬了端到端的圖像處理環(huán)境。開物平臺擁有功能完善的基礎(chǔ)組件、簡單高效編程、靈活可擴展、豐富的外圍接口,旨在簡化數(shù)據(jù)網(wǎng)絡(luò)領(lǐng)域的開發(fā)流程,可以幫助開發(fā)研究人員實現(xiàn)開箱即用,一鍵部署,打通DPU算力的最后一公里,確保用戶的每一行代碼都能直接轉(zhuǎn)化為核心創(chuàng)新。
-
加速器
+關(guān)注
關(guān)注
2文章
788瀏覽量
37556 -
計算機
+關(guān)注
關(guān)注
19文章
7287瀏覽量
87516 -
中科馭數(shù)
+關(guān)注
關(guān)注
0文章
113瀏覽量
3953
原文標題:CCF Chip 2024,最佳論文獎!
文章出處:【微信號:yusurtech,微信公眾號:馭數(shù)科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論