0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用RAPIDS在NVIDIA GPU上分析腦細(xì)胞基準(zhǔn)

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:Corey Nolet ? 2022-04-18 16:34 ? 次閱讀

單細(xì)胞基因組學(xué)研究繼續(xù)推進(jìn)疾病預(yù)防藥物的發(fā)現(xiàn)。例如,它在為當(dāng)前的新冠肺炎大流行開(kāi)發(fā)治療、識(shí)別易受感染的細(xì)胞以及揭示受感染患者免疫系統(tǒng)的變化方面起著關(guān)鍵作用。然而,隨著大規(guī)模單細(xì)胞數(shù)據(jù)集可用性的不斷提高,計(jì)算效率的低下明顯影響了科學(xué)研究的速度。將這些計(jì)算瓶頸轉(zhuǎn)移到 GPU 已經(jīng)證明了有趣的結(jié)果。

在最近的一篇博客文章中, NVIDIA 對(duì) 100 萬(wàn)個(gè)小鼠腦細(xì)胞進(jìn)行了基準(zhǔn)分析,這些腦細(xì)胞通過(guò) 10 倍基因組學(xué)測(cè)序。結(jié)果表明,在 GCP CPU 實(shí)例上運(yùn)行端到端工作流需要三個(gè)多小時(shí),而在單個(gè) NVIDIA V100 GPU 上處理整個(gè)數(shù)據(jù)集只需 11 分鐘。此外,在 GCP GPU 實(shí)例上運(yùn)行 RAPIDS 分析的成本也比 CPU 版本低 3 倍。此處閱讀博客。

按照J(rèn)upyter 筆記本對(duì)該數(shù)據(jù)集進(jìn)行 RAPIDS 分析。要運(yùn)行筆記本,文件rapids_scanpy_funcs.py和utils.py必須與筆記本位于同一文件夾中。我們提供了第二個(gè)筆記本,其中包含 CPU 版本的分析here。在與 Google Dataproc 團(tuán)隊(duì)的合作下,我們構(gòu)建了一個(gè)入門指南,以幫助開(kāi)發(fā)人員快速運(yùn)行這個(gè)轉(zhuǎn)錄組學(xué)用例。最后,看看這個(gè) NVIDIA 和谷歌云共同撰寫博客文章,它展示了工作的影響。

對(duì) GPU 進(jìn)行單細(xì)胞 RNA 分析

執(zhí)行單細(xì)胞分析的典型工作流程通常從一個(gè)矩陣開(kāi)始,該矩陣映射每個(gè)細(xì)胞中測(cè)量的每個(gè)基因腳本的計(jì)數(shù)。執(zhí)行預(yù)處理步驟以濾除噪聲,并對(duì)數(shù)據(jù)進(jìn)行歸一化以獲得在數(shù)據(jù)集的每個(gè)單獨(dú)單元中測(cè)量的每個(gè)基因的表達(dá)。在這一步中,機(jī)器學(xué)習(xí)也常用于糾正數(shù)據(jù)收集中不需要的偽影?;虻臄?shù)量通常相當(dāng)大,這會(huì)產(chǎn)生許多不同的變異,并在計(jì)算細(xì)胞之間的相似性時(shí)增加很多噪音。在識(shí)別和可視化具有相似基因表達(dá)的細(xì)胞簇之前,特征選擇和降維可以減少這種噪聲。這些細(xì)胞簇的轉(zhuǎn)錄表達(dá)也可以進(jìn)行比較,以了解為什么不同類型的細(xì)胞行為和反應(yīng)不同。

pYYBAGJdIo2AKRF-AACorE0hJv8584.png

圖 1 :顯示單細(xì)胞 RNA 測(cè)序數(shù)據(jù)分析步驟的管道。從每個(gè)細(xì)胞中的基因活性矩陣開(kāi)始, RAPIDS 文庫(kù)可用于將矩陣轉(zhuǎn)換為基因表達(dá),對(duì)細(xì)胞進(jìn)行聚類和布局以供可視化,并幫助分析具有不同活性的基因。

該分析證明了使用RAPIDS加速使用單個(gè) GPU 分析 100 萬(wàn)個(gè)細(xì)胞的單細(xì)胞 RNA 序列數(shù)據(jù)。然而,實(shí)驗(yàn)只處理了前 100 萬(wàn)個(gè)細(xì)胞,而不是整個(gè) 130 萬(wàn)個(gè)細(xì)胞。因此,在單細(xì)胞 RNA 數(shù)據(jù)的工作流中處理所有 130 萬(wàn)個(gè)細(xì)胞的時(shí)間幾乎是單個(gè) V100 GPU 的兩倍。另一方面,相同的工作流在單個(gè) NVIDIA A100 40GB GPU 上只需 11 分鐘。不幸的是, V100 的性能下降了近 2 倍,主要原因是 GPU 的內(nèi)存被超額訂閱,從而在需要時(shí)溢出到主機(jī)內(nèi)存。在下一節(jié)中,我們將更詳細(xì)地介紹這種行為,但需要明確的是, GPU 的內(nèi)存是擴(kuò)展的限制因素。因此,更快地處理更大的工作負(fù)載需要更強(qiáng)大的 GPU 服務(wù)器,如 A100 或/或?qū)⑻幚矸稚⒌蕉鄠€(gè) GPU 服務(wù)器上。

將預(yù)處理擴(kuò)展到多個(gè) GPU 的好處

當(dāng)工作流的內(nèi)存使用量超過(guò)單個(gè) GPU 的容量時(shí),統(tǒng)一虛擬內(nèi)存( UVM )可用于超額訂閱 GPU ,并自動(dòng)溢出到主內(nèi)存。這種方法在探索性數(shù)據(jù)分析過(guò)程中是有利的,因?yàn)檫m度的超額訂閱率可以消除在 GPU 內(nèi)存不足時(shí)重新運(yùn)行工作流的需要。

但是,嚴(yán)格依靠 UVM 將 GPU 的內(nèi)存超額訂閱 2 倍或更多可能會(huì)導(dǎo)致性能不佳。更糟糕的是,當(dāng)任何單個(gè)計(jì)算需要的內(nèi)存超過(guò) NVIDIA 上的可用內(nèi)存時(shí),它可能會(huì)導(dǎo)致執(zhí)行無(wú)限期掛起。將計(jì)算擴(kuò)展到多個(gè) GPU 可以提高并行性并減少每個(gè) GPU 上的內(nèi)存占用。在某些情況下,它可以消除超額認(rèn)購(gòu)的需要。圖 2 表明,我們可以通過(guò)將預(yù)處理計(jì)算擴(kuò)展到多個(gè) GPU 來(lái)實(shí)現(xiàn)線性縮放,與單個(gè) GPU V100 GPU 相比, 8 個(gè) GPU s 會(huì)產(chǎn)生略微超過(guò) 8 倍的加速比??紤]到這一點(diǎn),需要不到 2 分鐘才能將 130 萬(wàn)個(gè)細(xì)胞和 18k 基因的數(shù)據(jù)集減少到約 129 萬(wàn)個(gè)細(xì)胞和 8 GPU上 4k 個(gè)高度可變的基因。這超過(guò)了 8 。 55 倍的加速,因?yàn)閱蝹€(gè) V100 需要 16 分鐘來(lái)運(yùn)行相同的預(yù)處理步驟。

poYBAGJdIo-AERPgAAAswdnhv9s667.png

圖 2 :具有不同硬件配置的 130 萬(wàn)小鼠腦細(xì)胞上典型單細(xì)胞 RNA 工作流的運(yùn)行時(shí)間(秒)比較。在 GPU 上執(zhí)行這些計(jì)算表明性能大幅提高。

pYYBAGJdIo-Ab7tOAACgAw0wGOo335.png

圖 3 :?jiǎn)蝹€(gè) GPU 配置的運(yùn)行時(shí)主要由預(yù)處理步驟控制,在單個(gè) V100 上占據(jù) 75% 的端到端運(yùn)行時(shí),在單個(gè) A100 上占據(jù) 70% 的運(yùn)行時(shí)。利用 DGX1 上的所有 GPU 將比率降低到略高于 32%.

使用 Dask 和 RAPIDS 將單細(xì)胞 RNA 筆記本擴(kuò)展到多個(gè) GPU

許多預(yù)處理步驟,如加載數(shù)據(jù)集、過(guò)濾嘈雜的轉(zhuǎn)錄本和細(xì)胞、將計(jì)數(shù)標(biāo)準(zhǔn)化為表達(dá)式以及特征選擇,本質(zhì)上是并行的,每個(gè) GPU 獨(dú)立負(fù)責(zé)其子集。糾正數(shù)據(jù)收集噪音影響的一個(gè)常見(jiàn)步驟是使用不需要的基因(如核糖體基因)的貢獻(xiàn)比例,并擬合許多小型線性回歸模型,數(shù)據(jù)集中每個(gè)轉(zhuǎn)錄本對(duì)應(yīng)一個(gè)模型。由于轉(zhuǎn)錄本的數(shù)量通??梢赃_(dá)到數(shù)萬(wàn)個(gè),因此通常使用分散性或可變性的度量方法,只選擇幾千個(gè)最具代表性的基因。

Dask是一個(gè)優(yōu)秀的庫(kù),用于在一組工作進(jìn)程上分發(fā)數(shù)據(jù)處理工作流。 RAPIDS 通過(guò)將每個(gè)工作進(jìn)程映射到自己的 GPU ,使 Dask 也能夠使用 GPU s 。此外, Dask 提供了一個(gè)分布式陣列對(duì)象,非常類似于 NumPy 陣列的分布式版本(或CuPy,其 GPU 加速外觀相似),它允許用戶在多個(gè) GPU 上,甚至跨多臺(tái)物理機(jī)器,分發(fā)上述預(yù)處理操作的步驟,操作和轉(zhuǎn)換數(shù)據(jù)的方式與 NumPy 或 CuPy 數(shù)組大致相同。

在預(yù)處理之后,我們還通過(guò)對(duì)數(shù)據(jù)子集進(jìn)行訓(xùn)練并分配推理來(lái)分配主成分分析( PCA )縮減步驟,通過(guò)僅將前 50 個(gè)主成分恢復(fù)到單個(gè) GPU 來(lái)降低通信成本,用于剩余的聚類和可視化步驟。該數(shù)據(jù)集的 PCA 簡(jiǎn)化單元矩陣僅為 260 MB ,允許在單個(gè) GPU 上執(zhí)行剩余的聚類和可視化步驟。使用這種設(shè)計(jì),即使包含 500 萬(wàn)個(gè)單元的數(shù)據(jù)集也只需要 1GB 內(nèi)存。

poYBAGJdIpCAdFAgAAGLFqhWmy8515.png

圖 4 : 1 。 3M 小鼠腦細(xì)胞的樣本可視化,使用 cuML 的 UMAP 縮小為二維,并使用 cuGraph 的 Louvain 聚集

結(jié)論

以我們計(jì)算工具的發(fā)展速度,我們可以假設(shè)數(shù)據(jù)處理量很快就會(huì)迎頭趕上,特別是對(duì)于單細(xì)胞分析工作負(fù)載,這迫使我們需要更高的擴(kuò)展。同時(shí),通過(guò)將聚類和可視化步驟分布在多個(gè) RAPIDS 上,仍有機(jī)會(huì)進(jìn)一步減少探索性數(shù)據(jù)分析過(guò)程的迭代次數(shù)。更快的迭代意味著更好的模型,縮短洞察時(shí)間,以及更明智的結(jié)果。除 T-SNE 外,多 GPU 工作流筆記本的所有集群和可視化步驟都可以通過(guò) GPU cuML 和 cuGraph 分布在 GPU 上的 Dask 工作人員上。

關(guān)于作者

Corey Nolet 是 NVIDIA 的 RAPIDS ML 團(tuán)隊(duì)的數(shù)據(jù)科學(xué)家兼高級(jí)工程師,他專注于構(gòu)建和擴(kuò)展機(jī)器學(xué)習(xí)算法,以支持光速下的極端數(shù)據(jù)負(fù)載。在 NVIDIA 工作之前, Corey 花了十多年時(shí)間為國(guó)防工業(yè)的 HPC 環(huán)境構(gòu)建大規(guī)模探索性數(shù)據(jù)科學(xué)和實(shí)時(shí)分析平臺(tái)。科里持有英國(guó)理工學(xué)士學(xué)位計(jì)算機(jī)科學(xué)碩士學(xué)位。他還在攻讀博士學(xué)位。在同一學(xué)科中,主要研究圖形和機(jī)器學(xué)習(xí)交叉點(diǎn)的算法加速??评餆嶂杂诶脭?shù)據(jù)更好地了解世界。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4816

    瀏覽量

    102636
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    27

    文章

    4632

    瀏覽量

    128448
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8323

    瀏覽量

    132166
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    NVIDIA文本嵌入模型NV-Embed的精度基準(zhǔn)

    NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分?jǐn)?shù)創(chuàng)下了嵌入準(zhǔn)確率的新紀(jì)錄海量文本嵌入基準(zhǔn)測(cè)試(MTEB)涵蓋 56 項(xiàng)嵌入任務(wù)。
    的頭像 發(fā)表于 08-23 16:54 ?1874次閱讀
    <b class='flag-5'>NVIDIA</b>文本嵌入模型NV-Embed的精度<b class='flag-5'>基準(zhǔn)</b>

    暴漲預(yù)警!NVIDIA GPU供應(yīng)大跳水

    gpu
    jf_02331860
    發(fā)布于 :2024年07月26日 09:41:42

    NVIDIA全面轉(zhuǎn)向開(kāi)源GPU內(nèi)核模塊

    借助 R515 驅(qū)動(dòng)程序,NVIDIA 于 2022 年 5 月發(fā)布了一套開(kāi)源的 Linux GPU 內(nèi)核模塊,該模塊采用雙許可證,即 GPL 和 MIT 許可。初始版本主要面向數(shù)據(jù)中心計(jì)算 GPU,而 GeForce 和工作站
    的頭像 發(fā)表于 07-25 09:56 ?304次閱讀
    <b class='flag-5'>NVIDIA</b>全面轉(zhuǎn)向開(kāi)源<b class='flag-5'>GPU</b>內(nèi)核模塊

    英國(guó)公司實(shí)現(xiàn)英偉達(dá)CUDA軟件AMD GPU的無(wú)縫運(yùn)行

    7月18日最新資訊,英國(guó)創(chuàng)新科技企業(yè)Spectral Compute震撼發(fā)布了其革命性GPGPU編程工具包——“SCALE”,該工具包實(shí)現(xiàn)了英偉達(dá)CUDA軟件AMD GPU的無(wú)縫遷移與運(yùn)行,標(biāo)志著
    的頭像 發(fā)表于 07-18 14:40 ?535次閱讀

    三星電子進(jìn)軍GPU領(lǐng)域,與NVIDIA展開(kāi)正面競(jìng)爭(zhēng)

    科技行業(yè)的風(fēng)起云涌中,三星電子再次展現(xiàn)了其敏銳的市場(chǎng)洞察力和前瞻性的戰(zhàn)略眼光。近日,據(jù)韓國(guó)媒體消息,三星電子在其管理委員會(huì)會(huì)議做出了一個(gè)令人矚目的決定——進(jìn)軍圖形處理單元(GPU)領(lǐng)域,這一舉措無(wú)疑將對(duì)現(xiàn)有的
    的頭像 發(fā)表于 06-19 15:29 ?538次閱讀

    NVIDIA推出兩款基于NVIDIA Ampere架構(gòu)的全新臺(tái)式機(jī)GPU

    兩款 NVIDIA Ampere 架構(gòu) GPU 為工作站帶來(lái)實(shí)時(shí)光線追蹤功能和生成式 AI 工具支持。
    的頭像 發(fā)表于 04-26 11:25 ?519次閱讀

    利用NVIDIA組件提升GPU推理的吞吐

    本實(shí)踐中,唯品會(huì) AI 平臺(tái)與 NVIDIA 團(tuán)隊(duì)合作,結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網(wǎng)絡(luò)和熱 Embedding 全置于
    的頭像 發(fā)表于 04-20 09:39 ?571次閱讀

    搭載英偉達(dá)GPU,全球領(lǐng)先的向量數(shù)據(jù)庫(kù)公司Zilliz發(fā)布Milvus2.4向量數(shù)據(jù)庫(kù)

    美國(guó)硅谷圣何塞召開(kāi)的 NVIDIA GTC 大會(huì)上,全球領(lǐng)先的向量數(shù)據(jù)庫(kù)公司 Zilliz 發(fā)布了 Milvus 2.4 版本。這是一款革命性的向量數(shù)據(jù)庫(kù)系統(tǒng),在業(yè)界首屈一指,它首次采用了英偉達(dá)
    的頭像 發(fā)表于 04-01 14:33 ?407次閱讀
    搭載英偉達(dá)<b class='flag-5'>GPU</b>,全球領(lǐng)先的向量數(shù)據(jù)庫(kù)公司Zilliz發(fā)布Milvus2.4向量數(shù)據(jù)庫(kù)

    FPGA深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU

    上漲,因?yàn)槭聦?shí)表明,它們的 GPU 訓(xùn)練和運(yùn)行 深度學(xué)習(xí)模型 方面效果明顯。實(shí)際,英偉達(dá)也已經(jīng)對(duì)自己的業(yè)務(wù)進(jìn)行了轉(zhuǎn)型,之前它是一家純粹做 GPU 和游戲的公司,現(xiàn)在除了作為一家云
    發(fā)表于 03-21 15:19

    AMD GPU如何安裝和配置triton?

    最近在整理python-based的benchmark代碼,反過(guò)來(lái)NV的GPU又把Triton裝了一遍,發(fā)現(xiàn)Triton的github repo已經(jīng)給出了對(duì)應(yīng)的llvm的commit id以及對(duì)應(yīng)的編譯細(xì)節(jié),然后跟著走了一遍
    的頭像 發(fā)表于 02-22 17:04 ?2135次閱讀
    <b class='flag-5'>在</b>AMD <b class='flag-5'>GPU</b><b class='flag-5'>上</b>如何安裝和配置triton?

    NVIDIA的Maxwell GPU架構(gòu)功耗不可思議

    整整10年前的2013年2月19日,NVIDIA正式推出了新一代Maxwell GPU架構(gòu),它有著極高的能效,出場(chǎng)方式也非常特別。
    的頭像 發(fā)表于 02-19 16:39 ?878次閱讀
    <b class='flag-5'>NVIDIA</b>的Maxwell <b class='flag-5'>GPU</b>架構(gòu)功耗不可思議

    如何選擇NVIDIA GPU和虛擬化軟件的組合方案呢?

    NVIDIA vGPU 解決方案能夠?qū)?NVIDIA GPU 的強(qiáng)大功能帶入虛擬桌面、應(yīng)用程序和工作站,加速圖形和計(jì)算,使在家辦公或在任何地方工作的創(chuàng)意和技術(shù)專業(yè)人員能夠訪問(wèn)虛擬化工作空間。
    的頭像 發(fā)表于 01-12 09:26 ?906次閱讀
    如何選擇<b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>和虛擬化軟件的組合方案呢?

    東南大學(xué)釀酒酵母單細(xì)胞復(fù)制衰老壽命圖像分析算法方面取得進(jìn)展

    據(jù)麥姆斯咨詢報(bào)道,近日,東南大學(xué)集成電路學(xué)院、電子科學(xué)與工程學(xué)院朱真教授課題組釀酒酵母單細(xì)胞復(fù)制衰老壽命圖像分析算法方面取得了重要進(jìn)展。該研究結(jié)合計(jì)算機(jī)視覺(jué)和神經(jīng)網(wǎng)絡(luò)算法,應(yīng)用在高通量微流控芯片
    的頭像 發(fā)表于 12-13 16:52 ?733次閱讀
    東南大學(xué)<b class='flag-5'>在</b>釀酒酵母單<b class='flag-5'>細(xì)胞</b>復(fù)制衰老壽命圖像<b class='flag-5'>分析</b>算法方面取得進(jìn)展

    NVIDIA GPU的核心架構(gòu)及架構(gòu)演進(jìn)

    探討 NVIDIA GPU 架構(gòu)之前,我們先來(lái)了解一些相關(guān)的基本知識(shí)。GPU 的概念,是由 NVIDIA 公司
    發(fā)表于 11-21 09:40 ?1296次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>的核心架構(gòu)及架構(gòu)演進(jìn)

    177倍加速!NVIDIA最新開(kāi)源 | GPU加速各種SDF建圖!

    但最近,NVIDIA和ETHZ就聯(lián)合提出了nvblox,是一個(gè)使用GPU加速SDF建圖的庫(kù)。計(jì)算速度非???,相較CPU計(jì)算TSDF甚至快了177倍。更重要的是,因?yàn)樗袛?shù)據(jù)都已經(jīng)存儲(chǔ)GPU
    的頭像 發(fā)表于 11-09 16:46 ?1026次閱讀
    177倍加速!<b class='flag-5'>NVIDIA</b>最新開(kāi)源 | <b class='flag-5'>GPU</b>加速各種SDF建圖!