我們將通過《NVIDIA 加速計(jì)算,百萬倍加速行業(yè)應(yīng)用》系列文章,為您詳解 NVIDIA 如何通過數(shù)據(jù)中心規(guī)模的全棧加速計(jì)算,助力多個(gè)行業(yè)實(shí)現(xiàn)百萬倍計(jì)算性能飛躍,高效解決人類挑戰(zhàn)。
自從生命的“密碼”—基因組被科學(xué)家破解以來,人類追求速度更快、成本更低的基因測序技術(shù)的腳步一直都在繼續(xù)。
在 1 月 13 日剛剛結(jié)束的摩根大通醫(yī)療健康大會(huì)上,NVIDIA 發(fā)布了與初創(chuàng)公司 InstaDeep、慕尼黑工業(yè)大學(xué)(TUM)在基因組學(xué)大型語言模型方面的聯(lián)合研究成果。研究團(tuán)隊(duì)使用NVIDIA 超級(jí)計(jì)算機(jī) Cambridge-1,在各種基因組數(shù)據(jù)集上,訓(xùn)練了參數(shù)規(guī)模從 500M 到 2.5B 不等的各種大型語言模型(LLM),經(jīng)過基因組學(xué)訓(xùn)練的大型語言模型可將應(yīng)用擴(kuò)展到大量基因組學(xué)任務(wù), 這些任務(wù)有助于了解 DNA 如何轉(zhuǎn)錄生成 RNA 和蛋白質(zhì),從而開啟新的臨床應(yīng)用。
基因測序 夢想照進(jìn)現(xiàn)實(shí)
作為人類醫(yī)療技術(shù)發(fā)展的重要一步,基因測序可通過提取人體血液或唾液,對人類的 DNA、RNA、蛋白質(zhì)及代謝物進(jìn)行分析,從而鎖定個(gè)人病變基因,以診斷、預(yù)測或預(yù)防遺傳性疾病的發(fā)生?;蛱N(yùn)含了人類諸多病癥的秘密,使人類有機(jī)會(huì)盡早預(yù)防疾病,并多元化治療疾病。
2001 年,被譽(yù)為生命科學(xué)“登月計(jì)劃”的“人類基因組計(jì)劃”(HGP)歷時(shí) 13 年,耗資近 30 億美元,發(fā)布了首張人類基因組草圖。此后二十年中,以數(shù)字生物學(xué)為基礎(chǔ)的基因組測序技術(shù)取得巨大進(jìn)步,將全基因組測序的成本逐步降低至不到 1000 美元。一時(shí)間,全球?qū)驕y序與分析的需求量出現(xiàn)暴漲。
加速計(jì)算突破基因分析算力瓶頸
隨著基因組測序和分析需求的激增,由此產(chǎn)生的數(shù)據(jù)也迎來爆發(fā)式增長。過去十年間,基因測序的數(shù)據(jù)量平均每七個(gè)月就會(huì)翻一倍,2025 年全球測序能力預(yù)計(jì)將達(dá)到 Zb 級(jí)別,其中,僅人類全基因組存儲(chǔ)的數(shù)據(jù)量就將達(dá)到每年 2-40 Eb。
要實(shí)現(xiàn)精準(zhǔn)醫(yī)療,就需要對大量基因數(shù)據(jù)做出精確的計(jì)算和分析,這意味著巨大的計(jì)算成本和時(shí)間。因此,必須有創(chuàng)新的技術(shù),打破全基因組測序數(shù)據(jù)醫(yī)療應(yīng)用的主要瓶頸,推動(dòng)行業(yè)進(jìn)一步向前發(fā)展。
基因組測序與分析屬于標(biāo)準(zhǔn)的計(jì)算密集型任務(wù),而 GPU 擅長并行計(jì)算,可以將復(fù)雜計(jì)算問題分解為很多小任務(wù),在多個(gè) CUDA 內(nèi)核上同時(shí)運(yùn)行,從而大幅減少處理計(jì)算任務(wù)的時(shí)間,讓基因組測序分析的速度獲得大幅提升。NVIDIA 以 GPU 為核心構(gòu)建出“全棧加速計(jì)算平臺(tái)”,與人工智能相結(jié)合,在全球包括基因測序在內(nèi)的多個(gè)領(lǐng)域掀起一場加速革命。
除了具有全球領(lǐng)先的硬件加速計(jì)算平臺(tái),NVIDIA 還推出了基于 GPU 的基因測序分析加速軟件—NVIDIA Clara Parabricks。Clara Parabricks 是一款 GPU 加速的計(jì)算基因組學(xué)工具包,可提供多種生物信息學(xué)工具和功能,如序列比對、預(yù)處理和質(zhì)量指標(biāo)、變異檢測、UMI 以及用于胚系、體細(xì)胞和 RNA 分析的端到端工作流程。與僅使用 CPU 的解決方案相比,Parabricks 速度提升高達(dá) 80 倍,計(jì)算成本降低高達(dá) 50%。借助 Clara Parabricks 和 GPU,將深度學(xué)習(xí)的強(qiáng)大功能應(yīng)用到基因組分析,可為測序中心、臨床團(tuán)隊(duì)、基因組學(xué)研究人員以及新一代測序儀器開發(fā)者提供快速準(zhǔn)確的分析,進(jìn)而助力更快速、更準(zhǔn)確的基因組學(xué)分析。
此外,為了更好地幫助科學(xué)家了解疾病,為患者找到治療方法,NVIDIA 還推出了BioNeMo 框架,用于訓(xùn)練和部署超算規(guī)模的大型生物分子語言模型。該大型語言模型框架可支持化學(xué)、蛋白質(zhì)、DNA 和 RNA 數(shù)據(jù)格式,還可提供云 API 服務(wù),用于未來支持越來越多的預(yù)訓(xùn)練 AI 模型。
基因測序領(lǐng)域降本增效創(chuàng)造新記錄
在 NVIDIA 加速計(jì)算平臺(tái)、人工智能與基因測序?qū)I(yè)軟件的賦能下,來自全球的學(xué)研機(jī)構(gòu)、政府組織以及相關(guān)企業(yè),正在不斷突破基因測序與分析領(lǐng)域的速度與成本極限,創(chuàng)造出一項(xiàng)項(xiàng)新的記錄:
-
斯坦福大學(xué)、NVIDIA、牛津納米孔科技公司、谷歌、貝勒醫(yī)學(xué)院和加州大學(xué)圣克魯茲分校的研究人員共同合作推出 DNA 測序技術(shù),實(shí)現(xiàn)了創(chuàng)紀(jì)錄的測序速度。該方案使用 NVIDIA Clara Parabricks 計(jì)算基因組學(xué)應(yīng)用框架,以及 GPU 加速版本的 PEPPER-Margin-DeepVariant 流程,在谷歌云上使用 NVIDIA GPU 加速堿基判定和變體識(shí)別,將基因診斷時(shí)間從數(shù)周縮短到 5.2 小時(shí),使醫(yī)生能夠快速判斷如何治療危重病人。
-
麻省理工學(xué)院與哈佛大學(xué)旗下的博德研究所與 NVIDIA 合作,為擁有超過 2.5 萬用戶的 Terra 云平臺(tái)提供快速分析海量醫(yī)療數(shù)據(jù)所需的 AI 能力和加速工具。通過 GPU 加速的 NVIDIA Clara Parabricks 工作流,可助力從事各種基因組數(shù)據(jù)分析的研究人員降本增效。在博德研究所的 GATK 最佳實(shí)踐—生殖細(xì)胞突變檢測分析流中,Parabricks 在 GPU 上進(jìn)行分析的速度提高了 24 倍,而成本減半。
-
阿里云與 NVIDIA 達(dá)成合作,成為國內(nèi)首家在基因分析平臺(tái)集成和部署 NVIDIA Clara Parabricks 的公有云廠商。Clara Parabricks 為阿里云基因分析平臺(tái)的行業(yè)標(biāo)準(zhǔn)基因組分析工具包以及基因調(diào)用器等工具帶來了 GPU 加速,據(jù)測算用戶可以在 30 分鐘內(nèi)完成一個(gè) 30x 測序深度的全基因組分析,且與 GATK 的最佳實(shí)踐結(jié)果 99.99% 一致,而在過去基于 CPU 環(huán)境中這項(xiàng)工作需要 20 多個(gè)小時(shí)才能完成,并且計(jì)算成本可降低 40%-80%。
-
普渡大學(xué)首席研究員 Carpi 博士和團(tuán)隊(duì)將 Clara Parabricks 的表現(xiàn)和瘧疾學(xué)界使用的鑒定變體和跟蹤瘧疾傳播的現(xiàn)有方法進(jìn)行了對比,并使用 1000 個(gè)瘧疾基因組監(jiān)測抗瘧藥物的耐藥性。與只使用 CPU 的傳統(tǒng)方式相比,基于 GPU 加速的 Clara Parabricks 分析速度提高了 27 倍,成本降低了 5 倍,同時(shí)準(zhǔn)確率達(dá)到 99.9%。
-
圣路易斯華盛頓大學(xué)的 Tychele Turner 博士與團(tuán)隊(duì)使用基于 GPU 加速的 Clara Parabricks 開發(fā)出一種快速基因組學(xué)工作流,用于在自閉癥患者中發(fā)現(xiàn) de novo 變異(DNVs)。通過將三重分析整合到 NVIDIA Clara Parabricks 中,Turner 博士將生成 DNV 初始分析的時(shí)間從原來的 800 小時(shí)(在 CPU 上進(jìn)行)縮短至 8.5 小時(shí)(在 GPU 上使用只有 4 個(gè) GPU 的服務(wù)器),加快了 100 倍。
-
為推廣基因組醫(yī)學(xué)計(jì)劃,泰國國家生物庫采用 NVIDIA DGX A100 系統(tǒng)和 NVIDIA Clara Parabricks 來打造 IT 基礎(chǔ)設(shè)施,以加速基因組測序。加速方案將全基因組測序的數(shù)據(jù)處理時(shí)間縮短了 4 個(gè)月,每位用戶的處理時(shí)間也從 30 多個(gè)小時(shí)縮短到 1 到 2 小時(shí)。
-
生物技術(shù)領(lǐng)軍企業(yè) Regeneron 高通量測序中心與大規(guī)模的生物醫(yī)學(xué)數(shù)據(jù)庫和研究資源平臺(tái)英國生物樣本庫合作,在 DNAnexus 平臺(tái)上使用 NVIDIA Clara Parabricks 運(yùn)行分析對超過 50 萬名生物庫參與者的外顯子組進(jìn)行了測序和分析, 5 分鐘內(nèi)完成了在 32-vCPU 機(jī)器上需要花費(fèi)一小時(shí)計(jì)算的全外顯子組分析,同時(shí)成本降低約 40%。
憑借加速計(jì)算領(lǐng)域的全棧能力以及深耕行業(yè)所積累的專業(yè)知識(shí),NVIDIA 現(xiàn)在已經(jīng)推出了智能計(jì)算平臺(tái) NVIDIA Clara,全面布局醫(yī)療健康行業(yè)。該平臺(tái)涵蓋了用于醫(yī)學(xué)影像的 Clara Holoscan、基因組學(xué)的 Clara Parabricks、患者監(jiān)控的 Clara Guardian 以及藥物研發(fā)的 Clara Discovery,并可端到端部署至本地、嵌入式系統(tǒng)、邊緣以及云端等任何地方,助力行業(yè)實(shí)現(xiàn)無縫創(chuàng)新,加快實(shí)現(xiàn)精準(zhǔn)醫(yī)療的目標(biāo)。
無論是尖端醫(yī)學(xué)研究、大規(guī)模基因組分析還是日常應(yīng)用檢測,NVIDIA Million-X 百萬倍計(jì)算性能飛躍的愿景已經(jīng)在基因測序的各個(gè)領(lǐng)域結(jié)出累累碩果,并將持續(xù)為人類消除疾病、促進(jìn)健康做出貢獻(xiàn)。
點(diǎn)擊“閱讀原文”或掃描下方海報(bào)二維碼,即可免費(fèi)注冊 GTC 23,切莫錯(cuò)過這場 AI 和元宇宙時(shí)代的技術(shù)大會(huì)!
原文標(biāo)題:【百萬倍加速】加速計(jì)算助力基因測序突破極限
文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3682瀏覽量
90485
原文標(biāo)題:【百萬倍加速】加速計(jì)算助力基因測序突破極限
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論