0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用北鯤云在AWS上運(yùn)行基因分析HPC任務(wù)

Cloudam云端 ? 來(lái)源:Cloudam云端 ? 作者:Cloudam云端 ? 2022-11-16 13:57 ? 次閱讀

背景

近三十年來(lái),生命科學(xué)與計(jì)算科學(xué)飛速發(fā)展。生物信息學(xué)是一門(mén)生命科學(xué)與計(jì)算科學(xué)的前沿交叉學(xué)科。生物信息學(xué)產(chǎn)生和迅猛發(fā)展的主要推動(dòng)力來(lái)自于新一代測(cè)序等高通量技術(shù)在生命科學(xué)領(lǐng)域越來(lái)越廣泛的應(yīng)用。 基因組學(xué)是這一趨勢(shì)的一個(gè)主要例子,其中高通量下一代測(cè)序 (NGS) 設(shè)備被用于對(duì) DNA、mRNA、調(diào)控區(qū)域、腸道微生物組等進(jìn)行測(cè)序。計(jì)算工作流程也在快速開(kāi)發(fā)和標(biāo)準(zhǔn)化,并且支持動(dòng)態(tài)進(jìn)行擴(kuò)展。隨著大量基因組數(shù)據(jù)的收集,處理時(shí)間通常在數(shù)十億核心小時(shí)的數(shù)量級(jí),處理成本也相應(yīng)增加。因此,客戶(hù)正在尋找運(yùn)行時(shí)間最短、成本最低的優(yōu)化工具和系統(tǒng)。通常清況下有2種方式可供選擇。 第一種是建設(shè)本地計(jì)算集群。一方面建設(shè)本地大型計(jì)算集群成本昂貴,同時(shí)峰值負(fù)載的能力有限,項(xiàng)目的周期也相對(duì)較長(zhǎng),前期成本投入很大。第二種是構(gòu)筑云上的HPC平臺(tái)。利用云資源可以快速構(gòu)建云上HPC平臺(tái),云上還提供了最新技術(shù)和資源的快速訪問(wèn),包括最新加速卡或減少計(jì)算所需時(shí)間的最新一代處理器。通過(guò)選擇合適的實(shí)例類(lèi)型,可以縮短總體計(jì)算時(shí)間。

在這篇博文中,我們將展示如何利用北鯤云HPC平臺(tái)在AWS運(yùn)行運(yùn)行基因分析HPC任務(wù)。

概述

本指南將向您展示如何通過(guò)北鯤云控制臺(tái)啟動(dòng)基于Amazon EC2構(gòu)建的slurm集群,該集群提供有一個(gè)登錄節(jié)點(diǎn),您可以在此節(jié)點(diǎn)上通過(guò)簡(jiǎn)單配置結(jié)合AWS S3存儲(chǔ)快速投遞多個(gè)基因分析任務(wù)。


前置條件

在開(kāi)始使用北鯤云平臺(tái)之前您需要做下面準(zhǔn)備:

1.擁有訪問(wèn)指定S3 bucket權(quán)限的1對(duì)AWS AK/SK。

2.用于存放計(jì)算輸入文件的S3 bucket。

3.用于存放計(jì)算結(jié)果文件的S3 bucket,也可以使用輸入文件bucket的不同目錄作為區(qū)分。

您可以通過(guò)AWS S3控制臺(tái)來(lái)快速創(chuàng)建S3 bucket并上傳輸入文件,如果已有bucket可跳過(guò)此步驟。這是一個(gè)簡(jiǎn)單的過(guò)程,僅涉及四個(gè)步驟:

1. 登錄AWS S3控制臺(tái)。

2. 創(chuàng)建s3 bucket。

3. 設(shè)置bucket權(quán)限,推薦私有讀寫(xiě)或者使用S3 bucket ACL策略進(jìn)行更細(xì)粒度控制。

通過(guò)ACL限制只有指定的IAM角色ROLENAME可以訪問(wèn)指定bucket下的資源(可選步驟):

4. 上傳輸入文件。

任務(wù)整體流程

用戶(hù)只需要準(zhǔn)備好存放輸入和輸出文件的s3 bucket即可,無(wú)需關(guān)心集群內(nèi)部調(diào)度細(xì)節(jié),非常容易上手使用。


a37284315433503e4920ea87b8435416-30653


注冊(cè)并登錄北鯤云控制臺(tái)

您可能需要先注冊(cè)北鯤云賬號(hào),賬號(hào)注冊(cè)后聯(lián)系客服可以獲得200算力金。

pYYBAGN0YFqAEE-AAArzH0gZMDk529.png



創(chuàng)建Workspace

Workspace是北鯤云為您在AWS上創(chuàng)建的一片虛擬空間,對(duì)應(yīng)了AWS的某個(gè)region,后續(xù)使用的AWS相關(guān)服務(wù)和資源都在這個(gè)region下進(jìn)行配置。

您需要先將賬號(hào)免費(fèi)升級(jí)到企業(yè)版才能使用此功能,請(qǐng)聯(lián)系我們!

您需要選擇數(shù)據(jù)存放相同的地域創(chuàng)建Workspace,選擇相同地域的好處是數(shù)據(jù)在AWS EC2上和S3之間上傳下載可以使用內(nèi)網(wǎng)進(jìn)行訪問(wèn),速度更快而且更加安全。

支持免費(fèi)創(chuàng)建多個(gè)Workspace以支持不同的研發(fā)團(tuán)隊(duì)使用就近的AWS資源。

創(chuàng)建并登錄集群登錄節(jié)點(diǎn)

登錄到北鯤云控制臺(tái)后,首先要選擇與您數(shù)據(jù)存放地域一致或相鄰的Workspace, 后續(xù)使用的EC2集群及其他資源都在此地域下進(jìn)行配置。

可通過(guò)webssh方式通過(guò)瀏覽器直接登錄,也可以通過(guò)xShell等其他連接工具連接到集群登錄節(jié)點(diǎn)內(nèi)部。

集群登錄節(jié)點(diǎn)內(nèi)部已內(nèi)置虛擬用戶(hù),可用于提交基因分析任務(wù)。


pYYBAGN0eFGALczKAAJ7EiUILBk618.png


配置AWS AK/SK

AWS CLI 將使用 aws configure 指定的敏感憑證信息存儲(chǔ)在主目錄中名為 credentials 的文件夾中名為 .aws 的本地文件中。

在集群登錄節(jié)點(diǎn)內(nèi)根據(jù)提示輸入AK/SK進(jìn)行快速配置。

```

aws configure

```

特別申明:北鯤云不會(huì)在未經(jīng)用戶(hù)授權(quán)的情況下訪問(wèn)用戶(hù)的EC2,也不會(huì)獲取用戶(hù)的數(shù)據(jù),用戶(hù)在使用平臺(tái)前需要簽署電子版法律協(xié)議。


準(zhǔn)備作業(yè)腳本

大部分計(jì)算所需要的軟件在平臺(tái)上已經(jīng)預(yù)裝好,IT人員不需要安裝和配置軟件運(yùn)行環(huán)境,缺少您想要的軟件請(qǐng)點(diǎn)擊這里。

以常用的序列對(duì)比軟件blast+為例:

使用vim編輯器編寫(xiě)您的作業(yè)計(jì)算腳本

```

vim job.sbatch

#!/bin/bash

#SBATCH --job-name=example //作業(yè)名稱(chēng)

#SBATCH --partition c-64-1 //硬件類(lèi)型 64核64G

#SBATCH --ntasks=64 //任務(wù)數(shù)量


#從s3下載您的輸入文件

aws s3 cp --quiet s3://genomics-cloudam/input.tar.gz /home/cloudam/

tar -zxvfinput.tar.gz


#加載軟件blast+

module addBLAST+/2.2.31


#提交blast+計(jì)算任務(wù) 相關(guān)參數(shù)需要替換為實(shí)際參數(shù)值

blastx -i -o -num_threads


#將結(jié)果文件打包上傳至s3

tar -zcvfresult.tar.gz /home/cloudam/result

aws s3 cp --quiet/home/cloudam/result.tar.gz s3://genomics-cloudam/

```


提交作業(yè)

```

sbatch job.sbatch

```

作業(yè)結(jié)束后,將會(huì)進(jìn)行后置處理,結(jié)果將被寫(xiě)入到s3 bucket內(nèi),閑置的EC2服務(wù)器將被銷(xiāo)毀并立即停止計(jì)費(fèi)。

恭喜!您已使用北鯤云HPC平臺(tái)在 AWS上成功運(yùn)行基因分析任務(wù)。還有更多的功能等待您來(lái)探索。


北鯤云平臺(tái)和AWS ParallelCluster的對(duì)比



AWS ParallelCluster CLOUDAM Platform
數(shù)據(jù)安全 數(shù)據(jù)在自己云賬號(hào)下 不保留用戶(hù)數(shù)據(jù),數(shù)據(jù)落地都在用戶(hù)自己云賬號(hào)下,無(wú)需擔(dān)心數(shù)據(jù)安全
成本 EC2, 網(wǎng)絡(luò),存儲(chǔ)都需要收費(fèi) 僅收取EC2按量使用費(fèi)用
功能 僅提供基礎(chǔ)計(jì)算能力,并且都是基于命令行操作 除了基礎(chǔ)計(jì)算能力還提供了一系列可視化功能例如文件傳輸,鏡像中心,數(shù)據(jù)集,團(tuán)隊(duì)協(xié)作,配額管理,操作審計(jì),賬單報(bào)表,安全管理,系統(tǒng)管理等功能,并提供完善的技術(shù)支持服務(wù)
易用性 IT人員需要手動(dòng)配置和維護(hù)集群,需要單獨(dú)安裝軟件和配置使用環(huán)境,僅支持命令行操作 配置簡(jiǎn)單,IT人員無(wú)需手動(dòng)配置集群,無(wú)需安裝計(jì)算軟件,提供命令行提交,可視化作業(yè)提交和圖形界面提交等多種作業(yè)提交方式


結(jié)論

在這篇博文中,我們演示了如何使用北鯤云平臺(tái)在AWS來(lái)提交基因分析任務(wù)??焖僭L問(wèn)北鯤云用戶(hù)手冊(cè)并親自試用演示。有關(guān)北鯤云的更多信息,請(qǐng)查看主頁(yè)和文檔。

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • HPC
    HPC
    +關(guān)注

    關(guān)注

    0

    文章

    306

    瀏覽量

    23614
  • AWS
    AWS
    +關(guān)注

    關(guān)注

    0

    文章

    423

    瀏覽量

    24250
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    計(jì)算hpc的主要功能是什么

    計(jì)算HPC(High-Performance Computing)是指利用計(jì)算技術(shù)來(lái)實(shí)現(xiàn)高性能計(jì)算的一種解決方案。計(jì)算HPC將高性能計(jì)
    的頭像 發(fā)表于 10-22 10:20 ?49次閱讀

    HPC計(jì)算前景

    高性能計(jì)算(HPC)與計(jì)算的結(jié)合,正逐步成為推動(dòng)科技創(chuàng)新和產(chǎn)業(yè)升級(jí)的重要引擎。隨著數(shù)據(jù)規(guī)模的不斷擴(kuò)大和計(jì)算需求的日益復(fù)雜,HPC計(jì)算展現(xiàn)出了巨大的潛力和價(jià)值。
    的頭像 發(fā)表于 10-16 10:17 ?93次閱讀

    計(jì)算hpc是什么意思

    計(jì)算HPC(High-Performance Computing)是指利用計(jì)算技術(shù)來(lái)實(shí)現(xiàn)高性能計(jì)算的一種解決方案。
    的頭像 發(fā)表于 10-15 10:01 ?90次閱讀

    CommvaultAWS推出Commvault Cloud網(wǎng)絡(luò)彈性平臺(tái)

    混合網(wǎng)絡(luò)彈性和數(shù)據(jù)保護(hù)解決方案的領(lǐng)先提供商Commvault(納斯達(dá)克代碼:CVLT)宣布將在Amazon Web Services(AWS推出Commvault Cloud網(wǎng)絡(luò)彈性平臺(tái)。
    的頭像 發(fā)表于 10-15 09:19 ?252次閱讀

    橋芯片和南橋芯片的作用

    、內(nèi)存、顯卡等高速設(shè)備相連,因此其性能對(duì)整個(gè)系統(tǒng)的運(yùn)行速度有著直接的影響。 1.1 數(shù)據(jù)傳輸 橋芯片的主要任務(wù)之一是作為數(shù)據(jù)傳輸?shù)臉屑~。它負(fù)責(zé)將CPU、內(nèi)存和顯卡之間的數(shù)據(jù)快速傳遞,確保這些高速設(shè)備能夠高效地協(xié)同工作。
    的頭像 發(fā)表于 10-14 10:33 ?336次閱讀

    AWS豪擲78億歐元,強(qiáng)化歐洲計(jì)算布局

    全球計(jì)算巨頭亞馬遜計(jì)算部門(mén)AWS近日宣布了一項(xiàng)雄心勃勃的投資計(jì)劃。預(yù)計(jì)到2040年,AWS將在德國(guó)投入高達(dá)78億歐元,專(zhuān)門(mén)用于建設(shè)歐洲的
    的頭像 發(fā)表于 05-20 11:07 ?483次閱讀

    AWS HPC為什么不用Infiniband?有何原因?

    HPC的低延遲需求來(lái)自于很多應(yīng)用都會(huì)通過(guò)網(wǎng)格刨分來(lái)進(jìn)行并行運(yùn)算,然后網(wǎng)格間有復(fù)雜而頻繁的通信數(shù)據(jù)交互,Brain將其稱(chēng)為“Ghost Cell Exchange”。
    的頭像 發(fā)表于 04-16 16:59 ?483次閱讀
    <b class='flag-5'>AWS</b> <b class='flag-5'>HPC</b>為什么不用Infiniband?有何原因?

    stm32 AWS連接怎么使用?

    stm32 AWS連接怎么使用,官方的擴(kuò)展包看不明白
    發(fā)表于 04-01 07:21

    富士通和亞馬遜服務(wù)深化合作關(guān)系

    富士通與亞馬遜服務(wù)AWS宣布深化合作,共同推出現(xiàn)代化加速聯(lián)合計(jì)劃,旨在推動(dòng)AWS遺留應(yīng)用程序的現(xiàn)代化進(jìn)程。該計(jì)劃將于4月1日正式啟動(dòng),
    的頭像 發(fā)表于 03-19 10:59 ?619次閱讀

    什么是HPC高性能計(jì)算

    、復(fù)雜、高要求的科學(xué)計(jì)算和數(shù)據(jù)處理等任務(wù)的高效、精確地運(yùn)行。通俗地講,HPC就是用比普通計(jì)算機(jī)更強(qiáng)大的計(jì)算能力進(jìn)行科學(xué)計(jì)算,當(dāng)然HPC也稱(chēng)為超級(jí)計(jì)算,是一種強(qiáng)大的
    的頭像 發(fā)表于 02-19 13:27 ?734次閱讀
    什么是<b class='flag-5'>HPC</b>高性能計(jì)算

    CK-RA6M5的RA AWS連接,帶蜂窩網(wǎng)絡(luò)-入門(mén)指南

    電子發(fā)燒友網(wǎng)站提供《CK-RA6M5的RA AWS連接,帶蜂窩網(wǎng)絡(luò)-入門(mén)指南.pdf》資料免費(fèi)下載
    發(fā)表于 02-19 10:50 ?0次下載
    CK-RA6M5<b class='flag-5'>上</b>的RA <b class='flag-5'>AWS</b><b class='flag-5'>云</b>連接,帶蜂窩網(wǎng)絡(luò)-入門(mén)指南

    CK-RA6M5的RA AWS連接(帶以太網(wǎng))入門(mén)指南

    電子發(fā)燒友網(wǎng)站提供《CK-RA6M5的RA AWS連接(帶以太網(wǎng))入門(mén)指南.pdf》資料免費(fèi)下載
    發(fā)表于 01-03 10:10 ?0次下載
    CK-RA6M5<b class='flag-5'>上</b>的RA <b class='flag-5'>AWS</b><b class='flag-5'>云</b>連接(帶以太網(wǎng))入門(mén)指南

    帶Wi-Fi的CK-RA6M5v2的RA AWS連接 DA16600入門(mén)指南

    電子發(fā)燒友網(wǎng)站提供《帶Wi-Fi的CK-RA6M5v2的RA AWS連接 DA16600入門(mén)指南.pdf》資料免費(fèi)下載
    發(fā)表于 01-03 10:01 ?0次下載
    帶Wi-Fi的CK-RA6M5v2<b class='flag-5'>上</b>的RA <b class='flag-5'>AWS</b><b class='flag-5'>云</b>連接 DA16600入門(mén)指南

    NVIDIA BioNeMo 亞馬遜科技上線,實(shí)現(xiàn)用于藥物研發(fā)的生成式 AI

    NVIDIA Clara 軟件和服務(wù),以加快醫(yī)療研究進(jìn)程。 這項(xiàng)計(jì)劃于太平洋時(shí)間 11 月 28 日亞馬遜科技 re:Invent 公布,讓使用 AWS
    的頭像 發(fā)表于 11-29 21:10 ?525次閱讀

    多活高可用架構(gòu),助力企業(yè)實(shí)現(xiàn)業(yè)務(wù)無(wú)縫切換與持續(xù)穩(wěn)定運(yùn)行

    多活高可用架構(gòu),以實(shí)現(xiàn)業(yè)務(wù)的無(wú)縫切換和持續(xù)穩(wěn)定運(yùn)行。2023年云棲大會(huì)現(xiàn)場(chǎng)阿里高級(jí)專(zhuān)家丁杰現(xiàn)場(chǎng)分享了《多活高可用架構(gòu)的趨勢(shì)和實(shí)踐》的主題演講,詳細(xì)介紹了阿里
    的頭像 發(fā)表于 11-08 14:12 ?564次閱讀
    <b class='flag-5'>云</b><b class='flag-5'>上</b>多活高可用架構(gòu),助力企業(yè)實(shí)現(xiàn)業(yè)務(wù)無(wú)縫切換與持續(xù)穩(wěn)定<b class='flag-5'>運(yùn)行</b>