0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SR-IOV在云計(jì)算數(shù)據(jù)中心的應(yīng)用方法、價(jià)值和前景

SSDFans ? 來(lái)源:lp ? 2019-04-19 17:16 ? 次閱讀

2007年9月,PCI-SIG官方發(fā)布了《Single Root I/O Virtualization and Sharing Specification Revision 1.0》規(guī)范,定義了多個(gè)System Images如何共享PCI接口的I/O硬件設(shè)備,這里的設(shè)備可以是PCIe 網(wǎng)卡,一塊PCIe SSD等等。

這就是今天要討論的話題——SR-IOV,一種硬件角度出發(fā)的虛擬化解決方案,本文不僅會(huì)對(duì)這項(xiàng)技術(shù)的概念和原理進(jìn)行介紹,還會(huì)結(jié)合AWS以及Memblaze的研究來(lái)探討SR-IOV在云計(jì)算數(shù)據(jù)中心的應(yīng)用方法、價(jià)值和前景。

SR-IOV及虛擬化系統(tǒng)中相關(guān)概念

在介紹之前,需要先明確一些SR-IOV相關(guān)的概念,一個(gè)典型的SR-IOV方案架構(gòu)如下。

SR-IOV的實(shí)現(xiàn)模型

(來(lái)源:http://www.pcisig.com/)

System Image(SI),客戶機(jī),或者稱(chēng)虛擬機(jī)OS。

Virtual Intermediary(VI),虛擬機(jī)管理層,是物理機(jī)和虛擬機(jī)的中介,可以是hypervisor或者VMM。(SR-IOV的主要作用就是消除VI對(duì)I/O操作的干預(yù),進(jìn)而提升數(shù)據(jù)傳輸性能)。

SR-PCIM,配置和管理SR-IOV功能以及PF/VF的軟件,SR-PCIM可以處理相關(guān)的錯(cuò)誤和實(shí)現(xiàn)設(shè)備的整體控制(比如實(shí)現(xiàn)電源管理和熱插拔,一個(gè)PCIe設(shè)備支持SR-IOV時(shí),SR-PCIM就可以通過(guò)熱插入的方式為物理主機(jī)添加VF設(shè)備,然后就可以配置VF給虛擬機(jī)使用。)

PF(Physical Function),SR-IOV中的關(guān)鍵概念, PF 是 PCIe一種物理功能,每個(gè)PF都可以被物理主機(jī)發(fā)現(xiàn)和管理。進(jìn)一步講,借助物理主機(jī)上的PF驅(qū)動(dòng)可以直接訪問(wèn)PF所有資源,并對(duì)所有VF并進(jìn)行配置,比如:設(shè)置VF數(shù)量,并對(duì)其進(jìn)行全局啟動(dòng)或停止。

VF(Virtual Function),PF虛擬出來(lái)的功能。一個(gè)或者多個(gè)VF共享一個(gè)PF,其驅(qū)動(dòng)裝在虛擬機(jī)上,當(dāng)VF分配給虛擬機(jī)以后,虛擬機(jī)就能像使用普通PCIe設(shè)備一樣初始化和配置VF。如果PF代表的是一張物理網(wǎng)卡,那么VF則是一個(gè)虛擬機(jī)可以看見(jiàn)和使用的虛擬網(wǎng)卡。

一句話解釋SR-IOV

SR-IOV通過(guò)將PF分為多個(gè)VF為上層虛擬機(jī)使用,相當(dāng)于虛擬機(jī)繞過(guò)VI直接使用PCIe 設(shè)備處理I/O和傳輸數(shù)據(jù)。

值得一提的是,物理主機(jī)啟動(dòng)時(shí)不能簡(jiǎn)單的掃描SR-IOV設(shè)備并列舉出所有VF,因?yàn)閂F沒(méi)有完整的PCIe配置空間。可以用Linux PCI熱插拔API動(dòng)態(tài)為物理主機(jī)增加VF,然后分配給虛擬機(jī)使用。

SR-IOV實(shí)現(xiàn)的價(jià)值

傳統(tǒng)虛擬化系統(tǒng)中大量的資源和時(shí)間損耗在Hypervisor(或者VMM)軟件層面,PCIe設(shè)備的性能優(yōu)勢(shì)因此無(wú)法徹底發(fā)揮。而SR-IOV的價(jià)值在于消除這一軟件瓶頸,助力多個(gè)虛擬機(jī)實(shí)現(xiàn)物理資源共享,同時(shí)使得虛擬機(jī)可以使用到NVMe SSD的高性能。

在此我們可以總結(jié)得出SR-IOV優(yōu)勢(shì):

實(shí)現(xiàn)SR-IOV之后,VMM把中斷交給虛擬機(jī)處理,而不是VMM處理I/O,提高了性能;

虛擬機(jī)直接和PCIe設(shè)備交互減輕物理主機(jī)CPU負(fù)擔(dān),使之有能力承載更多虛擬機(jī);

SR-IOV虛擬化技術(shù)可以減少客戶所需PCIe設(shè)備數(shù)量,進(jìn)而節(jié)省PCIe插槽;

SR-IOV可以與其他的I/O虛擬化技術(shù)進(jìn)行結(jié)合提供一個(gè)更加完整的兼具高性能和安全性的解決方案。

以NVMe SSD為例,今天的一塊NVMe SSD容量可以達(dá)到十幾TB,而IOPS沖到了100萬(wàn),同時(shí)有著微秒級(jí)的延遲。SR-IOV可以使NVMe SSD直接被上層多個(gè)VM所用,SSD的性能優(yōu)勢(shì)也可以直接被上層應(yīng)用感知到。

可以看到虛擬化和云計(jì)算都是SR-IOV大顯身手的領(lǐng)域。事實(shí)上,我們看到當(dāng)前走在SR-IOV實(shí)踐最前面的,就是云計(jì)算巨頭AWS。接下來(lái)我們也將通過(guò)AWS公布的一些資料解讀SR-IOV的實(shí)現(xiàn)和瓶頸。

從AWS實(shí)踐看SR-IOV

AWS從全局的角度考慮,構(gòu)建了一套基于Nitro System的方案,實(shí)現(xiàn)存儲(chǔ)、網(wǎng)絡(luò)等多種VF功能,為此,AWS在2015年收購(gòu)了以3.5億美元收購(gòu)以色列芯片商Annapurna Labs。

下圖展示了AWS在SR-IOV上的進(jìn)展,可以看到AWS經(jīng)歷了從全虛擬化到半虛擬化,而后的2013年到2017年,通過(guò)使用SR-IOV技術(shù)使得虛擬機(jī)的網(wǎng)絡(luò)和存儲(chǔ)性能,逐步達(dá)到近似Bare-metal performance的水平。

從AWS產(chǎn)品服務(wù)來(lái)看,2013年的CR1的實(shí)現(xiàn),不論存儲(chǔ)和網(wǎng)絡(luò)訪問(wèn)都是要過(guò)Amazon的hypervisor layer(Xen)的。

而到了2017年的C5,VM的EBS Storage和Network全部不通過(guò)Amazon Linux hypervisor layer,而通過(guò)Lightweight Nitro hypervisor。

對(duì)于這個(gè)Nitro Hypervisior,AWS給出的解釋是這是一個(gè)new hypervisor,但是不僅僅是個(gè)hypervisor?;贏nnapurna Labs這顆芯片,AWS實(shí)現(xiàn)了PCIe設(shè)備PV到VF的SR-IOV虛擬化功能,利用Nitro Hypervisior實(shí)現(xiàn)了QoS管理功能。看AWS的C5和C5D機(jī)型的配置,VF可以是50、100、200、400、900GB的大小。

Memblaze測(cè)試工程師申請(qǐng)了一個(gè)亞馬遜AWS服務(wù)器以及一個(gè)c5d.large的NVMe SSD,從AWS官方看到實(shí)例配置可知c5d.large的IOPS讀被限制在2萬(wàn)IOPS、寫(xiě)被限制在9000IOPS。

Memblaze申請(qǐng)的AWS服務(wù)器

Amazon EBS 和 NVMe

在基于 Nitro system的虛擬機(jī)上,EBS 卷顯示為 NVMe 塊儲(chǔ)存設(shè)備,這些設(shè)備依賴(lài)于操作系統(tǒng)上的標(biāo)準(zhǔn) NVMe 驅(qū)動(dòng)程序。這些驅(qū)動(dòng)程序通常在虛擬機(jī)啟動(dòng)期間,通過(guò)掃描 PCI 總線來(lái)發(fā)現(xiàn)連接的設(shè)備,然后根據(jù)設(shè)備響應(yīng)的順序創(chuàng)建設(shè)備節(jié)點(diǎn)。設(shè)備名稱(chēng)為 /dev/nvme0n1、/dev/nvme1n1,以此類(lèi)推。

實(shí)測(cè),可以看到AWS可同時(shí)給云主機(jī)提供EBS(上圖Amazon Elastic Block Store)遠(yuǎn)程存儲(chǔ)和本地NVMe SSD(上圖Amazon EC2 NVMe Instance Storage),兩者均被識(shí)別為一個(gè)PCIe設(shè)備。

分別測(cè)試兩者的讀和寫(xiě)延遲。測(cè)試結(jié)果如下:

AWS VM的Instance store(nvme1n1)讀latency在96μs

AWS VM的Instance store(nvme1n1)寫(xiě)latency 99.95%都在24-37μs

通過(guò)Nitro 虛擬化后虛擬機(jī)僅增加了10μs延遲。AWS全局的SR-IOV設(shè)計(jì)理念在于,存儲(chǔ)和網(wǎng)絡(luò)都可以通過(guò)Nitro系統(tǒng)實(shí)現(xiàn)SR-IOV,分布式的EBS卷經(jīng)Nitro Card到虛擬機(jī)就成為了一個(gè)NVMe塊存儲(chǔ)設(shè)備,而不需要底層的SSD支持SR-IOV。

但是全球只有AWS做到了這點(diǎn),他的SR-IOV實(shí)踐證明這項(xiàng)技術(shù)價(jià)值的同時(shí)也展示了其技術(shù)實(shí)力。

Memblaze在SR-IOV領(lǐng)域的研究現(xiàn)狀

另一方面,SSD實(shí)現(xiàn)SR-IOV的同時(shí),需要系統(tǒng)做相應(yīng)的修改和調(diào)優(yōu)處理,這里總結(jié)了企業(yè)客戶實(shí)現(xiàn)SR-IOV的幾點(diǎn)需求。

從安全性考慮,NVMe SSD需要實(shí)現(xiàn)多命名空間管理,并且滿足使用命名空間的租戶之間不能互相訪問(wèn)到數(shù)據(jù),尤其是命名空間重新分配給云主機(jī)用戶的時(shí)候。

從云主機(jī)業(yè)務(wù)性能QoS保障的角度,需要NVMe SSD實(shí)現(xiàn)不同VF之間的I/O隔離。而這里的I/O隔離同樣需要基于多命名空間實(shí)現(xiàn)。

(關(guān)于多命名空間可以參看文末相關(guān)閱讀中的《實(shí)錘,PBlaze5實(shí)力演繹multiple namespaces 功能》)

PCIe驅(qū)動(dòng)以及NVMe驅(qū)動(dòng)的修改。驅(qū)動(dòng)是連接系統(tǒng)和SSD的關(guān)鍵,這里需要修改PCIe Driver對(duì) VF BAR空間地址的分配機(jī)制以及修改NVMe Driver對(duì)VF I/O超時(shí)處理的機(jī)制

最后也是最重要的是合作,SR-IOV實(shí)現(xiàn)需要Memblaze與客戶進(jìn)行環(huán)境聯(lián)調(diào),以及大規(guī)模測(cè)試驗(yàn)證,以此保障SR-IOV功能的可靠性、性能表現(xiàn)等。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 云計(jì)算
    +關(guān)注

    關(guān)注

    39

    文章

    7679

    瀏覽量

    137034
  • 虛擬化
    +關(guān)注

    關(guān)注

    1

    文章

    359

    瀏覽量

    29740
  • AWS
    AWS
    +關(guān)注

    關(guān)注

    0

    文章

    423

    瀏覽量

    24265

原文標(biāo)題:超低延遲SR-IOV!全球只有他做到了

文章出處:【微信號(hào):SSDFans,微信公眾號(hào):SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    計(jì)算與大數(shù)據(jù)_1.3計(jì)算數(shù)據(jù)中心#硬聲創(chuàng)作季

    計(jì)算數(shù)據(jù)中心
    Hello,World!
    發(fā)布于 :2022年10月26日 19:22:56

    國(guó)際數(shù)據(jù)中心計(jì)算產(chǎn)業(yè)展覽會(huì)

    數(shù)據(jù)中心行業(yè)發(fā)展前景: 隨著中國(guó)信息化社會(huì)的快速發(fā)展,以及計(jì)算、物聯(lián)網(wǎng)等產(chǎn)業(yè)的崛起,數(shù)據(jù)中心作為終端海量
    發(fā)表于 09-12 11:21

    正在使用SR-IOV功能,請(qǐng)問(wèn)能不能再VF端口中啟動(dòng)MAC學(xué)習(xí)?

    我的PC中使用X710進(jìn)行自定義應(yīng)用程序。我正在使用SR-IOV功能。我已為每個(gè)VF分配了MAC地址。有沒(méi)有辦法VF端口啟用MAC學(xué)習(xí)?我的應(yīng)用程序?qū)⑹褂蒙傻膍ac地址與對(duì)等方進(jìn)行通信
    發(fā)表于 10-31 19:22

    數(shù)據(jù)中心市場(chǎng)的十大趨勢(shì)

    (IoT)等新技術(shù)的發(fā)展,按需訪問(wèn)的需求也不斷增長(zhǎng)。用戶希望無(wú)論從本地設(shè)備存儲(chǔ)還是云端訪問(wèn)數(shù)據(jù),都能享受到同樣的用戶體驗(yàn)。數(shù)據(jù)中心需要提供更快的
    發(fā)表于 12-31 22:23

    基于PCI Express SR-IOV的大量虛擬化功能

    當(dāng)今數(shù)據(jù)中心用的PCI Express最強(qiáng)大的一個(gè)功能是I/O虛擬化。I/O虛擬化讓虛擬機(jī)直接訪問(wèn)I/O硬件設(shè)備,提高了企業(yè)級(jí)服務(wù)器的性能。單根I/O虛擬化(SR-IOV)技術(shù)規(guī)范拉動(dòng)了市場(chǎng)
    發(fā)表于 07-17 06:18

    Intel圖形SR-IOV增強(qiáng)工具箱使用指南

    的標(biāo)準(zhǔn)方法。每個(gè)虛擬功能都被直接分配給一個(gè)虛擬機(jī),從而實(shí)現(xiàn)虛擬機(jī)接近本機(jī)的性能。 英特爾圖形公司SR-IOV的主要好處是: 一種標(biāo)準(zhǔn)方法,即與虛擬機(jī)器共享有形的GPU,從而允許虛擬
    發(fā)表于 08-02 16:07

    華為與福建漳州簽訂戰(zhàn)略合作 計(jì)算數(shù)據(jù)中心落地

    福建漳州市人民政府、漳州開(kāi)發(fā)區(qū)和華為公司計(jì)算數(shù)據(jù)中心戰(zhàn)略合作協(xié)議簽約儀式11日漳州舉行。這標(biāo)志著華為計(jì)算數(shù)據(jù)中心落戶漳州開(kāi)發(fā)區(qū)。
    發(fā)表于 11-14 13:05 ?1340次閱讀

    計(jì)算數(shù)據(jù)中心和傳統(tǒng)IDC的差異在哪里

    現(xiàn)在可能會(huì)有很多人對(duì)計(jì)算數(shù)據(jù)中心還有大數(shù)據(jù)等這類(lèi)技術(shù)和名次感到模糊不清,計(jì)算數(shù)據(jù)中心是一種
    發(fā)表于 04-25 11:44 ?6558次閱讀

    SR-IOV創(chuàng)建虛擬函數(shù)

    This video demonstrates how to create virtual functions using SR-IOV mode.
    的頭像 發(fā)表于 10-18 05:42 ?2953次閱讀

    全球海拔最高的計(jì)算數(shù)據(jù)中心建在西藏 遠(yuǎn)在北京也可控制

    近日,有消息宣稱(chēng),全球海拔最高、西藏地區(qū)最大的計(jì)算數(shù)據(jù)中心計(jì)劃于7月完工。 該計(jì)算數(shù)據(jù)中心系寧算科技集團(tuán)投建,是目前全球海拔最高的數(shù)據(jù)中心
    的頭像 發(fā)表于 06-13 10:43 ?2658次閱讀

    探討“新基建”時(shí)代計(jì)算數(shù)據(jù)中心面臨的各種挑戰(zhàn)

    “新基建”的發(fā)展浪潮,正驅(qū)動(dòng)計(jì)算數(shù)據(jù)中心向著城市化(時(shí)延)、HyperColo化(降低TCO)方向發(fā)展。
    的頭像 發(fā)表于 12-29 12:15 ?1388次閱讀

    杭鋼計(jì)算數(shù)據(jù)中心推出的Liebert?EXL系列大功率UPS有哪些核心優(yōu)勢(shì)?

    實(shí)際建設(shè)中,杭鋼計(jì)算數(shù)據(jù)中心按照數(shù)據(jù)中心國(guó)家A級(jí)、國(guó)際T3+標(biāo)準(zhǔn)設(shè)計(jì)建設(shè),并采用高效節(jié)能的制冷、電源系統(tǒng)和天然氣分布式能源系統(tǒng),全力打造綠色
    的頭像 發(fā)表于 10-15 15:10 ?2412次閱讀

    什么是SR-IOV呢?SR-IOV技術(shù)的優(yōu)缺點(diǎn)及應(yīng)用場(chǎng)景

    SR-IOV全稱(chēng)為Single Root I/O Virtualization(單根輸入/輸出虛擬化),是一種硬件加速的虛擬化技術(shù),它允許多個(gè)虛擬機(jī)同時(shí)訪問(wèn)物理設(shè)備,從而提高虛擬機(jī)的性能和可靠性。
    的頭像 發(fā)表于 06-06 14:58 ?2.8w次閱讀

    SR-IOV研究:一個(gè)簡(jiǎn)單的測(cè)試環(huán)境

    簡(jiǎn)單地說(shuō),SR-IOV是一種讓一臺(tái)主機(jī)上的多臺(tái)虛擬機(jī)和主機(jī)系統(tǒng)本身合用同一張物理網(wǎng)卡的技術(shù),每臺(tái)虛擬機(jī)都認(rèn)為自己擁有一張獨(dú)立的網(wǎng)卡(即一個(gè)VF),而其實(shí)它們都被騙了~
    的頭像 發(fā)表于 06-14 11:34 ?2655次閱讀
    <b class='flag-5'>SR-IOV</b>研究:一個(gè)簡(jiǎn)單的測(cè)試環(huán)境

    淺談數(shù)據(jù)中心、智算數(shù)據(jù)中心、超算數(shù)據(jù)中心區(qū)別,分布式電源是趨勢(shì)

    數(shù)據(jù)中心、智算數(shù)據(jù)中心、超算數(shù)據(jù)中心三者區(qū)別,分布式電源是趨勢(shì) 大家都在聊數(shù)據(jù)中心、智
    的頭像 發(fā)表于 11-29 14:20 ?1844次閱讀
    淺談<b class='flag-5'>云</b><b class='flag-5'>數(shù)據(jù)中心</b>、智<b class='flag-5'>算數(shù)據(jù)中心</b>、超<b class='flag-5'>算數(shù)據(jù)中心</b>區(qū)別,分布式電源是趨勢(shì)