0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

I/O虛擬化及Virtio接口介紹

jf_C6sANWk1 ? 來(lái)源:軟硬件融合 ? 作者:軟硬件融合 ? 2022-10-26 17:21 ? 次閱讀

編者按 I/O虛擬化是SmartNIC/DPU/IPU中最核心的部分,AWS NITRO就是從I/O硬件虛擬化開(kāi)始,逐漸開(kāi)啟了DPU這個(gè)新處理器類型的創(chuàng)新。而Virtio接口,已經(jīng)是事實(shí)上的云計(jì)算虛擬化的標(biāo)準(zhǔn)化接口。Virtio成為整個(gè)問(wèn)題的焦點(diǎn):不管是SPDK/vhost、還是vDPA加速,都是圍繞著Virtio接口展開(kāi)。 本文是《軟硬件融合》圖書中I/O虛擬化和Virtio相關(guān)內(nèi)容的節(jié)選,歡迎大家一起交流相關(guān)技術(shù)。

1 I/O設(shè)備虛擬化:從軟件模擬到SR-IOV

I/O虛擬化是計(jì)算機(jī)虛擬化最復(fù)雜的部分,因?yàn)樯婕暗?a href="http://srfitnesspt.com/v/tag/132/" target="_blank">CPU操作系統(tǒng)、Hypervisor以及I/O設(shè)備的相互配合。I/O虛擬化也經(jīng)歷了從軟件模擬虛擬化、類虛擬化向完全硬件虛擬化的轉(zhuǎn)變。

a. I/O軟件模擬虛擬化和類虛擬化

I/O設(shè)備虛擬化場(chǎng)景,既要關(guān)注I/O設(shè)備模擬,也要關(guān)注vCPU和虛擬I/O設(shè)備的交互,許多條件交織在一起,使得整個(gè)問(wèn)題變的非常復(fù)雜。I/O虛擬化性能代價(jià)主要體現(xiàn)在三個(gè)方面:驅(qū)動(dòng)訪問(wèn)設(shè)備寄存器的代價(jià);設(shè)備通過(guò)中斷和DMA訪問(wèn)驅(qū)動(dòng)的代價(jià);設(shè)備模擬本身的代價(jià)。因此,I/O虛擬化性能優(yōu)化主要是通過(guò)五個(gè)角度:

減少I/O訪問(wèn)寄存器的代價(jià):一方面是把部分I/O的訪問(wèn)變成MMIO訪問(wèn),這樣就不需要陷入Hypervisor;另一方面是優(yōu)化VM-exit/VM-entry切換的代價(jià)。

減少I/O訪問(wèn)的次數(shù):比如簡(jiǎn)化通知機(jī)制,簡(jiǎn)化虛擬化設(shè)備功能等。

優(yōu)化中斷:主要有如APIC的中斷硬件虛擬化或者不需要中斷的輪詢驅(qū)動(dòng)。

減少DMA訪問(wèn)的代價(jià):通過(guò)IOMMU等實(shí)現(xiàn)Pass Through模式。

減少設(shè)備模擬的代價(jià):則主要是通過(guò)硬件SR-IOV機(jī)制實(shí)現(xiàn)硬件設(shè)備。

如圖1(a),虛擬機(jī)中看到的設(shè)備,一般是由Hypervisor模擬出來(lái)的。虛擬設(shè)備的功能,可以少于也可以多于物理的設(shè)備,甚至可以模擬出一些不存在的特性,模擬出不存在的硬件設(shè)備。通過(guò)I/O軟件模擬的方式,我們稱之為I/O設(shè)備軟件模擬虛擬化。在I/O軟件模擬虛擬化的解決方案中,客戶機(jī)VM要使用底層的硬件資源,需要Hypervisor來(lái)截獲每一條請(qǐng)求指令,然后模擬出這些指令的行為。我們都知道Hypervisor截獲指令的動(dòng)作就是從VM-exit,處理完模擬然后再VM-entry的過(guò)程,這個(gè)過(guò)程的代價(jià)很高,每條指令都要如此,帶來(lái)的性能開(kāi)銷必然是非常龐大的。

如圖1(b)所示,Virtio提供的類虛擬化方式,客戶機(jī)完成設(shè)備的前端驅(qū)動(dòng)程序,Hypervisor配合客戶機(jī)完成相應(yīng)的后端驅(qū)動(dòng)程序,這樣兩者之間通過(guò)交互機(jī)制就可以實(shí)現(xiàn)高效的虛擬化過(guò)程。

f7b75342-3730-11ed-ba43-dac502259ad0.png

圖1 I/O設(shè)備虛擬化

Virtio框架如圖2所示,使用Virtqueue來(lái)實(shí)現(xiàn)其I/O機(jī)制,每個(gè)Virtqueue就是一個(gè)承載大量數(shù)據(jù)的Queue。VRing是Virtqueue的具體實(shí)現(xiàn)方式,針對(duì)VRing會(huì)有相應(yīng)的描述符表格進(jìn)行描述。Virtio是一個(gè)通用的驅(qū)動(dòng)和設(shè)備接口框架,基于Virtio分別實(shí)現(xiàn)了Virtio-net、Virtio-blk、Virtio-scsi等很多不同類型的模擬設(shè)備及設(shè)備驅(qū)動(dòng)。

f7c68ae2-3730-11ed-ba43-dac502259ad0.png

圖2 Virtio框架

Virtio類虛擬化比傳統(tǒng)的I/O設(shè)備軟件模擬的性能優(yōu)勢(shì)體現(xiàn)在:很多控制和狀態(tài)信息不需要通過(guò)寄存器讀寫操作來(lái)交互的,而是通過(guò)寫入Virtqueue的相關(guān)數(shù)據(jù)結(jié)構(gòu)來(lái)讓驅(qū)動(dòng)(Driver)和設(shè)備(Device)雙方交互。并且在數(shù)據(jù)交互的時(shí)候,只需要在一定批量數(shù)據(jù)變化需要對(duì)方處理的時(shí)候才會(huì)通知對(duì)方,驅(qū)動(dòng)通知設(shè)備是通過(guò)寫Kick寄存器,設(shè)備通知驅(qū)動(dòng)是通過(guò)中斷。

b. I/O完全硬件虛擬化

評(píng)價(jià)I/O虛擬化技術(shù)的兩個(gè)指標(biāo)——性能和通用性。性能,當(dāng)然是越接近無(wú)虛擬化環(huán)境下的I/O性能最好;而通用性,則是I/O虛擬化對(duì)客戶操作系統(tǒng)越透明越好。要想要高性能,最直接的方法就是讓客戶機(jī)直接使用真實(shí)的硬件設(shè)備;要想要通用性,則是要用想辦法讓客戶機(jī)操作系統(tǒng)自帶的驅(qū)動(dòng)程序能夠發(fā)現(xiàn)設(shè)備并操作設(shè)備。

客戶機(jī)直接操作設(shè)備面臨兩個(gè)問(wèn)題:第一,如何讓客戶機(jī)直接訪問(wèn)到設(shè)備真實(shí)的I/O地址空間(包括I/O和MMIO);第二,如何讓設(shè)備的DMA直接訪問(wèn)客戶機(jī)的內(nèi)存空間。內(nèi)存硬件虛擬化的EPT技術(shù)可以解決第一個(gè)問(wèn)題。而VT-d技術(shù)則用來(lái)解決第二個(gè)問(wèn)題。VT-d技術(shù)主要是引入地址重映射(IOMMU+IOTLB),負(fù)責(zé)提供重映射和設(shè)備直接分配。從設(shè)備端的DMA訪問(wèn),都會(huì)進(jìn)入地址重映射進(jìn)行地址轉(zhuǎn)換,使得設(shè)備可以訪問(wèn)到對(duì)應(yīng)客戶機(jī)特定的內(nèi)存區(qū)域。

VT-d技術(shù)雖然可以將物理的I/O設(shè)備直接透?jìng)鹘o虛擬機(jī),但是一臺(tái)計(jì)算機(jī)系統(tǒng)受限于接口,可以連的物理設(shè)備畢竟有限。因此,PCIe SR-IOV技術(shù)應(yīng)運(yùn)而生。通過(guò)PCIe SR-IOV技術(shù),一個(gè)物理I/O設(shè)備可以虛擬出多個(gè)虛擬設(shè)備,分配給虛擬機(jī)使用。

如圖1(c)所示,SR-IOV引入了兩個(gè)PCIe的功能類型:

PFs(Physical Functions):包括管理SR-IOV功能在內(nèi)的所有PCIe設(shè)備。

VFs(Virtual Functions):輕量級(jí)的PCIe設(shè)備,只能進(jìn)行必要的配置和數(shù)據(jù)傳輸。

Hypervisor把VF分配給虛擬機(jī),通過(guò)IOMMU等硬件輔助技術(shù)提供的DMA數(shù)據(jù)映射,直接在虛擬機(jī)和硬件設(shè)備之間傳輸數(shù)據(jù)。

c. I/O虛擬化總結(jié)

通過(guò)兼容性、性能、成本、擴(kuò)展性四個(gè)方面對(duì)I/O虛擬化技術(shù)進(jìn)行總結(jié),詳見(jiàn)表1:

表1 不同I/O虛擬化方式對(duì)比

I/O虛擬化方式 VM的兼容性 性能 成本 擴(kuò)展性
設(shè)備接口軟件模擬 重用已有驅(qū)動(dòng) 頻繁的上下文切換 沒(méi)有額外硬件成本 受設(shè)備模擬的性能代價(jià)約束
類虛擬化前后端 需要加載特定驅(qū)動(dòng) 基于共享隊(duì)列的機(jī)制減少了前后端交互 沒(méi)有額外硬件成本 受設(shè)備后端的性能代價(jià)約束
直接分配VT-d 重用設(shè)備驅(qū)動(dòng) 直接訪問(wèn)物理設(shè)備,減少虛擬化開(kāi)銷 需要購(gòu)買額外的較多的硬件 硬件設(shè)備獨(dú)占性,受主板擴(kuò)展槽限制
直接分配SR-IOV 需要加載VF驅(qū)動(dòng) 直接訪問(wèn)物理設(shè)備,減少虛擬化開(kāi)銷 需要購(gòu)買額外的較少的硬件 硬件設(shè)備支持多個(gè)虛擬設(shè)備,擴(kuò)展性較好

2 通用接口Virtio

Virtio旨在提供一套高效的、良好維護(hù)的通用的Linux驅(qū)動(dòng),實(shí)現(xiàn)虛擬機(jī)應(yīng)用和不同Hypervisor實(shí)現(xiàn)的模擬設(shè)備之間標(biāo)準(zhǔn)化的接口。Virtio作為類虛擬化的I/O設(shè)備接口,廣泛應(yīng)用于云計(jì)算虛擬化場(chǎng)景,某種程度上,Virtio已經(jīng)成為事實(shí)上的I/O設(shè)備的接口標(biāo)準(zhǔn)。

在上一節(jié)介紹I/O虛擬化時(shí),Virtio作為I/O類虛擬化技術(shù)做過(guò)介紹。本節(jié)會(huì)略去虛擬化相關(guān)的內(nèi)容,把Virtio作為一個(gè)標(biāo)準(zhǔn)的接口進(jìn)行詳細(xì)的闡述。

2.1 Virtio寄存器

Virtio寄存器有三種類型:設(shè)備狀態(tài)字、功能特征位以及PCIe配置空間。

a. 設(shè)備狀態(tài)字

如表2所示,設(shè)備狀態(tài)字(Device Status Field)標(biāo)識(shí)了初始化序列步驟的完成情況。

表2 設(shè)備狀態(tài)字描述

Bit位置 狀態(tài)字值 定義 描述
0 1 ACKNOWLEDGE 表示操作系統(tǒng)已找到該設(shè)備并將其識(shí)別為有效的Virtio設(shè)備
1 2 DRIVER 表示操作系統(tǒng)已找到該設(shè)備并將其識(shí)別為有效的Virtio設(shè)備
2 4 DRIVER_OK 表示已安裝驅(qū)動(dòng)程序并準(zhǔn)備驅(qū)動(dòng)設(shè)備
3 8 FEATURES_OK 表示驅(qū)動(dòng)程序已確認(rèn)其理解的所有功能,并且功能協(xié)商已完成
4 16 保留位 保留位
5 32 保留位 保留位
6 64 DEVICE_NEEDS_RESET 表示設(shè)備遇到了無(wú)法恢復(fù)的錯(cuò)誤。
7 128 FAILED 表示操作系統(tǒng)出現(xiàn)問(wèn)題,或者驅(qū)動(dòng)和設(shè)備功能不匹配,或者設(shè)備運(yùn)行過(guò)程中出現(xiàn)致命錯(cuò)誤等。

基于設(shè)備狀態(tài)字,Virtio協(xié)議定義并約束了驅(qū)動(dòng)程序必須按照以下順序初始化設(shè)備:

(1)重置設(shè)備。

(2)設(shè)置ACKNOWLEDGE狀態(tài)位,表示OS已發(fā)現(xiàn)此設(shè)備。

(3)設(shè)置DRIVER狀態(tài)位,表示OS知道如何驅(qū)動(dòng)此設(shè)備。

(4)讀取設(shè)備功能位,并將操作系統(tǒng)和驅(qū)動(dòng)程序可以理解的功能位子集寫入設(shè)備。

(5)設(shè)置FEATURES_OK狀態(tài)位。

(6)重新讀取設(shè)備狀態(tài),如果FEATURES_OK讀取結(jié)果依然為1,則表示設(shè)備接受了驅(qū)動(dòng)的功能位子集;否則,如果為0,則表示該設(shè)備不支持驅(qū)動(dòng)的功能子集,該設(shè)備不可用。

(7)執(zhí)行設(shè)備特定的設(shè)置,包括發(fā)現(xiàn)設(shè)備的虛擬隊(duì)列、讀取和可能寫入設(shè)備的virtio配置空間以及填充虛擬隊(duì)列等。

(8)將DRIVER_OK狀態(tài)位設(shè)置為1。此時(shí),設(shè)備初始化完成,設(shè)備處于活動(dòng)狀態(tài)。

(9)如果上述這些步驟中的任何一個(gè)發(fā)生不可恢復(fù)的錯(cuò)誤,驅(qū)動(dòng)程序會(huì)將FAILED狀態(tài)位設(shè)置為1。

b. 功能特征位

每個(gè)Virtio設(shè)備均提供其支持的所有功能對(duì)應(yīng)的功能特征位。在設(shè)備初始化期間,驅(qū)動(dòng)程序?qū)⒆x取此信息并告知設(shè)備它接受的子集。

通過(guò)這種方式可以實(shí)現(xiàn)向前和向后兼容:如果設(shè)備增加了新功能位,則較舊的驅(qū)動(dòng)程序就不會(huì)將該功能位寫回到設(shè)備中(意味著此功能不會(huì)被開(kāi)啟)。同樣,如果驅(qū)動(dòng)程序增加了新的功能,而設(shè)備未提供此功能,則同樣此功能不會(huì)被寫回到設(shè)備(意味著此功能不會(huì)被開(kāi)啟)。

Virtio1.1協(xié)議中的功能位分配如下:

比特位0 – 23:特定設(shè)備類型的功能位;

比特位24 – 37:保留用于擴(kuò)展隊(duì)列和功能協(xié)商機(jī)制的功能位;

比特位38以上:保留功能位以供將來(lái)擴(kuò)展。

c. 配置空間

Virtio over PCI使用的配置空間與標(biāo)準(zhǔn)的PCI配置空間相比,特殊的地方在于其Vendor ID和Device ID。Virtio的Vendor ID為0x1AF4,其Device ID編號(hào)從0x1040-0x107F。

為了跟PCI Capabilities格式兼容,Virtio定義的virtio_pci_cap格式如表3所示。

表3 Virtio的PCI capability結(jié)構(gòu)

Byte 3 Byte 2 Byte 1 Byte 0
0x0 cfg_type cap_len cap_vndr cap_vndr
0x4 padding bar
0x8 offset
0xC Length

其中cfg_type標(biāo)識(shí)virtio_pci_cap類型,共有五種,代表了映射在BAR空間的五組寄存器。virtio_pci_cap類型如表4所示。

表4 Virtio PCI capability類型

類型名稱 ID 描述
VIRTIO_PCI_CAP_COMMON_CFG 1 通用配置
VIRTIO_PCI_CAP_NOTIFY_CFG 2 通知
VIRTIO_PCI_CAP_ISR_CFG 3 ISR狀態(tài)
VIRTIO_PCI_CAP_DEVICE_CFG 4 設(shè)備具體的配置
VIRTIO_PCI_CAP_PCI_CFG 5 PCI配置訪問(wèn)

2.2 Virtqueue交互隊(duì)列

Virtio 1.1引入了Packed Virtqueue的概念,對(duì)應(yīng)的Virtio 1.0的Virtqueue被稱為Split Virtqueue。

如圖3所示,為Virtio1.0的Split Virtqueue結(jié)構(gòu)。Virtqueue由三部分組成:

描述符表

可用的描述符環(huán)

已使用的描述符環(huán)

Virtio 1.0的Split Virtqueue具有一些缺點(diǎn):

如果是虛擬化場(chǎng)景軟件模擬Virtio設(shè)備的話,因?yàn)榉稚⒌臄?shù)據(jù)結(jié)構(gòu),導(dǎo)致Cache利用率較低,每次請(qǐng)求都會(huì)有很多Cache不命中;

如果是硬件實(shí)現(xiàn)的話,每次描述符需要多次設(shè)備DMA訪問(wèn)。

f7e65188-3730-11ed-ba43-dac502259ad0.png

圖3 Virtio 1.0中的Split Virtqueue

如圖4所示,Virtio 1.1引入了Packed Virtqueue的概念。整個(gè)描述符只有一個(gè)數(shù)據(jù)結(jié)構(gòu)。這樣,如果軟件實(shí)現(xiàn)Virtio設(shè)備模擬的話,可以提升描述符交互的Cache命中率。如果硬件實(shí)現(xiàn)的,可以降低設(shè)備DMA的訪問(wèn)次數(shù)。

f7f9c718-3730-11ed-ba43-dac502259ad0.png

圖4 Virtio1.1的Packed Virtqueue

2.3 Virtio交互

驅(qū)動(dòng)和設(shè)備的交互,符合生產(chǎn)者消費(fèi)者模型的數(shù)據(jù)及通知(Notification)的交互行為。驅(qū)動(dòng)把共享隊(duì)列的隊(duì)列項(xiàng)準(zhǔn)備好,通過(guò)寫寄存器的方式通知設(shè)備。設(shè)備收到驅(qū)動(dòng)發(fā)送的通知?jiǎng)t處理隊(duì)列項(xiàng)以及相應(yīng)的數(shù)據(jù)搬運(yùn)工作,結(jié)束后更新隊(duì)列狀態(tài)并通知(設(shè)備通知驅(qū)動(dòng)是通過(guò)中斷)驅(qū)動(dòng)。驅(qū)動(dòng)接收到中斷通知時(shí)候,把已經(jīng)使用的隊(duì)列項(xiàng)釋放,并更新隊(duì)列狀態(tài)。

一個(gè)典型的通用的驅(qū)動(dòng)和設(shè)備的交互流程如圖5所示。Virtio場(chǎng)景的驅(qū)動(dòng)和設(shè)備交互,驅(qū)動(dòng)給設(shè)備的通知(Notification)稱為Kick,設(shè)備給驅(qū)動(dòng)的通知稱為Interrupt(中斷)。Kick和Interrupt操作是Virtio接口的一部分,在虛擬化場(chǎng)景,Kick和Interrupt需要非常大的CPU切換代價(jià)。驅(qū)動(dòng)希望在Kick之前產(chǎn)生盡可能多的待處理緩沖項(xiàng)(一個(gè)緩沖項(xiàng)對(duì)應(yīng)一個(gè)描述符和描述符指向的數(shù)據(jù)塊);同樣的,設(shè)備希望處理盡可能多的緩沖項(xiàng)然后再發(fā)送一個(gè)中斷。通過(guò)盡量處理更多的緩沖項(xiàng)的方式,來(lái)攤薄通知的代價(jià)。

這種策略是一種理想狀態(tài),因?yàn)榇蠖鄶?shù)時(shí)候驅(qū)動(dòng)并不知道下一組緩沖項(xiàng)何時(shí)帶來(lái),因此不得不每一組緩沖項(xiàng)準(zhǔn)備好之后就必須要Kick設(shè)備。同樣的,設(shè)備在處理完相應(yīng)的緩沖項(xiàng)之后,就盡快的發(fā)送中斷給驅(qū)動(dòng),以達(dá)到盡可能小的延遲。

f80e124a-3730-11ed-ba43-dac502259ad0.png

圖5 Virtio驅(qū)動(dòng)和設(shè)備交互示意圖

如圖6所示,在設(shè)備模擬的虛擬化場(chǎng)景下,驅(qū)動(dòng)可以暫時(shí)禁用中斷,設(shè)備也可以暫時(shí)禁用Kick。通過(guò)這樣的機(jī)制,可以最大限度的減少通知的代價(jià),并且不影響性能和延遲。Virtio 1.1支持兩種通知抑制機(jī)制,因此共有三種模式:

使能通知模式:完全無(wú)抑制,使能通知;

禁用通知模式:如圖6所示,可以完全禁止對(duì)方發(fā)通知給自己;

使能特定的描述符通知模式:告知對(duì)方一個(gè)特定的描述符,當(dāng)對(duì)方順序處理到此描述符處理完成時(shí)產(chǎn)生通知。

f82a0d6a-3730-11ed-ba43-dac502259ad0.png

圖6 通過(guò)前后端禁用抑制通知的Virtio驅(qū)動(dòng)和設(shè)備交互

2.4 總結(jié)

如圖7,Virtio基于分層的設(shè)計(jì)思想,定義了三層Virtio設(shè)備架構(gòu):

最下層的總線接口。PCI是最常用的Virtio場(chǎng)景使用的總線,但Virtio協(xié)議不僅僅支持PCI,也支持MMIO和Channel IO等。

通用的Virtio交互接口。包括Virtqueue、功能特征位、配置空間等。Virtio交互接口是Virtio最核心的功能,通過(guò)Virtio交互接口實(shí)現(xiàn)了不同類型設(shè)備的標(biāo)準(zhǔn)化。

上層的特定設(shè)備接口。在Virtio協(xié)議里,定義網(wǎng)絡(luò)、塊、控制臺(tái)、SCSI、GPU等各種不同類型的設(shè)備。

f841c11c-3730-11ed-ba43-dac502259ad0.png

圖7 分層的Virtio框架圖

Virtio的優(yōu)點(diǎn)體現(xiàn)在:

Virtio實(shí)現(xiàn)了盡可能多的設(shè)計(jì)共享。這樣,在開(kāi)發(fā)的時(shí)候就可以復(fù)用很多軟件和硬件資源,達(dá)到快速開(kāi)發(fā)的目的。

Virtio實(shí)現(xiàn)了接口的標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化體現(xiàn)在兩個(gè)方面:

(1)一個(gè)是通用的Virtio交互接口,統(tǒng)一了不同的設(shè)備類型軟硬件交互;

(2)另一個(gè)是基于Virtio的Virtio-net、Virtio-block等廣泛應(yīng)用于云計(jì)算虛擬化場(chǎng)景,Virtio已經(jīng)成為事實(shí)上的標(biāo)準(zhǔn)I/O接口。

而Virtio的缺點(diǎn),則同樣因?yàn)閂irtio實(shí)現(xiàn)了接口的標(biāo)準(zhǔn)化,而忽略了不同設(shè)備類型數(shù)據(jù)傳輸?shù)奶攸c(diǎn)。因此,在一些大數(shù)據(jù)量傳輸?shù)膱?chǎng)景,效率比較低下。如果是在類似HPC這樣的性能和延遲非常敏感的場(chǎng)景,Virtio就不是一個(gè)很好的選擇。

3 虛擬化卸載

虛擬化卸載指的是計(jì)算機(jī)虛擬化中消耗CPU資源較多的接口設(shè)備模擬、熱遷移、虛擬化管理等任務(wù)的卸載。

a. 接口設(shè)備的卸載

前面我們介紹了網(wǎng)絡(luò)、遠(yuǎn)程存儲(chǔ)等IO工作任務(wù)的卸載,而虛擬化卸載主要指的是跟IO相關(guān)的接口設(shè)備的卸載,例如網(wǎng)絡(luò)、存儲(chǔ)等接口設(shè)備的卸載。IO接口設(shè)備的卸載本身上也是IO硬件虛擬化的過(guò)程,比如我們通過(guò)VT-d技術(shù)實(shí)現(xiàn)從VM中pass though訪問(wèn)硬件設(shè)備,某種程度上也可以認(rèn)為是把運(yùn)行在Hypervisor中的模擬設(shè)備 “卸載”到了硬件。因此,IO接口設(shè)備的卸載本質(zhì)上和IO設(shè)備硬件虛擬化是一件事情。

如圖8,為了實(shí)現(xiàn)設(shè)備接口的標(biāo)準(zhǔn)化、加速IO處理的性能以及潛在的充分利用現(xiàn)有的虛擬化生態(tài)(例如更好的支持設(shè)備熱遷移)等原因,阿里云在神龍芯片里實(shí)現(xiàn)了硬件的Virtio接口設(shè)備,通過(guò)Virtio接口設(shè)備支持Virtio-net網(wǎng)絡(luò)驅(qū)動(dòng)和Virtio-blk存儲(chǔ)驅(qū)動(dòng)等,實(shí)現(xiàn)了類虛擬化IO設(shè)備Virtio的硬件“卸載”。

f84d4f00-3730-11ed-ba43-dac502259ad0.png

圖8 阿里云神龍芯片網(wǎng)絡(luò)和存儲(chǔ)接口示意圖

AWS的NITRO系統(tǒng)支持網(wǎng)絡(luò)、本地存儲(chǔ)和遠(yuǎn)程存儲(chǔ),NITRO實(shí)現(xiàn)了網(wǎng)絡(luò)接口設(shè)備ENA/EFA(AWS自定義接口)的硬件“卸載”以及存儲(chǔ)接口設(shè)備NVMe(遠(yuǎn)程存儲(chǔ)EBS使用的是NVMe接口,本地存儲(chǔ)也是NVMe接口)的卸載。

b. 接口設(shè)備卸載后的遷移問(wèn)題

當(dāng)把設(shè)備“卸載”到硬件,讓VM直接訪問(wèn)硬件設(shè)備,這使得VM的設(shè)備熱遷移變的非常有挑戰(zhàn)。vDPA(vhost Data Path Acceleration,vhost數(shù)據(jù)路徑加速,其中vhost是Virtio后端設(shè)備模擬的輪詢方式實(shí)現(xiàn))實(shí)現(xiàn)了一種折中的解決方案,如圖9所示,vDPA把Virtio分為了控制面和數(shù)據(jù)面:

控制面。vDPA控制面依然是通過(guò)要經(jīng)過(guò)Hypervisor的處理,用于設(shè)備和VM之間的配置更改和功能協(xié)商,用于建立和終止數(shù)據(jù)面。

數(shù)據(jù)面。vDPA數(shù)據(jù)面包括共享隊(duì)列以及相應(yīng)的通知機(jī)制,用于在設(shè)備和VM之間傳輸實(shí)際的數(shù)據(jù)。

f8607184-3730-11ed-ba43-dac502259ad0.png

圖9 vDPA框架示意圖

使用vDPA一個(gè)重要原因是,在熱遷移的時(shí)候可以很方便的把Virtio數(shù)據(jù)面的處理切換回傳統(tǒng)的Virtio/Vhost后端設(shè)備模擬。這樣,可以充分利用現(xiàn)有的基于KVM/Qemu對(duì)Virtio設(shè)備遷移的解決方案來(lái)完成設(shè)備的遷移。

c. 虛擬化管理的卸載

從軟件虛擬化進(jìn)化到硬件虛擬化的過(guò)程,本身就可以看作是一個(gè)硬件加速以及硬件卸載的過(guò)程。我們逐步的剝離了Hypervisor的功能,比如通過(guò)VT-x技術(shù)“卸載”了Hypervisor的CPU/內(nèi)存等的軟件模擬,以及通過(guò)VT-d以及vDPA等技術(shù)“卸載”了設(shè)備軟件模擬。這些剝離,使得Hypervisor越來(lái)越輕量,整個(gè)系統(tǒng)的虛擬化開(kāi)銷也越來(lái)越少。進(jìn)一步的,我們可以把虛擬化的管理(例如Linux平臺(tái)主流的管理程序Libvirt)卸載到硬件中的嵌入式軟件運(yùn)行。

如圖10, 我們通過(guò)橋接的方式,實(shí)現(xiàn)主機(jī)軟件和硬件中嵌入式軟件通信機(jī)制。把虛擬化管理等軟件任務(wù)從主機(jī)卸載到嵌入式系統(tǒng)(依然有很小一部分任務(wù)無(wú)法卸載,如虛擬機(jī)資源分配、vCPU調(diào)度等)。這樣,可以把幾乎100%的主機(jī)資源提供給用戶,使用戶虛擬機(jī)得到近乎物理機(jī)的性能。

f872be7a-3730-11ed-ba43-dac502259ad0.png

圖10 虛擬化管理卸載圖

通過(guò)虛擬化管理卸載到硬件中的嵌入式CPU軟件,我們可以做到物理上的業(yè)務(wù)和管理分離,整個(gè)業(yè)務(wù)主機(jī)跟云計(jì)算管理網(wǎng)絡(luò)安全的隔離,只能通過(guò)特定的接口訪問(wèn)到Lite Hypervisor,除此之外,不能訪問(wèn)主機(jī)的任何資源。這樣,即使有潛在的運(yùn)維操作失誤,也無(wú)法對(duì)業(yè)務(wù)主機(jī)造成影響。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 接口
    +關(guān)注

    關(guān)注

    33

    文章

    8353

    瀏覽量

    150508
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7286

    瀏覽量

    87516
  • 虛擬化
    +關(guān)注

    關(guān)注

    1

    文章

    356

    瀏覽量

    29735

原文標(biāo)題:I/O虛擬化及Virtio接口介紹

文章出處:【微信號(hào):阿寶1990,微信公眾號(hào):阿寶1990】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    LabVIEW的I/O接口設(shè)備驅(qū)動(dòng)

    虛擬儀器系統(tǒng)的硬件平臺(tái)由i/o接口設(shè)備和計(jì)算機(jī)構(gòu)成,為了能使計(jì)算機(jī)能夠?qū)?b class='flag-5'>i/o
    發(fā)表于 11-18 11:04 ?1.3w次閱讀
    LabVIEW的<b class='flag-5'>I</b>/<b class='flag-5'>O</b><b class='flag-5'>接口</b>設(shè)備驅(qū)動(dòng)

    virtio I/O通信流程及設(shè)備框架的實(shí)現(xiàn)

    virtio 是一種通用的半虛擬I/O 通信協(xié)議,提供了一套前后端 I/
    的頭像 發(fā)表于 03-10 13:37 ?6240次閱讀

    StratoVirt 中的虛擬網(wǎng)卡是如何實(shí)現(xiàn)的?

    基于 virtio 協(xié)議的半虛擬框架來(lái)實(shí)現(xiàn)前后端通信。Virtio 協(xié)議是一種在半虛擬場(chǎng)景中
    發(fā)表于 08-10 11:16

    基于Intel I/O處理器的虛擬磁帶庫(kù)設(shè)計(jì)

    本文介紹了一種基于Intel 公司高性能I/O 處理器的虛擬磁帶庫(kù)系統(tǒng)設(shè)計(jì)方法。在分析了虛擬磁帶庫(kù)功能架構(gòu)的基礎(chǔ)上,結(jié)合Intel 公司
    發(fā)表于 08-29 08:17 ?11次下載

    硬件在環(huán)(HIL)測(cè)試系統(tǒng)對(duì)I/O接口的選擇

     本教程討論了多種I/O接口選項(xiàng),能夠用于實(shí)時(shí)處理器創(chuàng)建您的硬件在環(huán)測(cè)試系統(tǒng)。 高性能模塊I/O
    發(fā)表于 06-19 08:27 ?3389次閱讀
    硬件在環(huán)(HIL)測(cè)試系統(tǒng)對(duì)<b class='flag-5'>I</b>/<b class='flag-5'>O</b><b class='flag-5'>接口</b>的選擇

    I/O接口介紹_田老師的PIC單片機(jī)教案3

    I/O接口介紹_田老師的PIC單片機(jī)教案3,快來(lái)下載吧
    發(fā)表于 09-01 18:17 ?0次下載

    新唐科技超級(jí) I/O 系列介紹

    新唐超級(jí)I/O(Super I/O)系列芯片,被廣泛的使用在主板、工業(yè)計(jì)算機(jī)、一體機(jī)(AIO)以及工作站上。除了傳統(tǒng)輸出入的功能, 例如串口、打印機(jī)
    的頭像 發(fā)表于 02-04 09:51 ?1847次閱讀
    新唐科技超級(jí) <b class='flag-5'>I</b>/<b class='flag-5'>O</b> 系列<b class='flag-5'>介紹</b>

    系統(tǒng)虛擬技術(shù)virtio總體設(shè)計(jì)思想

    ,主要有計(jì)算資源,存儲(chǔ)資源和網(wǎng)絡(luò)資源。所以,系統(tǒng)虛擬技術(shù)又可以細(xì)分為計(jì)算虛擬,存儲(chǔ)虛擬和網(wǎng)
    的頭像 發(fā)表于 05-07 15:40 ?4755次閱讀
    系統(tǒng)<b class='flag-5'>虛擬</b><b class='flag-5'>化</b>技術(shù)<b class='flag-5'>virtio</b>總體設(shè)計(jì)思想

    I/O軟件模擬虛擬和類虛擬

    I/O虛擬是SmartNIC/DPU/IPU中最核心的部分,AWS NITRO就是從I/O硬件
    的頭像 發(fā)表于 10-13 11:09 ?2532次閱讀

    什么是I/O接口,單片機(jī)常用接口芯片介紹

    單板機(jī):將CPU芯片、存儲(chǔ)器芯片、I/O接口芯片和簡(jiǎn)單的I/O設(shè)備(小鍵盤、LED顯示器)等裝配在一起印刷電路板上,再配上監(jiān)控程序(固化在R
    發(fā)表于 02-05 11:35 ?6615次閱讀

    探究I/O虛擬Virtio接口技術(shù)(上)

    I/O虛擬是SmartNIC/DPU/IPU中最核心的部分,AWS NITRO就是從I/O硬件
    的頭像 發(fā)表于 04-04 16:54 ?3692次閱讀
    探究<b class='flag-5'>I</b>/<b class='flag-5'>O</b><b class='flag-5'>虛擬</b><b class='flag-5'>化</b>及<b class='flag-5'>Virtio</b><b class='flag-5'>接口</b>技術(shù)(上)

    探究I/O虛擬Virtio接口技術(shù)(下)

    I/O虛擬是SmartNIC/DPU/IPU中最核心的部分,AWS NITRO就是從I/O硬件
    的頭像 發(fā)表于 04-04 17:03 ?2556次閱讀
    探究<b class='flag-5'>I</b>/<b class='flag-5'>O</b><b class='flag-5'>虛擬</b><b class='flag-5'>化</b>及<b class='flag-5'>Virtio</b><b class='flag-5'>接口</b>技術(shù)(下)

    VirtIO Networking虛擬網(wǎng)絡(luò)設(shè)備實(shí)現(xiàn)架構(gòu)

    VirtIO 由 Rusty Russell 開(kāi)發(fā),最初是為了支持自己開(kāi)發(fā)的 lguest Hypervisor,其設(shè)計(jì)目標(biāo)是在虛擬環(huán)境下提供與物理設(shè)備相近的 I/
    的頭像 發(fā)表于 05-08 10:48 ?1031次閱讀
    <b class='flag-5'>VirtIO</b> Networking<b class='flag-5'>虛擬</b>網(wǎng)絡(luò)設(shè)備實(shí)現(xiàn)架構(gòu)

    Linux I/O 接口的類型及處理流程

    Linux I/O 接口 Linux I/O 接口可以分為以下幾種類型: 文件
    的頭像 發(fā)表于 11-08 16:43 ?783次閱讀
    Linux <b class='flag-5'>I</b>/<b class='flag-5'>O</b> <b class='flag-5'>接口</b>的類型及處理流程

    panabit加載virtio網(wǎng)卡驅(qū)動(dòng)

    引言:Panabit網(wǎng)絡(luò)流量管理系統(tǒng)是一款強(qiáng)大的企業(yè)級(jí)網(wǎng)絡(luò)管理軟件,它提供了豐富的功能和靈活的配置選項(xiàng)。而virtio網(wǎng)卡作為一種高性能的虛擬網(wǎng)絡(luò)設(shè)備,被廣泛應(yīng)用于各種虛擬平臺(tái)。本文
    的頭像 發(fā)表于 11-17 11:13 ?1008次閱讀