0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

操作系統(tǒng)的靈魂Linux調(diào)度系統(tǒng)講解

Linux愛好者 ? 來源:職場重生 ? 作者:Alex碼農(nóng)的藝術(shù) ? 2021-03-11 17:05 ? 次閱讀

本文主要是講Linux的調(diào)度系統(tǒng), 由于全部內(nèi)容太多,分三部分來講,調(diào)度可以說是操作系統(tǒng)的靈魂,為了讓CPU資源利用最大化,Linux設(shè)計了一套非常精細(xì)的調(diào)度系統(tǒng),對大多數(shù)場景都進(jìn)行了很多優(yōu)化,系統(tǒng)擴展性強,我們可以根據(jù)業(yè)務(wù)模型和業(yè)務(wù)場景的特點,有針對性的去進(jìn)行性能優(yōu)化,在保證客戶網(wǎng)絡(luò)帶寬前提下,隔離客戶互相之間的干擾影響,提高CPU利用率,降低單位運算成本,提高市場競爭力。歡迎大家相互交流學(xué)習(xí)!

CPU作為計算資源,一直是云計算廠商比拼的核心競爭力,我們的目標(biāo)是合理安排好計算任務(wù),充分提高CPU的利用率,預(yù)留更多空間容錯,增強系統(tǒng)穩(wěn)定性,讓任務(wù)更快執(zhí)行,降低無效功耗,節(jié)約成本,從而提高市場競爭力。

96f8510a-7e2c-11eb-8b86-12bb97331649.png

CPU 實現(xiàn)的抽象邏輯圖

首先,我們有一個自動計數(shù)器。這個自動計數(shù)器會隨著時鐘主頻不斷地自增,來作為我們的 PC 寄存器;

在這個自動計數(shù)器的后面,我們連上一個譯碼器。譯碼器還要同時連著我們通過大量的 D 觸發(fā)器組成的內(nèi)存。

自動計數(shù)器會隨著時鐘主頻不斷自增,從譯碼器當(dāng)中,找到對應(yīng)的計數(shù)器所表示的內(nèi)存地址,然后讀取出里面的 CPU 指令。

讀取出來的 CPU 指令會通過CPU 時鐘的控制,寫入到一個由 D 觸發(fā)器組成的寄存器,也就是指令寄存器當(dāng)中。

在指令寄存器后面,我們可以再跟一個譯碼器。這個譯碼器的作用不再是用于尋址,而是把拿到的指令解析成opcode 和對應(yīng)的操作數(shù)。

當(dāng)我們拿到對應(yīng)的 opcode 和操作數(shù),對應(yīng)的輸出線路就要連接 ALU,開始進(jìn)行各種算術(shù)和邏輯運算。對應(yīng)的計算結(jié)果,則會再寫回到 D 觸發(fā)器組成的寄存器或者內(nèi)存當(dāng)中。

這里整個過程就大概是CPU的一條指令的執(zhí)行過程。為了加快CPU指令的執(zhí)行速度,CPU在發(fā)展過程中做了很多優(yōu)化,例如流水線,分支預(yù)測,超標(biāo)量,Hyper-threading,SIMD,多級cache,NUMA架構(gòu)等, 這里主要關(guān)注Linux的調(diào)度系統(tǒng)。

CPU上下文

Linux 是一個多任務(wù)操作系統(tǒng),它支持遠(yuǎn)大于 CPU 數(shù)量的任務(wù)同時運行。當(dāng)然,這些任務(wù)實際上并不是真的在同時運行,而是因為系統(tǒng)在很短的時間內(nèi),將 CPU 輪流分配給它們,造成多任務(wù)同時運行的錯覺。

而在每個任務(wù)運行前,CPU 都需要知道任務(wù)從哪里加載、又從哪里開始運行,也就是說,需要系統(tǒng)事先幫它設(shè)置好 CPU 寄存器和程序計數(shù)器(Program Counter,PC)。

CPU 寄存器,是 CPU 內(nèi)置的容量小、但速度極快的內(nèi)存。而程序計數(shù)器,則是用來存儲 CPU 正在執(zhí)行的指令位置、或者即將執(zhí)行的下一條指令位置。它們都是 CPU 在運行任何任務(wù)前,必須的依賴環(huán)境,因此也被叫做 CPU 上下文(執(zhí)行環(huán)境):

970a56fc-7e2c-11eb-8b86-12bb97331649.png

而這些保存下來的上下文,會存儲在系統(tǒng)內(nèi)核中(堆棧),并在任務(wù)重新調(diào)度執(zhí)行時再次加載進(jìn)來。這樣就能保證任務(wù)原來的狀態(tài)不受影響,讓任務(wù)看起來還是連續(xù)運行。

在Linux中,內(nèi)核空間和用戶空間是兩種工作模式,操作系統(tǒng)運行在內(nèi)核空間,而用戶態(tài)應(yīng)用程序運行在用戶空間,它們代表不同的級別,而對系統(tǒng)資源具有不同的訪問權(quán)限。

這樣代碼(指令)執(zhí)行存在不同的CPU上下文,而進(jìn)行調(diào)度的時候,要進(jìn)行相應(yīng)的CPU上下文切換,Linux系統(tǒng)存在不同堆棧來保存CPU上下文,系統(tǒng)中每個進(jìn)程都會擁有屬于自己的內(nèi)核棧,而系統(tǒng)中每個CPU都將為中斷處理準(zhǔn)備了兩個獨立的中斷棧,分別是hardirq棧和softirq棧:

Linux系統(tǒng)調(diào)用CPU上下文切換堆棧結(jié)構(gòu):

9763a5ea-7e2c-11eb-8b86-12bb97331649.png

中斷上下文:中斷代碼運行于內(nèi)核空間,中斷上下文即運行中斷代碼所需要的CPU上下文環(huán)境,需要硬件傳遞過來的這些參數(shù),內(nèi)核需要保存的一些其他環(huán)境(主要是當(dāng)前被打斷執(zhí)行的進(jìn)程或其他中斷環(huán)境),這些一般都保存在中斷棧中(x86是獨立的,其他可能和內(nèi)核棧共享,這和具體處理架構(gòu)密切相關(guān)),在中斷結(jié)束后,進(jìn)程仍然可以從原來的狀態(tài)恢復(fù)運行。

進(jìn)程上下文:進(jìn)程是由內(nèi)核來管理和調(diào)度的,進(jìn)程的切換發(fā)生在內(nèi)核態(tài),進(jìn)程的上下文不僅包括了虛擬內(nèi)存、棧、全局變量等用戶空間的資源,還包括了內(nèi)核堆棧、寄存器等內(nèi)核空間的狀態(tài)。

系統(tǒng)調(diào)用上下文:進(jìn)程可以在內(nèi)核空間和用戶空間運行,分別稱為進(jìn)程的用戶態(tài)和進(jìn)程的內(nèi)核態(tài), 從用戶態(tài)到內(nèi)核態(tài)的轉(zhuǎn)變需要通過系統(tǒng)調(diào)用來完成,需要進(jìn)行CPU上下文切換,在執(zhí)行系統(tǒng)調(diào)用時候,需要保存用戶態(tài)的CPU上下文(用戶態(tài)堆棧)到內(nèi)核堆棧,然后加載內(nèi)核態(tài)的CPU上下文。

CPU處理器總處于以下狀態(tài)中的一種:

1、內(nèi)核態(tài),運行于進(jìn)程上下文,內(nèi)核代表進(jìn)程運行于內(nèi)核空間;

2、內(nèi)核態(tài),運行于中斷上下文,內(nèi)核代表硬件運行于內(nèi)核空間;

3、用戶態(tài),運行于用戶空間。

中斷

中斷是由硬件設(shè)備產(chǎn)生的,而它們從物理上說就是電信號,之后,它們通過中斷控制器發(fā)送給CPU,接著CPU判斷收到的中斷來自于哪個硬件設(shè)備(這定義在內(nèi)核中),最后,由CPU發(fā)送給內(nèi)核,內(nèi)核來處理中斷。

979110c0-7e2c-11eb-8b86-12bb97331649.png

硬中斷簡單處理流程:

97d8c7a8-7e2c-11eb-8b86-12bb97331649.png

硬中斷實現(xiàn):中斷控制器+中斷服務(wù)程序

中斷框架設(shè)計(x86):

9803f874-7e2c-11eb-8b86-12bb97331649.png

X86計算機的 CPU 為中斷只提供了兩條外接引腳:NMI 和 INTR。其中 NMI 是不可屏蔽中斷,它通常用于電源掉電和物理存儲器奇偶校驗;INTR是可屏蔽中斷,可以通過設(shè)置中斷屏蔽位來進(jìn)行中斷屏蔽,它主要用于接受外部硬件的中斷信號,這些信號由中斷控制器傳遞給 CPU。當(dāng)前x86 SMP架構(gòu)主流都是采用多級I/O APIC(高級可編程中斷控制器)中斷系統(tǒng)。

Local APIC:主要負(fù)責(zé)傳遞中斷信號到指定的處理器;

I/O APIC:主要是收集來自 I/O 裝置的 Interrupt 信號且在當(dāng)那些裝置需要中斷時發(fā)送信號到本地 APIC;

中斷分類:

中斷可分為同步(synchronous)中斷和異步(asynchronous)中斷:

同步中斷是當(dāng)指令執(zhí)行時由 CPU 控制單元主動產(chǎn)生,之所以稱為同步,是因為只有在一條指令執(zhí)行完畢后 CPU 才會發(fā)出中斷,而不是發(fā)生在代碼指令執(zhí)行期間,比如系統(tǒng)調(diào)用,根據(jù) Intel 官方資料,同步中斷稱為異常(exception),異??煞譃楣收希╢ault)、陷阱(trap)、終止(abort)三類。

異步中斷是指由其他硬件設(shè)備依照 CPU 時鐘信號隨機產(chǎn)生,即意味著中斷能夠在指令之間發(fā)生,例如鍵盤中斷,異步中斷被稱為中斷(interrupt),中斷可分為可屏蔽中斷(Maskable interrupt)和非屏蔽中斷(Nomaskable interrupt)。

非屏蔽中斷(Non-maskable interrupts,即NMI):就像這種中斷類型的字面意思一樣,這種中斷是不可能被CPU忽略或取消的。NMI是在單獨的中斷線路上進(jìn)行發(fā)送的,它通常被用于關(guān)鍵性硬件發(fā)生的錯誤,如內(nèi)存錯誤,風(fēng)扇故障,溫度傳感器故障等。

可屏蔽中斷(Maskable interrupts):這些中斷是可以被CPU忽略或延遲處理的。當(dāng)緩存控制器的外部針腳被觸發(fā)的時候就會產(chǎn)生這種類型的中斷,而中斷屏蔽寄存器就會將這樣的中斷屏蔽掉。我們可以將一個比特位設(shè)置為0,來禁用在此針腳觸發(fā)的中斷。

處理流程:

9b4985c6-7e2c-11eb-8b86-12bb97331649.png

區(qū)別:

9b90af32-7e2c-11eb-8b86-12bb97331649.png

相同點:

1.最后都是由CPU發(fā)送給內(nèi)核,由內(nèi)核去處理;

2.處理程序的流程設(shè)計上是相似的。

不同點:

1.產(chǎn)生源不相同,陷阱、異常是由CPU產(chǎn)生的,而中斷是由硬件設(shè)備產(chǎn)生的;

2.內(nèi)核需要根據(jù)是異常,陷阱,還是中斷調(diào)用不同的處理程序;

3.中斷不是時鐘同步的,這意味著中斷可能隨時到來;陷阱、異常是CPU產(chǎn)生的,所以,它是時鐘同步的;

4.當(dāng)處理中斷時,處于中斷上下文中;處理陷阱、異常時,處于進(jìn)程上下文中。

中斷親和:

在 SMP 體系結(jié)構(gòu)中,我們可以通過系統(tǒng)調(diào)用和一組相關(guān)的宏來設(shè)置 CPU 親和力(CPU affinity),將一個或多個進(jìn)程綁定到一個或多個處理器上運行。中斷在這方面也毫不示弱,也具有相同的特性。中斷親和力是指將一個或多個中斷源綁定到特定的 CPU 上運行;

在 /proc/irq 目錄中,對于已經(jīng)注冊中斷處理程序的硬件設(shè)備,都會在該目錄下存在一個以該中斷號命名的目錄 IRQ# ,IRQ# 目錄下有一個 smp_affinity 文件(SMP 體系結(jié)構(gòu)才有該文件),它是一個 CPU 的位掩碼,可以用來設(shè)置該中斷的親和力, 默認(rèn)值為 0xffffffff,表明把中斷發(fā)送到所有的 CPU 上去處理。如果中斷控制器不支持 IRQ affinity,不能改變此默認(rèn)值,同時也不能關(guān)閉所有的 CPU 位掩碼,即不能設(shè)置成 0x0;

中斷親和好處是,在大量硬件中斷場景,對于文件服務(wù)器、高流量 Web 服務(wù)器這樣的應(yīng)用來說,把不同的網(wǎng)卡 IRQ 均衡綁定到不同的 CPU 上將會減輕某個 CPU 的負(fù)擔(dān),提高多個 CPU 整體處理中斷的能力;對于數(shù)據(jù)庫服務(wù)器這樣的應(yīng)用來說,把磁盤控制器綁到一個 CPU、把網(wǎng)卡綁定到另一個 CPU 將會提高數(shù)據(jù)庫的響應(yīng)時間,優(yōu)化性能。合理的根據(jù)自己的生產(chǎn)環(huán)境和應(yīng)用的特點來平衡 IRQ 中斷有助于提高系統(tǒng)的整體吞吐能力和性能;

Linux系統(tǒng)常見中斷分類

時鐘中斷:時鐘芯片產(chǎn)生,主要工作是處理和時間有關(guān)的所有信息,決定是否執(zhí)行調(diào)度程序以及處理下半部分。和時間有關(guān)的所有信息包括系統(tǒng)時間、進(jìn)程的時間片、延時、使用CPU的時間、各種定時器,進(jìn)程更新后的時間片為進(jìn)程調(diào)度提供依據(jù),然后在時鐘中斷返回時決定是否要執(zhí)行調(diào)度程序。下半部分處理程序是Linux提供的一種機制,它使一部分工作推遲執(zhí)行。時鐘中斷要絕對保證維持系統(tǒng)時間的準(zhǔn)確性,“時鐘中斷”是整個操作系統(tǒng)的脈搏。

NMI中斷:外部硬件通過CPU的 NMI Pin 去觸發(fā)(硬件觸發(fā)),或者軟件向CPU系統(tǒng)總線上投遞一個NMI類型中斷(軟件觸發(fā)),NMI中斷的主要用途有兩個:

用來告知操作系統(tǒng)有硬件錯誤(Hardware Failure),如內(nèi)存錯誤,風(fēng)扇故障,溫度傳感器故障等;

用來做看門狗定時器,檢測CPU死鎖等;

硬件IO中斷:

大多數(shù)硬件外設(shè)IO中斷,比如網(wǎng)卡,鍵盤,硬盤,鼠標(biāo),USB,串口等;

虛擬中斷:

KVM里面一些中斷退出和中斷注入等,軟件模擬中斷;

查看方式:cat /proc/interrupts

Linux系統(tǒng)中斷處理

9e2886a2-7e2c-11eb-8b86-12bb97331649.png

由于中斷會打斷內(nèi)核中進(jìn)程的正常調(diào)度運行,所以要求中斷服務(wù)程序盡可能的短小精悍;但是在實際系統(tǒng)中,當(dāng)中斷到來時,要完成工作往往需要進(jìn)行大量的耗時處理。因此期望讓中斷處理程序運行得快,并想讓它完成的工作量多,這兩個目標(biāo)相互制約,誕生頂/底半部機制。

中斷上半部分:

中斷處理程序是頂半部——接受中斷,它就立即開始執(zhí)行,但只有做嚴(yán)格時限的工作。能夠被允許稍后完成的工作會推遲到底半部去,此后,在合適的時機,底半部會被開終端執(zhí)行。頂半部簡單快速,執(zhí)行時禁止部分或者全部中斷。

中斷下半部分:

底半部稍后執(zhí)行,而且執(zhí)行期間可以響應(yīng)所有的中斷。這種設(shè)計可以使系統(tǒng)處于中斷屏蔽狀態(tài)的時間盡可能的短,以此來提高系統(tǒng)的響應(yīng)能力。頂半部只有中斷處理程序機制,而底半部的實現(xiàn)有軟中斷,tasklet和工作隊列等實現(xiàn)方式;

軟中斷

軟中斷作為下半部機制的代表,是隨著SMP(share memory processor)的出現(xiàn)應(yīng)運而生的,它也是tasklet實現(xiàn)的基礎(chǔ)(tasklet實際上只是在軟中斷的基礎(chǔ)上添加了一定的機制)。軟中斷一般是“可延遲函數(shù)”的總稱,有時候也包括了tasklet(請讀者在遇到的時候根據(jù)上下文推斷是否包含tasklet)。它的出現(xiàn)就是因為要滿足上面所提出的上半部和下半部的區(qū)別,使得對時間不敏感的任務(wù)延后執(zhí)行,而且可以在多個CPU上并行執(zhí)行,使得總的系統(tǒng)效率可以更高。它的特性包括:產(chǎn)生后并不是馬上可以執(zhí)行,必須要等待內(nèi)核的調(diào)度才能執(zhí)行。軟中斷不能被自己打斷(即單個cpu上軟中斷不能嵌套執(zhí)行),只能被硬件中斷打斷(上半部), 可以并發(fā)運行在多個CPU上(即使同一類型的也可以)。所以軟中斷必須設(shè)計為可重入的函數(shù)(允許多個CPU同時操作),因此也需要使用自旋鎖來保護其數(shù)據(jù)結(jié)構(gòu)。

軟中斷的調(diào)度時機:

do_irq完成I/O中斷時調(diào)用irq_exit。

系統(tǒng)使用I/O APIC,在處理完本地時鐘中斷時。

local_bh_enable,即開啟本地軟中斷時。

SMP系統(tǒng)中,cpu處理完被CALL_FUNCTION_VECTOR處理器間中斷所觸發(fā)的函數(shù)時。

ksoftirqd/n線程被喚醒時。

軟中斷內(nèi)核線程

在 Linux 中,中斷具有最高的優(yōu)先級。不論在任何時刻,只要產(chǎn)生中斷事件,內(nèi)核將立即執(zhí)行相應(yīng)的中斷處理程序,等到所有掛起的中斷和軟中斷處理完畢后才能執(zhí)行正常的任務(wù),因此有可能造成實時任務(wù)得不到及時的處理。中斷線程化之后,中斷將作為內(nèi)核線程運行而且被賦予不同的實時優(yōu)先級,實時任務(wù)可以有比中斷線程更高的優(yōu)先級。這樣,具有最高優(yōu)先級的實時任務(wù)就能得到優(yōu)先處理,即使在嚴(yán)重負(fù)載下仍有實時性保證。但是,并不是所有的中斷都可以被線程化,比如時鐘中斷,主要用來維護系統(tǒng)時間以及定時器等,其中定時器是操作系統(tǒng)的脈搏,一旦被線程化,就有可能被掛起,后果將不堪設(shè)想,所以不應(yīng)當(dāng)被線程化。

軟中斷優(yōu)先在 irq_exit() 中執(zhí)行,如果超過時間等條件轉(zhuǎn)為 softirqd 線程中執(zhí)行。滿足以下任一條件軟中斷在 softirqd 線程中執(zhí)行:

在 irq_exit()-》__do_softirq() 中運行,時間超過 2ms。

在 irq_exit()-》__do_softirq() 中運行,輪詢軟中斷超過 10 次。

在 irq_exit()-》__do_softirq() 中運行,本線程需要被調(diào)度。

注:調(diào)用 raise_softirq() 喚醒軟中斷時,不在中斷環(huán)境中。

TASKLET

由于軟中斷必須使用可重入函數(shù),這就導(dǎo)致設(shè)計上的復(fù)雜度變高,作為設(shè)備驅(qū)動程序的開發(fā)者來說,增加了負(fù)擔(dān)。而如果某種應(yīng)用并不需要在多個CPU上并行執(zhí)行,那么軟中斷其實是沒有必要的。因此誕生了彌補以上兩個要求的tasklet。它具有以下特性:

a)一種特定類型的tasklet只能運行在一個CPU上,不能并行,只能串行執(zhí)行。

b)多個不同類型的tasklet可以并行在多個CPU上。

c)軟中斷是靜態(tài)分配的,在內(nèi)核編譯好之后,就不能改變。但tasklet就靈活許多,可以在運行時改變(比如添加模塊時)。

tasklet是在兩種軟中斷類型的基礎(chǔ)上實現(xiàn)的,因此如果不需要軟中斷的并行特性,tasklet就是最好的選擇。也就是說tasklet是軟中斷的一種特殊用法,即延遲情況下的串行執(zhí)行。

tasklet有兩種,tasklet 和 hi-tasklet:

前者對應(yīng)softirq_vec[TASKLET_SOFTIRQ];

后者對應(yīng)softirq_vec[HI_SOFTIRQ]。只是后者排在softirq_vec[]的第一個,所以更早被執(zhí)行;

/proc/softirqs 提供了軟中斷的運行情況

# cat /proc/softirqs CPU0 HI: 1 //高優(yōu)先級TASKLET軟中斷 TIMER: 12571001 //定時器軟中斷 NET_TX: 826165 //網(wǎng)卡發(fā)送軟中斷 NET_RX: 6263015 //網(wǎng)卡接收軟中斷 BLOCK: 1403226 //塊設(shè)備處理軟中斷 BLOCK_IOPOLL: 0 //塊設(shè)備處理軟中斷 TASKLET: 3752 //普通TASKLET軟中斷 SCHED: 0 //調(diào)度軟中斷 HRTIMER: 0 //當(dāng)前已經(jīng)沒有使用 RCU: 9729155 //RCU處理軟中斷,主要是callback函數(shù)處理

工作隊列

9e3ca79a-7e2c-11eb-8b86-12bb97331649.png

工作隊列(work queue)是Linux kernel中將工作推后執(zhí)行的一種機制。軟中斷運行在中斷上下文中,因此不能阻塞和睡眠,而tasklet使用軟中斷實現(xiàn),當(dāng)然也不能阻塞和睡眠,工作隊列可以把工作推后,交由一個內(nèi)核線程去執(zhí)行—這個下半部分總是會在進(jìn)程上下文執(zhí)行,因此工作隊列的優(yōu)勢就在于它允許重新調(diào)度甚至睡眠。

9e5d9dec-7e2c-11eb-8b86-12bb97331649.png

workqueue 中幾個角色關(guān)系:

work :工作/任務(wù)。

workqueue :工作的集合。workqueue 和 work 是一對多的關(guān)系。

worker :工人。在代碼中 worker 對應(yīng)一個work_thread() 內(nèi)核線程。

worker_pool:工人的集合。worker_pool 和 worker 是一對多的關(guān)系。

pwq(pool_workqueue):中間人 / 中介,負(fù)責(zé)建立起 workqueue 和 worker_pool 之間的關(guān)系。workqueue 和 pwq 是一對多的關(guān)系,pwq 和 worker_pool 是一對一的關(guān)系。

通常,在工作隊列和軟中斷/tasklet中作出選擇,可使用以下規(guī)則:

如果推后執(zhí)行的任務(wù)需要睡眠,那么只能選擇工作隊列。

如果推后執(zhí)行的任務(wù)需要延時指定的時間再觸發(fā),那么使用工作隊列,因為其可以利用timer延時(內(nèi)核定時器實現(xiàn))。

如果推后執(zhí)行的任務(wù)需要在一個tick之內(nèi)處理,則使用軟中斷或tasklet,因為其可以搶占普通進(jìn)程和內(nèi)核線程,同時不可睡眠。

如果推后執(zhí)行的任務(wù)對延遲的時間沒有任何要求,則使用工作隊列,此時通常為無關(guān)緊要的任務(wù)。

實際上,工作隊列的本質(zhì)就是將工作交給內(nèi)核線程處理,因此其可以用內(nèi)核線程替換。但是內(nèi)核線程的創(chuàng)建和銷毀對編程者的要求較高,而工作隊列實現(xiàn)了內(nèi)核線程的封裝,不易出錯,推薦使用工作隊列。

中斷上下文

中斷代碼運行于內(nèi)核空間,中斷上下文即運行中斷代碼所需要CPU上下文環(huán)境,需要硬件傳遞過來的這些參數(shù),內(nèi)核需要保存的一些其他環(huán)境(主要是當(dāng)前被打斷執(zhí)行的進(jìn)程或其他中斷環(huán)境),這些一般都保存在中斷棧中(x86是獨立的,其他可能和內(nèi)核棧共享,這和具體處理架構(gòu)密切相關(guān)),在中斷結(jié)束后,進(jìn)程仍然可以從原來的狀態(tài)恢復(fù)運行。

是否處于中斷中,在Linux中是通過preempt_count來判斷的,具體如下:

9eb10acc-7e2c-11eb-8b86-12bb97331649.png

#define in_irq() (hardirq_count()) //在處理硬中斷中

#define in_softirq() (softirq_count()) //在處理軟中斷中

#define in_interrupt() (irq_count()) //在處理硬中斷或軟中斷中

#define in_atomic() ((preempt_count() & ~PREEMPT_ACTIVE) != 0) //包含以上所有情況

總結(jié)和注意的點:

1.Linux kernel的設(shè)計者制定了規(guī)則:

中斷上下文不是調(diào)度實體,task才是【進(jìn)程(主線程)或者線程】;

優(yōu)先級順序:硬中斷上下文 》 軟中斷上下文 》 進(jìn)程上下文 ;

中斷上下文(hardirq和softirq context)并不參與調(diào)度(暫不考慮中斷線程化),它們是異步事件的處理機制,目標(biāo)就是盡快完成處理,返回現(xiàn)場。因此,所有中斷上下文的優(yōu)先級都是高于進(jìn)程上下文的。也就是說,對于用戶進(jìn)程(無論內(nèi)核態(tài)還是用戶態(tài))或者內(nèi)核線程,除非disable了CPU的本地中斷,否則一旦中斷發(fā)生,它們是沒有任何能力阻擋中斷上下文搶占當(dāng)前進(jìn)程上下文的執(zhí)行的。

2.Linux 將中斷處理過程分成了兩個階段,也就是上半部和下半部:

上半部用來快速處理中斷,它在中斷禁止模式下運行,主要處理跟硬件緊密相關(guān)的或時間敏感的工作,需要快速執(zhí)行;

下半部用來延遲處理上半部未完成的工作,通常以軟中斷方式運行,可以延遲執(zhí)行。

3. 硬中斷和軟中斷(只要是中斷上下文)執(zhí)行的時候都不允許內(nèi)核搶占(本文后續(xù)章節(jié)會講內(nèi)核搶占)。因為在中斷上下文中,唯一能打斷當(dāng)前中斷handler的只有更高優(yōu)先級的中斷,它不會被進(jìn)程打斷(這點對于softirq,tasklet也一樣,因此這些bottom half也不能睡眠);如果在中斷上下文中睡眠,則沒有辦法喚醒它,因為所有的wake_up_xxx都是針對某個進(jìn)程而言的,而在中斷上下文中,沒有進(jìn)程的概念,沒有相應(yīng)task_struct(這點對于softirq和tasklet一樣),因此真的睡眠了,比如調(diào)用了會導(dǎo)致阻塞的例程,內(nèi)核幾乎會掛。

4.硬中斷可以被另一個優(yōu)先級比自己高的硬中斷“中斷”,不能被同級(同一種硬中斷)或低級的硬中斷“中斷”,更不能被軟中斷“中斷”。軟中斷可以被硬中斷“中斷”,但是不會被另一個軟中斷“中斷”。在一個CPU上,軟中斷總是串行執(zhí)行。所以在單處理器上,對軟中斷的數(shù)據(jù)結(jié)構(gòu)進(jìn)行訪問不需要加任何同步原語。

5.關(guān)中斷不會丟失中斷,但是對于期間到來的多個相同的中斷會合并成一個,即只處理一次;時鐘中斷中需要更新jieffis計數(shù)值,如果多個中斷合成一個,為了減少影響jieffis值準(zhǔn)確性,需要其他硬件時鐘來矯正。

本期結(jié)束,我們下期再見?。?/p>

原文標(biāo)題:Linux 調(diào)度系統(tǒng)全景指南(上篇)

文章出處:【微信公眾號:Linux愛好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Linux
    +關(guān)注

    關(guān)注

    87

    文章

    11180

    瀏覽量

    208503

原文標(biāo)題:Linux 調(diào)度系統(tǒng)全景指南(上篇)

文章出處:【微信號:LinuxHub,微信公眾號:Linux愛好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    linux操作系統(tǒng)安裝步驟 linux操作系統(tǒng)的特點及組成

    Linux操作系統(tǒng)安裝步驟 Linux操作系統(tǒng)是一種開源的操作系統(tǒng),它以其穩(wěn)定性、安全性和靈活性而聞名。以下是安裝
    的頭像 發(fā)表于 10-21 11:24 ?181次閱讀

    使用CSL來補充操作系統(tǒng)調(diào)度程序處理級聯(lián)中斷

    電子發(fā)燒友網(wǎng)站提供《使用CSL來補充操作系統(tǒng)調(diào)度程序處理級聯(lián)中斷.pdf》資料免費下載
    發(fā)表于 10-16 10:12 ?0次下載
    使用CSL來補充<b class='flag-5'>操作系統(tǒng)</b><b class='flag-5'>調(diào)度</b>程序處理級聯(lián)中斷

    深入探討Linux的進(jìn)程調(diào)度

    Linux操作系統(tǒng)作為一個開源且廣泛應(yīng)用的操作系統(tǒng),其內(nèi)核設(shè)計包含了許多核心功能,而進(jìn)程調(diào)度器(Scheduler)就是其中一個至關(guān)重要的模塊。進(jìn)程
    的頭像 發(fā)表于 08-13 13:36 ?856次閱讀
    深入探討<b class='flag-5'>Linux</b>的進(jìn)程<b class='flag-5'>調(diào)度</b>器

    嵌入式實時操作系統(tǒng):Intewell操作系統(tǒng)與VxWorks操作系統(tǒng)有啥區(qū)別

    Intewell操作系統(tǒng)和VxWorks操作系統(tǒng)都是工業(yè)領(lǐng)域常用的操作系統(tǒng),它們各有特點和優(yōu)勢。以下是它們之間的一些主要區(qū)別:
    的頭像 發(fā)表于 07-08 14:16 ?292次閱讀
    嵌入式實時<b class='flag-5'>操作系統(tǒng)</b>:Intewell<b class='flag-5'>操作系統(tǒng)</b>與VxWorks<b class='flag-5'>操作系統(tǒng)</b>有啥區(qū)別

    工業(yè)實時操作系統(tǒng)對比:鴻道Intewell跟rt-linux有啥區(qū)別

    Intewell和RT-Linux是兩種不同的實時操作系統(tǒng)(RTOS),它們具有各自獨特的特點和優(yōu)勢。以下是Intewell操作系統(tǒng)的一些關(guān)鍵特性,以及與RT-Linux的比較:
    的頭像 發(fā)表于 07-03 10:00 ?355次閱讀
    工業(yè)實時<b class='flag-5'>操作系統(tǒng)</b>對比:鴻道Intewell跟rt-<b class='flag-5'>linux</b>有啥區(qū)別

    研華工控機用什么系統(tǒng)?Windows與Linux操作系統(tǒng)的較量

    工控機用什么系統(tǒng)?Windows與Linux操作系統(tǒng)的較量。工控機(工業(yè)控制計算機)作為工業(yè)自動化和監(jiān)控系統(tǒng)的核心組件,其穩(wěn)定性、可靠性和性能對整個
    的頭像 發(fā)表于 06-14 14:38 ?581次閱讀
    研華工控機用什么<b class='flag-5'>系統(tǒng)</b>?Windows與<b class='flag-5'>Linux</b><b class='flag-5'>操作系統(tǒng)</b>的較量

    AURIX3G可以使用Linux操作系統(tǒng)嗎?

    即使在 AURIX3G 中,也可以使用 Linux 操作系統(tǒng)嗎?
    發(fā)表于 05-22 07:12

    Linux操作系統(tǒng)上的射頻測試模式應(yīng)用指南

    電子發(fā)燒友網(wǎng)站提供《Linux操作系統(tǒng)上的射頻測試模式應(yīng)用指南.pdf》資料免費下載
    發(fā)表于 02-19 09:39 ?0次下載
    <b class='flag-5'>Linux</b><b class='flag-5'>操作系統(tǒng)</b>上的射頻測試模式應(yīng)用指南

    Linux操作系統(tǒng)中如何按下PCIe的復(fù)位鍵

    Linux操作系統(tǒng)中,看如何按下PCIe的復(fù)位鍵
    的頭像 發(fā)表于 01-20 09:31 ?1323次閱讀
    <b class='flag-5'>Linux</b><b class='flag-5'>操作系統(tǒng)</b>中如何按下PCIe的復(fù)位鍵

    LInux 操作系統(tǒng)中斷介紹

    LInux 操作系統(tǒng)中斷 什么是系統(tǒng)中斷 這個沒啥可說的,大家都知道; CPU 在執(zhí)行任務(wù)途中接收到中斷請求,需要保存現(xiàn)場后去處理中斷請求!保存現(xiàn)場稱為中斷處理程序!處理中斷請求也就是喚醒對應(yīng)的任務(wù)
    的頭像 發(fā)表于 11-13 11:36 ?821次閱讀
    <b class='flag-5'>LInux</b> <b class='flag-5'>操作系統(tǒng)</b>中斷介紹

    什么是LInux 操作系統(tǒng)中斷

    LInux 操作系統(tǒng)中斷 什么是系統(tǒng)中斷 這個沒啥可說的,大家都知道; CPU 在執(zhí)行任務(wù)途中接收到中斷請求,需要保存現(xiàn)場后去處理中斷請求!保存現(xiàn)場稱為中斷處理程序!處理中斷請求也就是喚醒對應(yīng)的任務(wù)
    的頭像 發(fā)表于 11-10 11:29 ?539次閱讀
    什么是<b class='flag-5'>LInux</b> <b class='flag-5'>操作系統(tǒng)</b>中斷

    linux屬于什么操作系統(tǒng)

    Linux屬于一種類UNIX操作系統(tǒng)。Linux,全稱GNU/Linux,是一套免費使用和自由傳播的類Unix操作系統(tǒng),是一個基于POSIX
    的頭像 發(fā)表于 11-08 11:01 ?3903次閱讀

    有無操作系統(tǒng)的嵌入式Linux驅(qū)動設(shè)備有何區(qū)別?

    有無操作系統(tǒng)的嵌入式Linux驅(qū)動設(shè)備有何區(qū)別? 嵌入式系統(tǒng)是指集成電子設(shè)備上的計算機系統(tǒng),通常用于控制、監(jiān)測、操作或處理某些物理或機械過程
    的頭像 發(fā)表于 10-29 17:29 ?658次閱讀

    實時操作系統(tǒng)的滴答Tick設(shè)置多少才合適?

    實時操作系統(tǒng)的滴答Tick設(shè)置多少才合適? 介紹實時操作系統(tǒng)中Tick的設(shè)置。 在實時操作系統(tǒng)中,Tick是指操作系統(tǒng)的時間基準(zhǔn),它是操作系統(tǒng)
    的頭像 發(fā)表于 10-29 16:33 ?790次閱讀

    開源操作系統(tǒng)大全

    開源操作系統(tǒng)即公開源代碼的操作系統(tǒng)軟件,它遵循開源協(xié)議使用、編譯和發(fā)布。自由和開放源代碼軟件中最著名的是 Linux ,它是一種類 Unix 的操作系統(tǒng)
    發(fā)表于 10-27 15:13