問(wèn)題
最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時(shí)候,沒(méi)有問(wèn)題,過(guò)一會(huì)再訓(xùn)練出現(xiàn)非常卡頓,使用nvidia-smi查看發(fā)現(xiàn),顯示GPU的風(fēng)扇和電源報(bào)錯(cuò):
解決方案
自動(dòng)風(fēng)扇控制
在nvidia論壇有人給出了解決方案,即問(wèn)題的根源可能是風(fēng)扇轉(zhuǎn)速不足使GPU過(guò)熱導(dǎo)致的。
首先開(kāi)啟GPU的persistent mode,再設(shè)置風(fēng)扇的功率,重啟即可生效。其中250代表的是風(fēng)扇的最大功率限制,可以將其設(shè)置為最大,這樣過(guò)熱的時(shí)候風(fēng)扇就會(huì)自動(dòng)加大功率。
sudo nvidia-smi -pm 1
sudo nvidia-smi -pl 250
手動(dòng)風(fēng)扇控制
此外,還可以將GPU風(fēng)扇的手動(dòng)風(fēng)速控制打開(kāi)。方法為:
首先,使用sudo nvidia-xconfig --enable-all-gpus命令打開(kāi)所有g(shù)pu在xserver中的設(shè)置(不使用sudo可能無(wú)權(quán)限寫入新配置)
然后修改配置文件:sudo vim /etc/X11/xorg.conf,在其中的DeviceSection中加入Option “Coolbits” “4”如下圖所示:
如果機(jī)器上有多塊gpu,在第一步命令執(zhí)行后,會(huì)在這個(gè)xorg.conf中出現(xiàn)多個(gè)DeviceSection,都依次執(zhí)行第三步操作
重啟機(jī)器后,命令行執(zhí)行nvidia-settings,會(huì)打開(kāi)設(shè)置界面,在其中的會(huì)顯示所有GPU的設(shè)置選項(xiàng),每個(gè)GPU控制選項(xiàng)下面都有一個(gè)Thermal settings,進(jìn)入后打開(kāi)enable GPU Fan Setting即可對(duì)風(fēng)扇進(jìn)行手動(dòng)風(fēng)速調(diào)整了。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4818瀏覽量
102645 -
gpu
+關(guān)注
關(guān)注
27文章
4639瀏覽量
128472
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論