PVE 虛擬機添加 PCI 設備的問題求助

2024-03-13 18:17:41 +08:00
 MiKing233
簡單講一下基本情況
OS: Proxmox VE 8.1.4 x86_64
Kernel: 6.5.13-1-pve
CPU: AMD Ryzen 7 7840HS w/ Radeon 780M Graphics (16) @ 5.293GHz
GPU: AMD ATI c5:00.0 Phoenix1

現在遇到一個非常不解的情況是,虛擬機添加 PCI 設備之後就無法再啓動,一直卡在啓動轉圈,强制停掉之後 CPU 功耗和溫度都會很高一直不下來,但是 CPU 又沒有負載,這種情況下如果重啓就會死掉沒辦法再起來只能拔電開機

沒有執行實例時的功耗和溫度如下


開啓一個實例后

此時不包含 PCI 設備,啓動正常


關機,嘗試添加 GPU




然後再開機,此時虛擬機無法正常啓動
點擊啓動第一次會報錯,再點擊第二次則進入無盡的轉圈圈


此時查看 CPU 功耗和溫度


强制終止掉轉圈圈的 VM103 啓動任務,功耗仍然不回落,并且整個系統不存在負債功耗卻很高

最讓我不理解的是,當前情況下 reboot PVE 100%會徹底死掉起不來

ping 可以通,但是 ssh 連接不上,通過插座功率可以發現功率仍然維持在 max

得通過拔電再開機才可以

嘗試過重裝 PVE 問題依舊,不只是添加 GPU 才會這樣,只要添加了任何 PCI 設備都會造成這種情況
1328 次点击
所在节点    程序员
10 条回复
ltkun
2024-03-13 19:32:11 +08:00
这不应该去 proxmox 的论坛 估计 amd 的主板还是没有经过充分测试 某些驱动不兼容吧 我上次遇到 10g 网卡不能 ping 外网的 bug 结果换个卡就 ok
yyzh
2024-03-13 20:02:07 +08:00
核显直通没你想的那么简单的。
新手还是直接上一件脚本吧
https://bbs.x86pi.cn/thread?topicId=20
Jirajine
2024-03-13 20:33:51 +08:00
你不会觉得 GPU 直通和 usb 直通一样简单吧。
https://wiki.archlinux.org/title/PCI_passthrough_via_OVMF#Setting_up_IOMMU
ZxykM
2024-03-13 22:16:03 +08:00
AMD 的核显 GPU 直通我记得挺麻烦的,没有 INTEL 那么简单
bt7vip
2024-03-13 22:19:48 +08:00
proxmox 有专门的页面讲 PCI 直通,也可以用上面的脚本,PVE 还没做到点点就能用,很多场景要提前做好环境修改和检查。
FrankAdler
2024-03-14 00:39:27 +08:00
你留意添加界面的设备的 ID:0000:C5:00:0.1-4 ,这些设备都是一组的,PVE 里是无法单独分配一个给虚拟机的,只能一组整体分配,然后部分设备宿主机还在使用?虽然无法搞明白内部的资源抢夺,但是这么割裂肯定是有问题的。
然而我的 G5420 ,核显的 ID 组就是独立的,就可以正常添加。
FrankAdler
2024-03-14 00:41:47 +08:00
@FrankAdler 比如这样,https://imgur.com/CHJGcXh 我可以分配 WiFi 、核显都是正常使用的。
FrankAdler
2024-03-14 00:45:29 +08:00
MiKing233
2024-03-14 08:49:07 +08:00
@FrankAdler 這個我有注意到,但是我似乎沒法單獨分配,就是我分配了 0000:c5:00.0 ,點確認了之後顯示爲 0000:c5:00,pcie=1 ,然後我再添加 0000:c5:00.1 ,確認了之後還是顯示一樣的 0000:c5:00,pcie=1 ,并且我再點擊編輯裏面顯示的不是我添加的 1 而變成 0 ,另外這個 GPU 資源沒有分配給其他 VM ,我嘗試分配 WIFI 網卡是可以正常使用的,看起來確實是 GPU 的問題
MiKing233
2024-03-14 08:54:38 +08:00
@bt7vip 我修改過的:/etc/default/grub 裏面 GRUB_CMDLINE_LINUX_DEFAULT="quiet amd_iommu=on iommu=pt"
/etc/modules 裏面添加四行:echo -e "vfio\nvfio_iommu_type1\nvfio_pci\nvfio_virqfd" >> /etc/modules
除此之外還有其他地方嗎,我看各種教程講 PVE8.1 也只有改這兩處而已,BIOS 裏面 IOMMU 也已經 enable 了,但是一啓動虛擬機就失敗然後 GPU 滿功耗在跑,關機還關不掉...

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1023355

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX