เรื่องเล่าจาก FLR ถึง Blackwell: เมื่อการรีเซ็ต GPU กลายเป็นจุดล่มของระบบทั้งเครื่อง

CloudRift ซึ่งเป็นผู้ให้บริการ GPU cloud สำหรับงาน AI ได้เปิดเผยบั๊กใหม่ที่เกิดขึ้นกับ Nvidia RTX 5090 และ RTX PRO 6000 ซึ่งเป็น GPU ตระกูล Blackwell รุ่นล่าสุด โดยพบว่าเมื่อมีการใช้งานผ่านระบบ virtualization เช่น KVM และ VFIO แล้วทำการรีเซ็ต GPU ด้วย PCIe FLR (Function-Level Reset) ตัวการ์ดจะ “ไม่กลับมา” และกลายเป็นอุปกรณ์ที่ไม่ตอบสนองใด ๆ

บั๊กนี้เกิดขึ้นหลังจาก VM ปิดตัวหรือมีการย้าย GPU ไปยัง guest ใหม่ ซึ่งตามปกติ FLR จะทำให้ GPU รีเซ็ตตัวเองเพื่อพร้อมใช้งานใหม่ แต่ในกรณีนี้ kernel กลับรายงานว่า “not ready 65535ms after FLR; giving up” และ lspci ก็ไม่สามารถอ่านการ์ดได้อีก โดยแสดง error “unknown header type 7f”

ผลคือ GPU จะเข้าสู่สถานะ “ล่องหน” และไม่สามารถใช้งานได้อีกจนกว่าจะรีบูตเครื่องทั้งหมด ซึ่งเป็นปัญหาใหญ่สำหรับระบบที่มี VM หลายตัวหรือ workload ที่ต้องการ uptime สูง

CloudRift ได้ประกาศตั้ง bug bounty มูลค่า $1,000 สำหรับผู้ที่สามารถหาสาเหตุหรือวิธีแก้ไขได้ และ Tiny Corp ก็ออกมาโพสต์ถามตรง ๆ ว่า “5090s และ PRO 6000 มีปัญหาฮาร์ดแวร์หรือไม่?”

ผู้ใช้ในฟอรัม Proxmox และ Level1Techs ก็รายงานปัญหาเดียวกัน เช่น host ค้างหลังจาก guest ปิดตัว หรือ CPU เกิด soft lock หลัง FLR timeout โดยไม่มีปัญหาใน GPU รุ่นก่อนหน้าอย่าง RTX 4080 หรือ 4090

แม้จะมีการทดลองปรับ PCIe ASPM และ ACS แต่ก็ไม่สามารถแก้ปัญหาได้ และ Nvidia ยังไม่ออกแถลงการณ์หรือแพตช์แก้ไขอย่างเป็นทางการในขณะนี้

ลักษณะของบั๊กใน RTX 5090 และ PRO 6000
เกิดหลังการใช้งาน GPU ผ่าน VM ด้วย KVM และ VFIO
FLR ไม่สามารถรีเซ็ต GPU ได้ ทำให้การ์ดไม่ตอบสนอง
ต้องรีบูตเครื่องทั้งหมดเพื่อให้ GPU กลับมาใช้งานได้

ข้อมูลจาก CloudRift และชุมชนผู้ใช้
CloudRift พบปัญหาในระบบ production และตั้ง bug bounty $1,000
Tiny Corp สงสัยว่าเป็นปัญหาฮาร์ดแวร์
ผู้ใช้ใน Proxmox และ Level1Techs รายงานอาการคล้ายกัน

การเปรียบเทียบกับ GPU รุ่นก่อน
RTX 4090, H100 และ B200 ไม่มีปัญหาแบบเดียวกัน
บั๊กอาจจำกัดอยู่เฉพาะในตระกูล Blackwell รุ่น consumer และ ProViz
การ์ดที่ได้รับผลกระทบไม่สามารถถูก reassigned หลัง FLR

ความสำคัญของ FLR ในระบบ VM
FLR เป็นฟีเจอร์สำคัญในการรีเซ็ตอุปกรณ์ passthrough
หาก FLR ล้มเหลว จะกระทบต่อ multi-tenant workload และ uptime
การล่มของ GPU หนึ่งตัวอาจทำให้ VM ทั้งหมดใน node หยุดทำงาน

https://www.tomshardware.com/pc-components/gpus/rtx-5090-pro-6000-bug-forces-host-reboot
🎙️ เรื่องเล่าจาก FLR ถึง Blackwell: เมื่อการรีเซ็ต GPU กลายเป็นจุดล่มของระบบทั้งเครื่อง CloudRift ซึ่งเป็นผู้ให้บริการ GPU cloud สำหรับงาน AI ได้เปิดเผยบั๊กใหม่ที่เกิดขึ้นกับ Nvidia RTX 5090 และ RTX PRO 6000 ซึ่งเป็น GPU ตระกูล Blackwell รุ่นล่าสุด โดยพบว่าเมื่อมีการใช้งานผ่านระบบ virtualization เช่น KVM และ VFIO แล้วทำการรีเซ็ต GPU ด้วย PCIe FLR (Function-Level Reset) ตัวการ์ดจะ “ไม่กลับมา” และกลายเป็นอุปกรณ์ที่ไม่ตอบสนองใด ๆ บั๊กนี้เกิดขึ้นหลังจาก VM ปิดตัวหรือมีการย้าย GPU ไปยัง guest ใหม่ ซึ่งตามปกติ FLR จะทำให้ GPU รีเซ็ตตัวเองเพื่อพร้อมใช้งานใหม่ แต่ในกรณีนี้ kernel กลับรายงานว่า “not ready 65535ms after FLR; giving up” และ lspci ก็ไม่สามารถอ่านการ์ดได้อีก โดยแสดง error “unknown header type 7f” ผลคือ GPU จะเข้าสู่สถานะ “ล่องหน” และไม่สามารถใช้งานได้อีกจนกว่าจะรีบูตเครื่องทั้งหมด ซึ่งเป็นปัญหาใหญ่สำหรับระบบที่มี VM หลายตัวหรือ workload ที่ต้องการ uptime สูง CloudRift ได้ประกาศตั้ง bug bounty มูลค่า $1,000 สำหรับผู้ที่สามารถหาสาเหตุหรือวิธีแก้ไขได้ และ Tiny Corp ก็ออกมาโพสต์ถามตรง ๆ ว่า “5090s และ PRO 6000 มีปัญหาฮาร์ดแวร์หรือไม่?” ผู้ใช้ในฟอรัม Proxmox และ Level1Techs ก็รายงานปัญหาเดียวกัน เช่น host ค้างหลังจาก guest ปิดตัว หรือ CPU เกิด soft lock หลัง FLR timeout โดยไม่มีปัญหาใน GPU รุ่นก่อนหน้าอย่าง RTX 4080 หรือ 4090 แม้จะมีการทดลองปรับ PCIe ASPM และ ACS แต่ก็ไม่สามารถแก้ปัญหาได้ และ Nvidia ยังไม่ออกแถลงการณ์หรือแพตช์แก้ไขอย่างเป็นทางการในขณะนี้ ✅ ลักษณะของบั๊กใน RTX 5090 และ PRO 6000 ➡️ เกิดหลังการใช้งาน GPU ผ่าน VM ด้วย KVM และ VFIO ➡️ FLR ไม่สามารถรีเซ็ต GPU ได้ ทำให้การ์ดไม่ตอบสนอง ➡️ ต้องรีบูตเครื่องทั้งหมดเพื่อให้ GPU กลับมาใช้งานได้ ✅ ข้อมูลจาก CloudRift และชุมชนผู้ใช้ ➡️ CloudRift พบปัญหาในระบบ production และตั้ง bug bounty $1,000 ➡️ Tiny Corp สงสัยว่าเป็นปัญหาฮาร์ดแวร์ ➡️ ผู้ใช้ใน Proxmox และ Level1Techs รายงานอาการคล้ายกัน ✅ การเปรียบเทียบกับ GPU รุ่นก่อน ➡️ RTX 4090, H100 และ B200 ไม่มีปัญหาแบบเดียวกัน ➡️ บั๊กอาจจำกัดอยู่เฉพาะในตระกูล Blackwell รุ่น consumer และ ProViz ➡️ การ์ดที่ได้รับผลกระทบไม่สามารถถูก reassigned หลัง FLR ✅ ความสำคัญของ FLR ในระบบ VM ➡️ FLR เป็นฟีเจอร์สำคัญในการรีเซ็ตอุปกรณ์ passthrough ➡️ หาก FLR ล้มเหลว จะกระทบต่อ multi-tenant workload และ uptime ➡️ การล่มของ GPU หนึ่งตัวอาจทำให้ VM ทั้งหมดใน node หยุดทำงาน https://www.tomshardware.com/pc-components/gpus/rtx-5090-pro-6000-bug-forces-host-reboot
WWW.TOMSHARDWARE.COM
Nvidia RTX 5090 reset bug prompts $1,000 reward for a fix — cards become completely unresponsive and require a reboot after virtualization reset bug, also impacts RTX PRO 6000
CloudRift and community reports suggest a reset failure on Nvidia’s new Blackwell GPUs that bricks the card until the machine is power-cycled.
0 ความคิดเห็น 0 การแบ่งปัน 72 มุมมอง 0 รีวิว