เรื่องเล่าจาก FLR ถึง Blackwell: เมื่อการรีเซ็ต GPU กลายเป็นจุดล่มของระบบทั้งเครื่อง
CloudRift ซึ่งเป็นผู้ให้บริการ GPU cloud สำหรับงาน AI ได้เปิดเผยบั๊กใหม่ที่เกิดขึ้นกับ Nvidia RTX 5090 และ RTX PRO 6000 ซึ่งเป็น GPU ตระกูล Blackwell รุ่นล่าสุด โดยพบว่าเมื่อมีการใช้งานผ่านระบบ virtualization เช่น KVM และ VFIO แล้วทำการรีเซ็ต GPU ด้วย PCIe FLR (Function-Level Reset) ตัวการ์ดจะ “ไม่กลับมา” และกลายเป็นอุปกรณ์ที่ไม่ตอบสนองใด ๆ
บั๊กนี้เกิดขึ้นหลังจาก VM ปิดตัวหรือมีการย้าย GPU ไปยัง guest ใหม่ ซึ่งตามปกติ FLR จะทำให้ GPU รีเซ็ตตัวเองเพื่อพร้อมใช้งานใหม่ แต่ในกรณีนี้ kernel กลับรายงานว่า “not ready 65535ms after FLR; giving up” และ lspci ก็ไม่สามารถอ่านการ์ดได้อีก โดยแสดง error “unknown header type 7f”
ผลคือ GPU จะเข้าสู่สถานะ “ล่องหน” และไม่สามารถใช้งานได้อีกจนกว่าจะรีบูตเครื่องทั้งหมด ซึ่งเป็นปัญหาใหญ่สำหรับระบบที่มี VM หลายตัวหรือ workload ที่ต้องการ uptime สูง
CloudRift ได้ประกาศตั้ง bug bounty มูลค่า $1,000 สำหรับผู้ที่สามารถหาสาเหตุหรือวิธีแก้ไขได้ และ Tiny Corp ก็ออกมาโพสต์ถามตรง ๆ ว่า “5090s และ PRO 6000 มีปัญหาฮาร์ดแวร์หรือไม่?”
ผู้ใช้ในฟอรัม Proxmox และ Level1Techs ก็รายงานปัญหาเดียวกัน เช่น host ค้างหลังจาก guest ปิดตัว หรือ CPU เกิด soft lock หลัง FLR timeout โดยไม่มีปัญหาใน GPU รุ่นก่อนหน้าอย่าง RTX 4080 หรือ 4090
แม้จะมีการทดลองปรับ PCIe ASPM และ ACS แต่ก็ไม่สามารถแก้ปัญหาได้ และ Nvidia ยังไม่ออกแถลงการณ์หรือแพตช์แก้ไขอย่างเป็นทางการในขณะนี้
ลักษณะของบั๊กใน RTX 5090 และ PRO 6000
เกิดหลังการใช้งาน GPU ผ่าน VM ด้วย KVM และ VFIO
FLR ไม่สามารถรีเซ็ต GPU ได้ ทำให้การ์ดไม่ตอบสนอง
ต้องรีบูตเครื่องทั้งหมดเพื่อให้ GPU กลับมาใช้งานได้
ข้อมูลจาก CloudRift และชุมชนผู้ใช้
CloudRift พบปัญหาในระบบ production และตั้ง bug bounty $1,000
Tiny Corp สงสัยว่าเป็นปัญหาฮาร์ดแวร์
ผู้ใช้ใน Proxmox และ Level1Techs รายงานอาการคล้ายกัน
การเปรียบเทียบกับ GPU รุ่นก่อน
RTX 4090, H100 และ B200 ไม่มีปัญหาแบบเดียวกัน
บั๊กอาจจำกัดอยู่เฉพาะในตระกูล Blackwell รุ่น consumer และ ProViz
การ์ดที่ได้รับผลกระทบไม่สามารถถูก reassigned หลัง FLR
ความสำคัญของ FLR ในระบบ VM
FLR เป็นฟีเจอร์สำคัญในการรีเซ็ตอุปกรณ์ passthrough
หาก FLR ล้มเหลว จะกระทบต่อ multi-tenant workload และ uptime
การล่มของ GPU หนึ่งตัวอาจทำให้ VM ทั้งหมดใน node หยุดทำงาน
https://www.tomshardware.com/pc-components/gpus/rtx-5090-pro-6000-bug-forces-host-reboot
CloudRift ซึ่งเป็นผู้ให้บริการ GPU cloud สำหรับงาน AI ได้เปิดเผยบั๊กใหม่ที่เกิดขึ้นกับ Nvidia RTX 5090 และ RTX PRO 6000 ซึ่งเป็น GPU ตระกูล Blackwell รุ่นล่าสุด โดยพบว่าเมื่อมีการใช้งานผ่านระบบ virtualization เช่น KVM และ VFIO แล้วทำการรีเซ็ต GPU ด้วย PCIe FLR (Function-Level Reset) ตัวการ์ดจะ “ไม่กลับมา” และกลายเป็นอุปกรณ์ที่ไม่ตอบสนองใด ๆ
บั๊กนี้เกิดขึ้นหลังจาก VM ปิดตัวหรือมีการย้าย GPU ไปยัง guest ใหม่ ซึ่งตามปกติ FLR จะทำให้ GPU รีเซ็ตตัวเองเพื่อพร้อมใช้งานใหม่ แต่ในกรณีนี้ kernel กลับรายงานว่า “not ready 65535ms after FLR; giving up” และ lspci ก็ไม่สามารถอ่านการ์ดได้อีก โดยแสดง error “unknown header type 7f”
ผลคือ GPU จะเข้าสู่สถานะ “ล่องหน” และไม่สามารถใช้งานได้อีกจนกว่าจะรีบูตเครื่องทั้งหมด ซึ่งเป็นปัญหาใหญ่สำหรับระบบที่มี VM หลายตัวหรือ workload ที่ต้องการ uptime สูง
CloudRift ได้ประกาศตั้ง bug bounty มูลค่า $1,000 สำหรับผู้ที่สามารถหาสาเหตุหรือวิธีแก้ไขได้ และ Tiny Corp ก็ออกมาโพสต์ถามตรง ๆ ว่า “5090s และ PRO 6000 มีปัญหาฮาร์ดแวร์หรือไม่?”
ผู้ใช้ในฟอรัม Proxmox และ Level1Techs ก็รายงานปัญหาเดียวกัน เช่น host ค้างหลังจาก guest ปิดตัว หรือ CPU เกิด soft lock หลัง FLR timeout โดยไม่มีปัญหาใน GPU รุ่นก่อนหน้าอย่าง RTX 4080 หรือ 4090
แม้จะมีการทดลองปรับ PCIe ASPM และ ACS แต่ก็ไม่สามารถแก้ปัญหาได้ และ Nvidia ยังไม่ออกแถลงการณ์หรือแพตช์แก้ไขอย่างเป็นทางการในขณะนี้
ลักษณะของบั๊กใน RTX 5090 และ PRO 6000
เกิดหลังการใช้งาน GPU ผ่าน VM ด้วย KVM และ VFIO
FLR ไม่สามารถรีเซ็ต GPU ได้ ทำให้การ์ดไม่ตอบสนอง
ต้องรีบูตเครื่องทั้งหมดเพื่อให้ GPU กลับมาใช้งานได้
ข้อมูลจาก CloudRift และชุมชนผู้ใช้
CloudRift พบปัญหาในระบบ production และตั้ง bug bounty $1,000
Tiny Corp สงสัยว่าเป็นปัญหาฮาร์ดแวร์
ผู้ใช้ใน Proxmox และ Level1Techs รายงานอาการคล้ายกัน
การเปรียบเทียบกับ GPU รุ่นก่อน
RTX 4090, H100 และ B200 ไม่มีปัญหาแบบเดียวกัน
บั๊กอาจจำกัดอยู่เฉพาะในตระกูล Blackwell รุ่น consumer และ ProViz
การ์ดที่ได้รับผลกระทบไม่สามารถถูก reassigned หลัง FLR
ความสำคัญของ FLR ในระบบ VM
FLR เป็นฟีเจอร์สำคัญในการรีเซ็ตอุปกรณ์ passthrough
หาก FLR ล้มเหลว จะกระทบต่อ multi-tenant workload และ uptime
การล่มของ GPU หนึ่งตัวอาจทำให้ VM ทั้งหมดใน node หยุดทำงาน
https://www.tomshardware.com/pc-components/gpus/rtx-5090-pro-6000-bug-forces-host-reboot
🎙️ เรื่องเล่าจาก FLR ถึง Blackwell: เมื่อการรีเซ็ต GPU กลายเป็นจุดล่มของระบบทั้งเครื่อง
CloudRift ซึ่งเป็นผู้ให้บริการ GPU cloud สำหรับงาน AI ได้เปิดเผยบั๊กใหม่ที่เกิดขึ้นกับ Nvidia RTX 5090 และ RTX PRO 6000 ซึ่งเป็น GPU ตระกูล Blackwell รุ่นล่าสุด โดยพบว่าเมื่อมีการใช้งานผ่านระบบ virtualization เช่น KVM และ VFIO แล้วทำการรีเซ็ต GPU ด้วย PCIe FLR (Function-Level Reset) ตัวการ์ดจะ “ไม่กลับมา” และกลายเป็นอุปกรณ์ที่ไม่ตอบสนองใด ๆ
บั๊กนี้เกิดขึ้นหลังจาก VM ปิดตัวหรือมีการย้าย GPU ไปยัง guest ใหม่ ซึ่งตามปกติ FLR จะทำให้ GPU รีเซ็ตตัวเองเพื่อพร้อมใช้งานใหม่ แต่ในกรณีนี้ kernel กลับรายงานว่า “not ready 65535ms after FLR; giving up” และ lspci ก็ไม่สามารถอ่านการ์ดได้อีก โดยแสดง error “unknown header type 7f”
ผลคือ GPU จะเข้าสู่สถานะ “ล่องหน” และไม่สามารถใช้งานได้อีกจนกว่าจะรีบูตเครื่องทั้งหมด ซึ่งเป็นปัญหาใหญ่สำหรับระบบที่มี VM หลายตัวหรือ workload ที่ต้องการ uptime สูง
CloudRift ได้ประกาศตั้ง bug bounty มูลค่า $1,000 สำหรับผู้ที่สามารถหาสาเหตุหรือวิธีแก้ไขได้ และ Tiny Corp ก็ออกมาโพสต์ถามตรง ๆ ว่า “5090s และ PRO 6000 มีปัญหาฮาร์ดแวร์หรือไม่?”
ผู้ใช้ในฟอรัม Proxmox และ Level1Techs ก็รายงานปัญหาเดียวกัน เช่น host ค้างหลังจาก guest ปิดตัว หรือ CPU เกิด soft lock หลัง FLR timeout โดยไม่มีปัญหาใน GPU รุ่นก่อนหน้าอย่าง RTX 4080 หรือ 4090
แม้จะมีการทดลองปรับ PCIe ASPM และ ACS แต่ก็ไม่สามารถแก้ปัญหาได้ และ Nvidia ยังไม่ออกแถลงการณ์หรือแพตช์แก้ไขอย่างเป็นทางการในขณะนี้
✅ ลักษณะของบั๊กใน RTX 5090 และ PRO 6000
➡️ เกิดหลังการใช้งาน GPU ผ่าน VM ด้วย KVM และ VFIO
➡️ FLR ไม่สามารถรีเซ็ต GPU ได้ ทำให้การ์ดไม่ตอบสนอง
➡️ ต้องรีบูตเครื่องทั้งหมดเพื่อให้ GPU กลับมาใช้งานได้
✅ ข้อมูลจาก CloudRift และชุมชนผู้ใช้
➡️ CloudRift พบปัญหาในระบบ production และตั้ง bug bounty $1,000
➡️ Tiny Corp สงสัยว่าเป็นปัญหาฮาร์ดแวร์
➡️ ผู้ใช้ใน Proxmox และ Level1Techs รายงานอาการคล้ายกัน
✅ การเปรียบเทียบกับ GPU รุ่นก่อน
➡️ RTX 4090, H100 และ B200 ไม่มีปัญหาแบบเดียวกัน
➡️ บั๊กอาจจำกัดอยู่เฉพาะในตระกูล Blackwell รุ่น consumer และ ProViz
➡️ การ์ดที่ได้รับผลกระทบไม่สามารถถูก reassigned หลัง FLR
✅ ความสำคัญของ FLR ในระบบ VM
➡️ FLR เป็นฟีเจอร์สำคัญในการรีเซ็ตอุปกรณ์ passthrough
➡️ หาก FLR ล้มเหลว จะกระทบต่อ multi-tenant workload และ uptime
➡️ การล่มของ GPU หนึ่งตัวอาจทำให้ VM ทั้งหมดใน node หยุดทำงาน
https://www.tomshardware.com/pc-components/gpus/rtx-5090-pro-6000-bug-forces-host-reboot
0 Comments
0 Shares
72 Views
0 Reviews