AMD ผลิตการ์ด Instinct ซึ่งเป็น GPU สำหรับซูเปอร์คอมพิวเตอร์และงานเทรน AI โดยเฉพาะ ด้วย VRAM สูงถึง 192GB ต่อการ์ด และในบางเซิร์ฟเวอร์ติดตั้งถึง 8 ใบ รวมเป็น VRAM มากถึง 1.5 TB — เยอะกว่าคอมทั่วไปหลายสิบเท่า!

แต่เมื่อมีคนพยายามทำให้ระบบ Linux “จำศีล” เพื่อประหยัดไฟตอนไม่ได้ใช้งาน เช่น ช่วงเวลากลางคืน หรือเพื่อรองรับภาวะไฟฟ้าล้นกริด กลับพบว่า...ระบบแครช!

สาเหตุมาจากว่า Linux ต้อง “ย้าย VRAM ทั้งหมดมาเก็บใน RAM ก่อน” แล้วจึง snapshot memory ไปเขียนลงดิสก์เพื่อเรียกกลับเมื่อเปิดเครื่อง — ปรากฏว่า VRAM 1.5TB + RAM อีกมากมาย ทำให้ระบบต้องใช้พื้นที่ snapshot เกิน 3TB ในบางกรณี → เกินขนาดของ RAM/Storage → ฮิเบอร์เนตล้มเหลว

ทีมวิศวกรของ AMD จึงเสนอ patch สำหรับ Linux ที่จะ:
- ลดปริมาณข้อมูลที่ต้อง snapshot
- ข้ามการ restore VRAM บางส่วนเมื่อปลุกระบบขึ้น (thaw) เพื่อให้กลับมาใช้งานเร็วขึ้น

สาเหตุที่มีคนพยายาม hibernate เซิร์ฟเวอร์เหล่านี้ เพราะถ้าไม่ปิด ก็เปลืองไฟระดับโรงไฟฟ้าย่อม ๆ แถมยังเสี่ยงต่อเหตุการณ์แบบ blackout แบบที่เกิดในสเปนเมื่อไม่นานมานี้

✅ AMD Instinct เป็น GPU สำหรับ AI ที่มี VRAM สูงถึง 192GB/ใบ  
• ใช้ในซูเปอร์คอมพิวเตอร์, data center, และงานเทรนโมเดล LLM ขนาดใหญ่

✅ เซิร์ฟเวอร์ที่ติดตั้ง Instinct GPU 8 ใบ จะมี VRAM รวม ~1.5TB ต่อเครื่อง  
• ทำให้ระบบต้องจัดการ memory ขนาดใหญ่มากระหว่างฮิเบอร์เนต

✅ Linux ต้องย้าย VRAM เข้าสู่ RAM เพื่อ snapshot ลงดิสก์ในการจำศีล  
• ส่งผลให้ต้องใช้ RAM/disk เกินกว่าที่เครื่องมีจริง → ฮิเบอร์เนตล้มเหลว

✅ AMD ออก patch แก้ปัญหาด้วยวิธี:  
• ลดพื้นที่ที่ต้อง snapshot  
• ข้ามการโหลด buffer VRAM บางส่วนกลับมาระหว่าง resume  
• ช่วยลดเวลา thaw (resume) เหลือไม่ถึง 1 ชั่วโมง จากเดิมที่อาจต้องรอนานมาก

✅ เหตุผลที่ต้อง hibernate เซิร์ฟเวอร์แม้จะเป็น AI server:  
• ลดพลังงานในช่วง downtime  
• ช่วยรักษาเสถียรภาพของโครงข่ายไฟฟ้า (power grid)  
• เคยมี blackout ในสเปนซึ่งเชื่อมโยงกับโหลดของ data center

https://www.tomshardware.com/tech-industry/supercomputers/massive-vram-pools-on-amd-instinct-accelerators-drown-linuxs-hibernation-process-1-5-tb-of-memory-per-server-creates-headaches
AMD ผลิตการ์ด Instinct ซึ่งเป็น GPU สำหรับซูเปอร์คอมพิวเตอร์และงานเทรน AI โดยเฉพาะ ด้วย VRAM สูงถึง 192GB ต่อการ์ด และในบางเซิร์ฟเวอร์ติดตั้งถึง 8 ใบ รวมเป็น VRAM มากถึง 1.5 TB — เยอะกว่าคอมทั่วไปหลายสิบเท่า! แต่เมื่อมีคนพยายามทำให้ระบบ Linux “จำศีล” เพื่อประหยัดไฟตอนไม่ได้ใช้งาน เช่น ช่วงเวลากลางคืน หรือเพื่อรองรับภาวะไฟฟ้าล้นกริด กลับพบว่า...ระบบแครช! สาเหตุมาจากว่า Linux ต้อง “ย้าย VRAM ทั้งหมดมาเก็บใน RAM ก่อน” แล้วจึง snapshot memory ไปเขียนลงดิสก์เพื่อเรียกกลับเมื่อเปิดเครื่อง — ปรากฏว่า VRAM 1.5TB + RAM อีกมากมาย ทำให้ระบบต้องใช้พื้นที่ snapshot เกิน 3TB ในบางกรณี → เกินขนาดของ RAM/Storage → ฮิเบอร์เนตล้มเหลว ทีมวิศวกรของ AMD จึงเสนอ patch สำหรับ Linux ที่จะ: - ลดปริมาณข้อมูลที่ต้อง snapshot - ข้ามการ restore VRAM บางส่วนเมื่อปลุกระบบขึ้น (thaw) เพื่อให้กลับมาใช้งานเร็วขึ้น สาเหตุที่มีคนพยายาม hibernate เซิร์ฟเวอร์เหล่านี้ เพราะถ้าไม่ปิด ก็เปลืองไฟระดับโรงไฟฟ้าย่อม ๆ แถมยังเสี่ยงต่อเหตุการณ์แบบ blackout แบบที่เกิดในสเปนเมื่อไม่นานมานี้ ✅ AMD Instinct เป็น GPU สำหรับ AI ที่มี VRAM สูงถึง 192GB/ใบ   • ใช้ในซูเปอร์คอมพิวเตอร์, data center, และงานเทรนโมเดล LLM ขนาดใหญ่ ✅ เซิร์ฟเวอร์ที่ติดตั้ง Instinct GPU 8 ใบ จะมี VRAM รวม ~1.5TB ต่อเครื่อง   • ทำให้ระบบต้องจัดการ memory ขนาดใหญ่มากระหว่างฮิเบอร์เนต ✅ Linux ต้องย้าย VRAM เข้าสู่ RAM เพื่อ snapshot ลงดิสก์ในการจำศีล   • ส่งผลให้ต้องใช้ RAM/disk เกินกว่าที่เครื่องมีจริง → ฮิเบอร์เนตล้มเหลว ✅ AMD ออก patch แก้ปัญหาด้วยวิธี:   • ลดพื้นที่ที่ต้อง snapshot   • ข้ามการโหลด buffer VRAM บางส่วนกลับมาระหว่าง resume   • ช่วยลดเวลา thaw (resume) เหลือไม่ถึง 1 ชั่วโมง จากเดิมที่อาจต้องรอนานมาก ✅ เหตุผลที่ต้อง hibernate เซิร์ฟเวอร์แม้จะเป็น AI server:   • ลดพลังงานในช่วง downtime   • ช่วยรักษาเสถียรภาพของโครงข่ายไฟฟ้า (power grid)   • เคยมี blackout ในสเปนซึ่งเชื่อมโยงกับโหลดของ data center https://www.tomshardware.com/tech-industry/supercomputers/massive-vram-pools-on-amd-instinct-accelerators-drown-linuxs-hibernation-process-1-5-tb-of-memory-per-server-creates-headaches
0 Comments 0 Shares 32 Views 0 Reviews