AMD ผลิตการ์ด Instinct ซึ่งเป็น GPU สำหรับซูเปอร์คอมพิวเตอร์และงานเทรน AI โดยเฉพาะ ด้วย VRAM สูงถึง 192GB ต่อการ์ด และในบางเซิร์ฟเวอร์ติดตั้งถึง 8 ใบ รวมเป็น VRAM มากถึง 1.5 TB — เยอะกว่าคอมทั่วไปหลายสิบเท่า!
แต่เมื่อมีคนพยายามทำให้ระบบ Linux “จำศีล” เพื่อประหยัดไฟตอนไม่ได้ใช้งาน เช่น ช่วงเวลากลางคืน หรือเพื่อรองรับภาวะไฟฟ้าล้นกริด กลับพบว่า...ระบบแครช!
สาเหตุมาจากว่า Linux ต้อง “ย้าย VRAM ทั้งหมดมาเก็บใน RAM ก่อน” แล้วจึง snapshot memory ไปเขียนลงดิสก์เพื่อเรียกกลับเมื่อเปิดเครื่อง — ปรากฏว่า VRAM 1.5TB + RAM อีกมากมาย ทำให้ระบบต้องใช้พื้นที่ snapshot เกิน 3TB ในบางกรณี → เกินขนาดของ RAM/Storage → ฮิเบอร์เนตล้มเหลว
ทีมวิศวกรของ AMD จึงเสนอ patch สำหรับ Linux ที่จะ:
- ลดปริมาณข้อมูลที่ต้อง snapshot
- ข้ามการ restore VRAM บางส่วนเมื่อปลุกระบบขึ้น (thaw) เพื่อให้กลับมาใช้งานเร็วขึ้น
สาเหตุที่มีคนพยายาม hibernate เซิร์ฟเวอร์เหล่านี้ เพราะถ้าไม่ปิด ก็เปลืองไฟระดับโรงไฟฟ้าย่อม ๆ แถมยังเสี่ยงต่อเหตุการณ์แบบ blackout แบบที่เกิดในสเปนเมื่อไม่นานมานี้
✅ AMD Instinct เป็น GPU สำหรับ AI ที่มี VRAM สูงถึง 192GB/ใบ
• ใช้ในซูเปอร์คอมพิวเตอร์, data center, และงานเทรนโมเดล LLM ขนาดใหญ่
✅ เซิร์ฟเวอร์ที่ติดตั้ง Instinct GPU 8 ใบ จะมี VRAM รวม ~1.5TB ต่อเครื่อง
• ทำให้ระบบต้องจัดการ memory ขนาดใหญ่มากระหว่างฮิเบอร์เนต
✅ Linux ต้องย้าย VRAM เข้าสู่ RAM เพื่อ snapshot ลงดิสก์ในการจำศีล
• ส่งผลให้ต้องใช้ RAM/disk เกินกว่าที่เครื่องมีจริง → ฮิเบอร์เนตล้มเหลว
✅ AMD ออก patch แก้ปัญหาด้วยวิธี:
• ลดพื้นที่ที่ต้อง snapshot
• ข้ามการโหลด buffer VRAM บางส่วนกลับมาระหว่าง resume
• ช่วยลดเวลา thaw (resume) เหลือไม่ถึง 1 ชั่วโมง จากเดิมที่อาจต้องรอนานมาก
✅ เหตุผลที่ต้อง hibernate เซิร์ฟเวอร์แม้จะเป็น AI server:
• ลดพลังงานในช่วง downtime
• ช่วยรักษาเสถียรภาพของโครงข่ายไฟฟ้า (power grid)
• เคยมี blackout ในสเปนซึ่งเชื่อมโยงกับโหลดของ data center
https://www.tomshardware.com/tech-industry/supercomputers/massive-vram-pools-on-amd-instinct-accelerators-drown-linuxs-hibernation-process-1-5-tb-of-memory-per-server-creates-headaches
แต่เมื่อมีคนพยายามทำให้ระบบ Linux “จำศีล” เพื่อประหยัดไฟตอนไม่ได้ใช้งาน เช่น ช่วงเวลากลางคืน หรือเพื่อรองรับภาวะไฟฟ้าล้นกริด กลับพบว่า...ระบบแครช!
สาเหตุมาจากว่า Linux ต้อง “ย้าย VRAM ทั้งหมดมาเก็บใน RAM ก่อน” แล้วจึง snapshot memory ไปเขียนลงดิสก์เพื่อเรียกกลับเมื่อเปิดเครื่อง — ปรากฏว่า VRAM 1.5TB + RAM อีกมากมาย ทำให้ระบบต้องใช้พื้นที่ snapshot เกิน 3TB ในบางกรณี → เกินขนาดของ RAM/Storage → ฮิเบอร์เนตล้มเหลว
ทีมวิศวกรของ AMD จึงเสนอ patch สำหรับ Linux ที่จะ:
- ลดปริมาณข้อมูลที่ต้อง snapshot
- ข้ามการ restore VRAM บางส่วนเมื่อปลุกระบบขึ้น (thaw) เพื่อให้กลับมาใช้งานเร็วขึ้น
สาเหตุที่มีคนพยายาม hibernate เซิร์ฟเวอร์เหล่านี้ เพราะถ้าไม่ปิด ก็เปลืองไฟระดับโรงไฟฟ้าย่อม ๆ แถมยังเสี่ยงต่อเหตุการณ์แบบ blackout แบบที่เกิดในสเปนเมื่อไม่นานมานี้
✅ AMD Instinct เป็น GPU สำหรับ AI ที่มี VRAM สูงถึง 192GB/ใบ
• ใช้ในซูเปอร์คอมพิวเตอร์, data center, และงานเทรนโมเดล LLM ขนาดใหญ่
✅ เซิร์ฟเวอร์ที่ติดตั้ง Instinct GPU 8 ใบ จะมี VRAM รวม ~1.5TB ต่อเครื่อง
• ทำให้ระบบต้องจัดการ memory ขนาดใหญ่มากระหว่างฮิเบอร์เนต
✅ Linux ต้องย้าย VRAM เข้าสู่ RAM เพื่อ snapshot ลงดิสก์ในการจำศีล
• ส่งผลให้ต้องใช้ RAM/disk เกินกว่าที่เครื่องมีจริง → ฮิเบอร์เนตล้มเหลว
✅ AMD ออก patch แก้ปัญหาด้วยวิธี:
• ลดพื้นที่ที่ต้อง snapshot
• ข้ามการโหลด buffer VRAM บางส่วนกลับมาระหว่าง resume
• ช่วยลดเวลา thaw (resume) เหลือไม่ถึง 1 ชั่วโมง จากเดิมที่อาจต้องรอนานมาก
✅ เหตุผลที่ต้อง hibernate เซิร์ฟเวอร์แม้จะเป็น AI server:
• ลดพลังงานในช่วง downtime
• ช่วยรักษาเสถียรภาพของโครงข่ายไฟฟ้า (power grid)
• เคยมี blackout ในสเปนซึ่งเชื่อมโยงกับโหลดของ data center
https://www.tomshardware.com/tech-industry/supercomputers/massive-vram-pools-on-amd-instinct-accelerators-drown-linuxs-hibernation-process-1-5-tb-of-memory-per-server-creates-headaches
AMD ผลิตการ์ด Instinct ซึ่งเป็น GPU สำหรับซูเปอร์คอมพิวเตอร์และงานเทรน AI โดยเฉพาะ ด้วย VRAM สูงถึง 192GB ต่อการ์ด และในบางเซิร์ฟเวอร์ติดตั้งถึง 8 ใบ รวมเป็น VRAM มากถึง 1.5 TB — เยอะกว่าคอมทั่วไปหลายสิบเท่า!
แต่เมื่อมีคนพยายามทำให้ระบบ Linux “จำศีล” เพื่อประหยัดไฟตอนไม่ได้ใช้งาน เช่น ช่วงเวลากลางคืน หรือเพื่อรองรับภาวะไฟฟ้าล้นกริด กลับพบว่า...ระบบแครช!
สาเหตุมาจากว่า Linux ต้อง “ย้าย VRAM ทั้งหมดมาเก็บใน RAM ก่อน” แล้วจึง snapshot memory ไปเขียนลงดิสก์เพื่อเรียกกลับเมื่อเปิดเครื่อง — ปรากฏว่า VRAM 1.5TB + RAM อีกมากมาย ทำให้ระบบต้องใช้พื้นที่ snapshot เกิน 3TB ในบางกรณี → เกินขนาดของ RAM/Storage → ฮิเบอร์เนตล้มเหลว
ทีมวิศวกรของ AMD จึงเสนอ patch สำหรับ Linux ที่จะ:
- ลดปริมาณข้อมูลที่ต้อง snapshot
- ข้ามการ restore VRAM บางส่วนเมื่อปลุกระบบขึ้น (thaw) เพื่อให้กลับมาใช้งานเร็วขึ้น
สาเหตุที่มีคนพยายาม hibernate เซิร์ฟเวอร์เหล่านี้ เพราะถ้าไม่ปิด ก็เปลืองไฟระดับโรงไฟฟ้าย่อม ๆ แถมยังเสี่ยงต่อเหตุการณ์แบบ blackout แบบที่เกิดในสเปนเมื่อไม่นานมานี้
✅ AMD Instinct เป็น GPU สำหรับ AI ที่มี VRAM สูงถึง 192GB/ใบ
• ใช้ในซูเปอร์คอมพิวเตอร์, data center, และงานเทรนโมเดล LLM ขนาดใหญ่
✅ เซิร์ฟเวอร์ที่ติดตั้ง Instinct GPU 8 ใบ จะมี VRAM รวม ~1.5TB ต่อเครื่อง
• ทำให้ระบบต้องจัดการ memory ขนาดใหญ่มากระหว่างฮิเบอร์เนต
✅ Linux ต้องย้าย VRAM เข้าสู่ RAM เพื่อ snapshot ลงดิสก์ในการจำศีล
• ส่งผลให้ต้องใช้ RAM/disk เกินกว่าที่เครื่องมีจริง → ฮิเบอร์เนตล้มเหลว
✅ AMD ออก patch แก้ปัญหาด้วยวิธี:
• ลดพื้นที่ที่ต้อง snapshot
• ข้ามการโหลด buffer VRAM บางส่วนกลับมาระหว่าง resume
• ช่วยลดเวลา thaw (resume) เหลือไม่ถึง 1 ชั่วโมง จากเดิมที่อาจต้องรอนานมาก
✅ เหตุผลที่ต้อง hibernate เซิร์ฟเวอร์แม้จะเป็น AI server:
• ลดพลังงานในช่วง downtime
• ช่วยรักษาเสถียรภาพของโครงข่ายไฟฟ้า (power grid)
• เคยมี blackout ในสเปนซึ่งเชื่อมโยงกับโหลดของ data center
https://www.tomshardware.com/tech-industry/supercomputers/massive-vram-pools-on-amd-instinct-accelerators-drown-linuxs-hibernation-process-1-5-tb-of-memory-per-server-creates-headaches
0 Comments
0 Shares
0 Views
0 Reviews