Massive VRAM pools on AMD Instinct accelerators drown Linux's...

ได้ทำการแชร์ลิงก์

2025-07-01 07:04:25 -

AMD ผลิตการ์ด Instinct ซึ่งเป็น GPU สำหรับซูเปอร์คอมพิวเตอร์และงานเทรน AI โดยเฉพาะ ด้วย VRAM สูงถึง 192GB ต่อการ์ด และในบางเซิร์ฟเวอร์ติดตั้งถึง 8 ใบ รวมเป็น VRAM มากถึง 1.5 TB — เยอะกว่าคอมทั่วไปหลายสิบเท่า!

แต่เมื่อมีคนพยายามทำให้ระบบ Linux “จำศีล” เพื่อประหยัดไฟตอนไม่ได้ใช้งาน เช่น ช่วงเวลากลางคืน หรือเพื่อรองรับภาวะไฟฟ้าล้นกริด กลับพบว่า...ระบบแครช!

สาเหตุมาจากว่า Linux ต้อง “ย้าย VRAM ทั้งหมดมาเก็บใน RAM ก่อน” แล้วจึง snapshot memory ไปเขียนลงดิสก์เพื่อเรียกกลับเมื่อเปิดเครื่อง — ปรากฏว่า VRAM 1.5TB + RAM อีกมากมาย ทำให้ระบบต้องใช้พื้นที่ snapshot เกิน 3TB ในบางกรณี → เกินขนาดของ RAM/Storage → ฮิเบอร์เนตล้มเหลว

ทีมวิศวกรของ AMD จึงเสนอ patch สำหรับ Linux ที่จะ:
- ลดปริมาณข้อมูลที่ต้อง snapshot
- ข้ามการ restore VRAM บางส่วนเมื่อปลุกระบบขึ้น (thaw) เพื่อให้กลับมาใช้งานเร็วขึ้น

สาเหตุที่มีคนพยายาม hibernate เซิร์ฟเวอร์เหล่านี้ เพราะถ้าไม่ปิด ก็เปลืองไฟระดับโรงไฟฟ้าย่อม ๆ แถมยังเสี่ยงต่อเหตุการณ์แบบ blackout แบบที่เกิดในสเปนเมื่อไม่นานมานี้

AMD Instinct เป็น GPU สำหรับ AI ที่มี VRAM สูงถึง 192GB/ใบ
• ใช้ในซูเปอร์คอมพิวเตอร์, data center, และงานเทรนโมเดล LLM ขนาดใหญ่

เซิร์ฟเวอร์ที่ติดตั้ง Instinct GPU 8 ใบ จะมี VRAM รวม ~1.5TB ต่อเครื่อง
• ทำให้ระบบต้องจัดการ memory ขนาดใหญ่มากระหว่างฮิเบอร์เนต

Linux ต้องย้าย VRAM เข้าสู่ RAM เพื่อ snapshot ลงดิสก์ในการจำศีล
• ส่งผลให้ต้องใช้ RAM/disk เกินกว่าที่เครื่องมีจริง → ฮิเบอร์เนตล้มเหลว

AMD ออก patch แก้ปัญหาด้วยวิธี:
• ลดพื้นที่ที่ต้อง snapshot
• ข้ามการโหลด buffer VRAM บางส่วนกลับมาระหว่าง resume
• ช่วยลดเวลา thaw (resume) เหลือไม่ถึง 1 ชั่วโมง จากเดิมที่อาจต้องรอนานมาก

เหตุผลที่ต้อง hibernate เซิร์ฟเวอร์แม้จะเป็น AI server:
• ลดพลังงานในช่วง downtime
• ช่วยรักษาเสถียรภาพของโครงข่ายไฟฟ้า (power grid)
• เคยมี blackout ในสเปนซึ่งเชื่อมโยงกับโหลดของ data center

https://www.tomshardware.com/tech-industry/supercomputers/massive-vram-pools-on-amd-instinct-accelerators-drown-linuxs-hibernation-process-1-5-tb-of-memory-per-server-creates-headaches

AMD ผลิตการ์ด Instinct ซึ่งเป็น GPU สำหรับซูเปอร์คอมพิวเตอร์และงานเทรน AI โดยเฉพาะ ด้วย VRAM สูงถึง 192GB ต่อการ์ด และในบางเซิร์ฟเวอร์ติดตั้งถึง 8 ใบ รวมเป็น VRAM มากถึง 1.5 TB — เยอะกว่าคอมทั่วไปหลายสิบเท่า! แต่เมื่อมีคนพยายามทำให้ระบบ Linux “จำศีล” เพื่อประหยัดไฟตอนไม่ได้ใช้งาน เช่น ช่วงเวลากลางคืน หรือเพื่อรองรับภาวะไฟฟ้าล้นกริด กลับพบว่า...ระบบแครช! สาเหตุมาจากว่า Linux ต้อง “ย้าย VRAM ทั้งหมดมาเก็บใน RAM ก่อน” แล้วจึง snapshot memory ไปเขียนลงดิสก์เพื่อเรียกกลับเมื่อเปิดเครื่อง — ปรากฏว่า VRAM 1.5TB + RAM อีกมากมาย ทำให้ระบบต้องใช้พื้นที่ snapshot เกิน 3TB ในบางกรณี → เกินขนาดของ RAM/Storage → ฮิเบอร์เนตล้มเหลว ทีมวิศวกรของ AMD จึงเสนอ patch สำหรับ Linux ที่จะ: - ลดปริมาณข้อมูลที่ต้อง snapshot - ข้ามการ restore VRAM บางส่วนเมื่อปลุกระบบขึ้น (thaw) เพื่อให้กลับมาใช้งานเร็วขึ้น สาเหตุที่มีคนพยายาม hibernate เซิร์ฟเวอร์เหล่านี้ เพราะถ้าไม่ปิด ก็เปลืองไฟระดับโรงไฟฟ้าย่อม ๆ แถมยังเสี่ยงต่อเหตุการณ์แบบ blackout แบบที่เกิดในสเปนเมื่อไม่นานมานี้ ✅ AMD Instinct เป็น GPU สำหรับ AI ที่มี VRAM สูงถึง 192GB/ใบ • ใช้ในซูเปอร์คอมพิวเตอร์, data center, และงานเทรนโมเดล LLM ขนาดใหญ่ ✅ เซิร์ฟเวอร์ที่ติดตั้ง Instinct GPU 8 ใบ จะมี VRAM รวม ~1.5TB ต่อเครื่อง • ทำให้ระบบต้องจัดการ memory ขนาดใหญ่มากระหว่างฮิเบอร์เนต ✅ Linux ต้องย้าย VRAM เข้าสู่ RAM เพื่อ snapshot ลงดิสก์ในการจำศีล • ส่งผลให้ต้องใช้ RAM/disk เกินกว่าที่เครื่องมีจริง → ฮิเบอร์เนตล้มเหลว ✅ AMD ออก patch แก้ปัญหาด้วยวิธี: • ลดพื้นที่ที่ต้อง snapshot • ข้ามการโหลด buffer VRAM บางส่วนกลับมาระหว่าง resume • ช่วยลดเวลา thaw (resume) เหลือไม่ถึง 1 ชั่วโมง จากเดิมที่อาจต้องรอนานมาก ✅ เหตุผลที่ต้อง hibernate เซิร์ฟเวอร์แม้จะเป็น AI server: • ลดพลังงานในช่วง downtime • ช่วยรักษาเสถียรภาพของโครงข่ายไฟฟ้า (power grid) • เคยมี blackout ในสเปนซึ่งเชื่อมโยงกับโหลดของ data center https://www.tomshardware.com/tech-industry/supercomputers/massive-vram-pools-on-amd-instinct-accelerators-drown-linuxs-hibernation-process-1-5-tb-of-memory-per-server-creates-headaches

WWW.TOMSHARDWARE.COM

Massive VRAM pools on AMD Instinct accelerators drown Linux's hibernation process — 1.5 TB of memory per server creates headaches

“If only I had more VRAM, all my problems would go away.” Well, not really.

0 ความคิดเห็น 0 การแบ่งปัน 391 มุมมอง 0 รีวิว