“Alibaba ลดการใช้ GPU Nvidia ลง 82% ด้วยระบบ Aegaeon — เสิร์ฟ LLM ได้มากขึ้นด้วยทรัพยากรน้อยลง” — เมื่อการจัดสรร GPU แบบใหม่เปลี่ยนเกมการประมวลผล AI ในจีน
Alibaba Cloud เปิดตัวระบบจัดสรร GPU ใหม่ชื่อว่า “Aegaeon” ซึ่งช่วยลดจำนวน GPU Nvidia ที่ต้องใช้ในการให้บริการโมเดลภาษาใหญ่ (LLM) ลงถึง 82% โดยผลการทดสอบในระบบ Model Studio Marketplace พบว่าเดิมต้องใช้ 1,192 GPU แต่หลังใช้ Aegaeon เหลือเพียง 213 ตัวเท่านั้น
ระบบนี้ไม่เกี่ยวกับการฝึกโมเดล แต่เน้นช่วง inference — คือการให้โมเดลตอบคำถามหรือสร้างข้อความ โดย Aegaeon ใช้เทคนิค “token-level scheduling” ที่แบ่งงานออกเป็นชิ้นเล็ก ๆ แล้วกระจายไปยัง GPU หลายตัวแบบเสมือน ทำให้ GPU หนึ่งตัวสามารถให้บริการหลายโมเดลพร้อมกันได้
ผลลัพธ์คือ “goodput” หรือประสิทธิภาพการใช้งานจริงเพิ่มขึ้นถึง 9 เท่าเมื่อเทียบกับระบบ serverless แบบเดิม เช่น ServerlessLLM และ MuxServe
การทดสอบนี้ใช้ Nvidia H20 ซึ่งเป็นหนึ่งใน GPU ไม่กี่รุ่นที่ยังสามารถขายให้จีนได้ภายใต้ข้อจำกัดจากสหรัฐฯ โดย Alibaba ใช้เทคนิคสองอย่างหลัก ๆ:
การบรรจุหลายโมเดลลงใน GPU เดียว
การใช้ autoscaler ที่ปรับการจัดสรรทรัพยากรแบบเรียลไทม์ตามการสร้าง output
แม้ผลลัพธ์จะน่าประทับใจ แต่ยังไม่ชัดเจนว่าระบบนี้จะใช้ได้ดีนอก Alibaba เพราะอาจต้องพึ่งโครงสร้างพื้นฐานเฉพาะ เช่น eRDMA network และ GPU stack ที่ Alibaba พัฒนาขึ้นเอง
Alibaba ลดการใช้ GPU Nvidia ลง 82% ด้วยระบบ Aegaeon
จาก 1,192 ตัวเหลือเพียง 213 ตัวในการให้บริการ LLM
Aegaeon ใช้ token-level scheduling เพื่อแบ่งงานแบบละเอียด
ทำให้ GPU หนึ่งตัวสามารถให้บริการหลายโมเดลพร้อมกัน
ประสิทธิภาพการใช้งานจริง (goodput) เพิ่มขึ้นถึง 9 เท่า
เมื่อเทียบกับระบบ serverless แบบเดิม
ใช้ Nvidia H20 ซึ่งยังขายให้จีนได้ภายใต้ข้อจำกัด
เป็นหนึ่งใน GPU ที่ยังถูกกฎหมายในตลาดจีน
ใช้ autoscaler ที่จัดสรรทรัพยากรแบบเรียลไทม์
ไม่ต้องจองทรัพยากรล่วงหน้าแบบเดิม
ทดสอบในระบบ Model Studio Marketplace ของ Alibaba
ใช้งานจริงหลายเดือน
https://www.tomshardware.com/tech-industry/semiconductors/alibaba-says-new-pooling-system-cut-nvidia-gpu-use-by-82-percent
Alibaba Cloud เปิดตัวระบบจัดสรร GPU ใหม่ชื่อว่า “Aegaeon” ซึ่งช่วยลดจำนวน GPU Nvidia ที่ต้องใช้ในการให้บริการโมเดลภาษาใหญ่ (LLM) ลงถึง 82% โดยผลการทดสอบในระบบ Model Studio Marketplace พบว่าเดิมต้องใช้ 1,192 GPU แต่หลังใช้ Aegaeon เหลือเพียง 213 ตัวเท่านั้น
ระบบนี้ไม่เกี่ยวกับการฝึกโมเดล แต่เน้นช่วง inference — คือการให้โมเดลตอบคำถามหรือสร้างข้อความ โดย Aegaeon ใช้เทคนิค “token-level scheduling” ที่แบ่งงานออกเป็นชิ้นเล็ก ๆ แล้วกระจายไปยัง GPU หลายตัวแบบเสมือน ทำให้ GPU หนึ่งตัวสามารถให้บริการหลายโมเดลพร้อมกันได้
ผลลัพธ์คือ “goodput” หรือประสิทธิภาพการใช้งานจริงเพิ่มขึ้นถึง 9 เท่าเมื่อเทียบกับระบบ serverless แบบเดิม เช่น ServerlessLLM และ MuxServe
การทดสอบนี้ใช้ Nvidia H20 ซึ่งเป็นหนึ่งใน GPU ไม่กี่รุ่นที่ยังสามารถขายให้จีนได้ภายใต้ข้อจำกัดจากสหรัฐฯ โดย Alibaba ใช้เทคนิคสองอย่างหลัก ๆ:
การบรรจุหลายโมเดลลงใน GPU เดียว
การใช้ autoscaler ที่ปรับการจัดสรรทรัพยากรแบบเรียลไทม์ตามการสร้าง output
แม้ผลลัพธ์จะน่าประทับใจ แต่ยังไม่ชัดเจนว่าระบบนี้จะใช้ได้ดีนอก Alibaba เพราะอาจต้องพึ่งโครงสร้างพื้นฐานเฉพาะ เช่น eRDMA network และ GPU stack ที่ Alibaba พัฒนาขึ้นเอง
Alibaba ลดการใช้ GPU Nvidia ลง 82% ด้วยระบบ Aegaeon
จาก 1,192 ตัวเหลือเพียง 213 ตัวในการให้บริการ LLM
Aegaeon ใช้ token-level scheduling เพื่อแบ่งงานแบบละเอียด
ทำให้ GPU หนึ่งตัวสามารถให้บริการหลายโมเดลพร้อมกัน
ประสิทธิภาพการใช้งานจริง (goodput) เพิ่มขึ้นถึง 9 เท่า
เมื่อเทียบกับระบบ serverless แบบเดิม
ใช้ Nvidia H20 ซึ่งยังขายให้จีนได้ภายใต้ข้อจำกัด
เป็นหนึ่งใน GPU ที่ยังถูกกฎหมายในตลาดจีน
ใช้ autoscaler ที่จัดสรรทรัพยากรแบบเรียลไทม์
ไม่ต้องจองทรัพยากรล่วงหน้าแบบเดิม
ทดสอบในระบบ Model Studio Marketplace ของ Alibaba
ใช้งานจริงหลายเดือน
https://www.tomshardware.com/tech-industry/semiconductors/alibaba-says-new-pooling-system-cut-nvidia-gpu-use-by-82-percent
⚙️ “Alibaba ลดการใช้ GPU Nvidia ลง 82% ด้วยระบบ Aegaeon — เสิร์ฟ LLM ได้มากขึ้นด้วยทรัพยากรน้อยลง” — เมื่อการจัดสรร GPU แบบใหม่เปลี่ยนเกมการประมวลผล AI ในจีน
Alibaba Cloud เปิดตัวระบบจัดสรร GPU ใหม่ชื่อว่า “Aegaeon” ซึ่งช่วยลดจำนวน GPU Nvidia ที่ต้องใช้ในการให้บริการโมเดลภาษาใหญ่ (LLM) ลงถึง 82% โดยผลการทดสอบในระบบ Model Studio Marketplace พบว่าเดิมต้องใช้ 1,192 GPU แต่หลังใช้ Aegaeon เหลือเพียง 213 ตัวเท่านั้น
ระบบนี้ไม่เกี่ยวกับการฝึกโมเดล แต่เน้นช่วง inference — คือการให้โมเดลตอบคำถามหรือสร้างข้อความ โดย Aegaeon ใช้เทคนิค “token-level scheduling” ที่แบ่งงานออกเป็นชิ้นเล็ก ๆ แล้วกระจายไปยัง GPU หลายตัวแบบเสมือน ทำให้ GPU หนึ่งตัวสามารถให้บริการหลายโมเดลพร้อมกันได้
ผลลัพธ์คือ “goodput” หรือประสิทธิภาพการใช้งานจริงเพิ่มขึ้นถึง 9 เท่าเมื่อเทียบกับระบบ serverless แบบเดิม เช่น ServerlessLLM และ MuxServe
การทดสอบนี้ใช้ Nvidia H20 ซึ่งเป็นหนึ่งใน GPU ไม่กี่รุ่นที่ยังสามารถขายให้จีนได้ภายใต้ข้อจำกัดจากสหรัฐฯ โดย Alibaba ใช้เทคนิคสองอย่างหลัก ๆ:
🎗️ การบรรจุหลายโมเดลลงใน GPU เดียว
🎗️ การใช้ autoscaler ที่ปรับการจัดสรรทรัพยากรแบบเรียลไทม์ตามการสร้าง output
แม้ผลลัพธ์จะน่าประทับใจ แต่ยังไม่ชัดเจนว่าระบบนี้จะใช้ได้ดีนอก Alibaba เพราะอาจต้องพึ่งโครงสร้างพื้นฐานเฉพาะ เช่น eRDMA network และ GPU stack ที่ Alibaba พัฒนาขึ้นเอง
✅ Alibaba ลดการใช้ GPU Nvidia ลง 82% ด้วยระบบ Aegaeon
➡️ จาก 1,192 ตัวเหลือเพียง 213 ตัวในการให้บริการ LLM
✅ Aegaeon ใช้ token-level scheduling เพื่อแบ่งงานแบบละเอียด
➡️ ทำให้ GPU หนึ่งตัวสามารถให้บริการหลายโมเดลพร้อมกัน
✅ ประสิทธิภาพการใช้งานจริง (goodput) เพิ่มขึ้นถึง 9 เท่า
➡️ เมื่อเทียบกับระบบ serverless แบบเดิม
✅ ใช้ Nvidia H20 ซึ่งยังขายให้จีนได้ภายใต้ข้อจำกัด
➡️ เป็นหนึ่งใน GPU ที่ยังถูกกฎหมายในตลาดจีน
✅ ใช้ autoscaler ที่จัดสรรทรัพยากรแบบเรียลไทม์
➡️ ไม่ต้องจองทรัพยากรล่วงหน้าแบบเดิม
✅ ทดสอบในระบบ Model Studio Marketplace ของ Alibaba
➡️ ใช้งานจริงหลายเดือน
https://www.tomshardware.com/tech-industry/semiconductors/alibaba-says-new-pooling-system-cut-nvidia-gpu-use-by-82-percent
0 ความคิดเห็น
0 การแบ่งปัน
31 มุมมอง
0 รีวิว