Alibaba Cloud says it cut Nvidia AI GPU use by 82% with new pooling...

ได้ทำการแชร์ลิงก์

2025-10-21 03:33:53 -

“Alibaba ลดการใช้ GPU Nvidia ลง 82% ด้วยระบบ Aegaeon — เสิร์ฟ LLM ได้มากขึ้นด้วยทรัพยากรน้อยลง” — เมื่อการจัดสรร GPU แบบใหม่เปลี่ยนเกมการประมวลผล AI ในจีน

Alibaba Cloud เปิดตัวระบบจัดสรร GPU ใหม่ชื่อว่า “Aegaeon” ซึ่งช่วยลดจำนวน GPU Nvidia ที่ต้องใช้ในการให้บริการโมเดลภาษาใหญ่ (LLM) ลงถึง 82% โดยผลการทดสอบในระบบ Model Studio Marketplace พบว่าเดิมต้องใช้ 1,192 GPU แต่หลังใช้ Aegaeon เหลือเพียง 213 ตัวเท่านั้น

ระบบนี้ไม่เกี่ยวกับการฝึกโมเดล แต่เน้นช่วง inference — คือการให้โมเดลตอบคำถามหรือสร้างข้อความ โดย Aegaeon ใช้เทคนิค “token-level scheduling” ที่แบ่งงานออกเป็นชิ้นเล็ก ๆ แล้วกระจายไปยัง GPU หลายตัวแบบเสมือน ทำให้ GPU หนึ่งตัวสามารถให้บริการหลายโมเดลพร้อมกันได้

ผลลัพธ์คือ “goodput” หรือประสิทธิภาพการใช้งานจริงเพิ่มขึ้นถึง 9 เท่าเมื่อเทียบกับระบบ serverless แบบเดิม เช่น ServerlessLLM และ MuxServe

การทดสอบนี้ใช้ Nvidia H20 ซึ่งเป็นหนึ่งใน GPU ไม่กี่รุ่นที่ยังสามารถขายให้จีนได้ภายใต้ข้อจำกัดจากสหรัฐฯ โดย Alibaba ใช้เทคนิคสองอย่างหลัก ๆ:

การบรรจุหลายโมเดลลงใน GPU เดียว
การใช้ autoscaler ที่ปรับการจัดสรรทรัพยากรแบบเรียลไทม์ตามการสร้าง output

แม้ผลลัพธ์จะน่าประทับใจ แต่ยังไม่ชัดเจนว่าระบบนี้จะใช้ได้ดีนอก Alibaba เพราะอาจต้องพึ่งโครงสร้างพื้นฐานเฉพาะ เช่น eRDMA network และ GPU stack ที่ Alibaba พัฒนาขึ้นเอง

Alibaba ลดการใช้ GPU Nvidia ลง 82% ด้วยระบบ Aegaeon
จาก 1,192 ตัวเหลือเพียง 213 ตัวในการให้บริการ LLM

Aegaeon ใช้ token-level scheduling เพื่อแบ่งงานแบบละเอียด
ทำให้ GPU หนึ่งตัวสามารถให้บริการหลายโมเดลพร้อมกัน

ประสิทธิภาพการใช้งานจริง (goodput) เพิ่มขึ้นถึง 9 เท่า
เมื่อเทียบกับระบบ serverless แบบเดิม

ใช้ Nvidia H20 ซึ่งยังขายให้จีนได้ภายใต้ข้อจำกัด
เป็นหนึ่งใน GPU ที่ยังถูกกฎหมายในตลาดจีน

ใช้ autoscaler ที่จัดสรรทรัพยากรแบบเรียลไทม์
ไม่ต้องจองทรัพยากรล่วงหน้าแบบเดิม

ทดสอบในระบบ Model Studio Marketplace ของ Alibaba
ใช้งานจริงหลายเดือน

https://www.tomshardware.com/tech-industry/semiconductors/alibaba-says-new-pooling-system-cut-nvidia-gpu-use-by-82-percent

⚙️ “Alibaba ลดการใช้ GPU Nvidia ลง 82% ด้วยระบบ Aegaeon — เสิร์ฟ LLM ได้มากขึ้นด้วยทรัพยากรน้อยลง” — เมื่อการจัดสรร GPU แบบใหม่เปลี่ยนเกมการประมวลผล AI ในจีน Alibaba Cloud เปิดตัวระบบจัดสรร GPU ใหม่ชื่อว่า “Aegaeon” ซึ่งช่วยลดจำนวน GPU Nvidia ที่ต้องใช้ในการให้บริการโมเดลภาษาใหญ่ (LLM) ลงถึง 82% โดยผลการทดสอบในระบบ Model Studio Marketplace พบว่าเดิมต้องใช้ 1,192 GPU แต่หลังใช้ Aegaeon เหลือเพียง 213 ตัวเท่านั้น ระบบนี้ไม่เกี่ยวกับการฝึกโมเดล แต่เน้นช่วง inference — คือการให้โมเดลตอบคำถามหรือสร้างข้อความ โดย Aegaeon ใช้เทคนิค “token-level scheduling” ที่แบ่งงานออกเป็นชิ้นเล็ก ๆ แล้วกระจายไปยัง GPU หลายตัวแบบเสมือน ทำให้ GPU หนึ่งตัวสามารถให้บริการหลายโมเดลพร้อมกันได้ ผลลัพธ์คือ “goodput” หรือประสิทธิภาพการใช้งานจริงเพิ่มขึ้นถึง 9 เท่าเมื่อเทียบกับระบบ serverless แบบเดิม เช่น ServerlessLLM และ MuxServe การทดสอบนี้ใช้ Nvidia H20 ซึ่งเป็นหนึ่งใน GPU ไม่กี่รุ่นที่ยังสามารถขายให้จีนได้ภายใต้ข้อจำกัดจากสหรัฐฯ โดย Alibaba ใช้เทคนิคสองอย่างหลัก ๆ: 🎗️ การบรรจุหลายโมเดลลงใน GPU เดียว 🎗️ การใช้ autoscaler ที่ปรับการจัดสรรทรัพยากรแบบเรียลไทม์ตามการสร้าง output แม้ผลลัพธ์จะน่าประทับใจ แต่ยังไม่ชัดเจนว่าระบบนี้จะใช้ได้ดีนอก Alibaba เพราะอาจต้องพึ่งโครงสร้างพื้นฐานเฉพาะ เช่น eRDMA network และ GPU stack ที่ Alibaba พัฒนาขึ้นเอง ✅ Alibaba ลดการใช้ GPU Nvidia ลง 82% ด้วยระบบ Aegaeon ➡️ จาก 1,192 ตัวเหลือเพียง 213 ตัวในการให้บริการ LLM ✅ Aegaeon ใช้ token-level scheduling เพื่อแบ่งงานแบบละเอียด ➡️ ทำให้ GPU หนึ่งตัวสามารถให้บริการหลายโมเดลพร้อมกัน ✅ ประสิทธิภาพการใช้งานจริง (goodput) เพิ่มขึ้นถึง 9 เท่า ➡️ เมื่อเทียบกับระบบ serverless แบบเดิม ✅ ใช้ Nvidia H20 ซึ่งยังขายให้จีนได้ภายใต้ข้อจำกัด ➡️ เป็นหนึ่งใน GPU ที่ยังถูกกฎหมายในตลาดจีน ✅ ใช้ autoscaler ที่จัดสรรทรัพยากรแบบเรียลไทม์ ➡️ ไม่ต้องจองทรัพยากรล่วงหน้าแบบเดิม ✅ ทดสอบในระบบ Model Studio Marketplace ของ Alibaba ➡️ ใช้งานจริงหลายเดือน https://www.tomshardware.com/tech-industry/semiconductors/alibaba-says-new-pooling-system-cut-nvidia-gpu-use-by-82-percent

WWW.TOMSHARDWARE.COM

Alibaba Cloud says it cut Nvidia AI GPU use by 82% with new pooling system— up to 9x increase in output lets 213 GPUs perform like 1,192

A paper presented at SOSP 2025 details how token-level scheduling helped one GPU serve multiple LLMs, reducing demand from 1,192 to 213 H20s.

0 ความคิดเห็น 0 การแบ่งปัน 310 มุมมอง 0 รีวิว