เพราะโดนสหรัฐแบนชิปแรง ๆ อย่าง H100 ทำให้ Huawei ต้องหาทางอื่นที่จะสู้ในสนาม AI — เขาเลยเอากลยุทธ์ “ใช้เยอะเข้าไว้” หรือที่เรียกว่า Brute Force Scaling มาใช้ สร้างเป็นคลัสเตอร์ชื่อ CloudMatrix 384 (CM384)
ไอ้เจ้าตัวนี้คือการรวมพลัง 384 ชิป Ascend 910C (ของ Huawei เอง) กับ CPU อีก 192 ตัว กระจายอยู่ใน 16 rack server แล้วเชื่อมต่อด้วยสายไฟเบอร์ออปติกหมดทุกตัว เพื่อทำให้ interconnect ภายในเร็วแบบสุด ๆ
เมื่อรันโมเดล LLM อย่าง DeepSeek R1 (ขนาด 671B พารามิเตอร์) ที่เป็นรุ่นเดียวกับที่ใช้ทดสอบ NVIDIA GB200 NVL72 — ปรากฏว่า CM384 สร้าง token ได้มากกว่า ทั้งในตอน generate และ prefill และมีประสิทธิภาพระดับ 300 PFLOPs (BF16) เทียบกับ 180 PFLOPs ของ GB200
แต่…มันแลกมาด้วยพลังงานระดับ “กินไฟพอๆ กับอาคารทั้งหลัง” — CM384 ใช้ไฟถึง 559 kW เทียบกับ NVIDIA GB200 NVL72 ที่ใช้ 145 kW เท่านั้น เรียกว่าแรงจริงแต่เปลืองไฟมากกว่า 4 เท่า
✅ Huawei เปิดตัวซูเปอร์คลัสเตอร์ CloudMatrix 384 ใช้ NPU Ascend 910C รวม 384 ตัว
• เชื่อมต่อด้วยสายออปติกทั้งหมด ลด latency ระหว่าง node
• ใช้ CPU เสริม 192 ตัวในโครงสร้าง 16 rack
✅ CM384 รันโมเดล DeepSeek R1 ได้เร็วกว่า NVIDIA H800 และ H100
• มี performance สูงถึง 300 PFLOPs (BF16)
• เมื่อเทียบกับ NVIDIA GB200 NVL72 ที่ให้ 180 PFLOPs
✅ ซอฟต์แวร์ CloudMatrix-Infer มีประสิทธิภาพสูงกว่า NVIDIA SGLang ในงาน LLM
• สร้าง token ได้เร็วขึ้น ทั้งตอน prefill และ generate
• เหมาะกับงาน AI inferencing ขนาดใหญ่มาก
✅ CM384 ออกแบบมาเพื่อสร้าง ecosystem ทางเลือกในจีน โดยไม่ต้องใช้ NVIDIA
• ได้รับการเผยแพร่ร่วมกับ AI startup จีนชื่อ SiliconFlow
• มีเป้าหมายเพื่อ “เพิ่มความมั่นใจให้ ecosystem ภายในประเทศจีน”
✅ พลังงานในจีนราคาต่ำลงเกือบ 40% ใน 3 ปี ทำให้การใช้พลังงานมากไม่ใช่จุดอ่อนใหญ่
• ทำให้จีนสามารถเลือก “สเกลแรงเข้าไว้” ได้โดยไม่กลัวค่าไฟพุ่ง
https://www.tomshardware.com/pc-components/gpus/huaweis-brute-force-ai-tactic-seems-to-be-working-cloudmatrix-384-claimed-to-outperform-nvidia-processors-running-deepseek-r1
ไอ้เจ้าตัวนี้คือการรวมพลัง 384 ชิป Ascend 910C (ของ Huawei เอง) กับ CPU อีก 192 ตัว กระจายอยู่ใน 16 rack server แล้วเชื่อมต่อด้วยสายไฟเบอร์ออปติกหมดทุกตัว เพื่อทำให้ interconnect ภายในเร็วแบบสุด ๆ
เมื่อรันโมเดล LLM อย่าง DeepSeek R1 (ขนาด 671B พารามิเตอร์) ที่เป็นรุ่นเดียวกับที่ใช้ทดสอบ NVIDIA GB200 NVL72 — ปรากฏว่า CM384 สร้าง token ได้มากกว่า ทั้งในตอน generate และ prefill และมีประสิทธิภาพระดับ 300 PFLOPs (BF16) เทียบกับ 180 PFLOPs ของ GB200
แต่…มันแลกมาด้วยพลังงานระดับ “กินไฟพอๆ กับอาคารทั้งหลัง” — CM384 ใช้ไฟถึง 559 kW เทียบกับ NVIDIA GB200 NVL72 ที่ใช้ 145 kW เท่านั้น เรียกว่าแรงจริงแต่เปลืองไฟมากกว่า 4 เท่า
✅ Huawei เปิดตัวซูเปอร์คลัสเตอร์ CloudMatrix 384 ใช้ NPU Ascend 910C รวม 384 ตัว
• เชื่อมต่อด้วยสายออปติกทั้งหมด ลด latency ระหว่าง node
• ใช้ CPU เสริม 192 ตัวในโครงสร้าง 16 rack
✅ CM384 รันโมเดล DeepSeek R1 ได้เร็วกว่า NVIDIA H800 และ H100
• มี performance สูงถึง 300 PFLOPs (BF16)
• เมื่อเทียบกับ NVIDIA GB200 NVL72 ที่ให้ 180 PFLOPs
✅ ซอฟต์แวร์ CloudMatrix-Infer มีประสิทธิภาพสูงกว่า NVIDIA SGLang ในงาน LLM
• สร้าง token ได้เร็วขึ้น ทั้งตอน prefill และ generate
• เหมาะกับงาน AI inferencing ขนาดใหญ่มาก
✅ CM384 ออกแบบมาเพื่อสร้าง ecosystem ทางเลือกในจีน โดยไม่ต้องใช้ NVIDIA
• ได้รับการเผยแพร่ร่วมกับ AI startup จีนชื่อ SiliconFlow
• มีเป้าหมายเพื่อ “เพิ่มความมั่นใจให้ ecosystem ภายในประเทศจีน”
✅ พลังงานในจีนราคาต่ำลงเกือบ 40% ใน 3 ปี ทำให้การใช้พลังงานมากไม่ใช่จุดอ่อนใหญ่
• ทำให้จีนสามารถเลือก “สเกลแรงเข้าไว้” ได้โดยไม่กลัวค่าไฟพุ่ง
https://www.tomshardware.com/pc-components/gpus/huaweis-brute-force-ai-tactic-seems-to-be-working-cloudmatrix-384-claimed-to-outperform-nvidia-processors-running-deepseek-r1
เพราะโดนสหรัฐแบนชิปแรง ๆ อย่าง H100 ทำให้ Huawei ต้องหาทางอื่นที่จะสู้ในสนาม AI — เขาเลยเอากลยุทธ์ “ใช้เยอะเข้าไว้” หรือที่เรียกว่า Brute Force Scaling มาใช้ สร้างเป็นคลัสเตอร์ชื่อ CloudMatrix 384 (CM384)
ไอ้เจ้าตัวนี้คือการรวมพลัง 384 ชิป Ascend 910C (ของ Huawei เอง) กับ CPU อีก 192 ตัว กระจายอยู่ใน 16 rack server แล้วเชื่อมต่อด้วยสายไฟเบอร์ออปติกหมดทุกตัว เพื่อทำให้ interconnect ภายในเร็วแบบสุด ๆ
เมื่อรันโมเดล LLM อย่าง DeepSeek R1 (ขนาด 671B พารามิเตอร์) ที่เป็นรุ่นเดียวกับที่ใช้ทดสอบ NVIDIA GB200 NVL72 — ปรากฏว่า CM384 สร้าง token ได้มากกว่า ทั้งในตอน generate และ prefill และมีประสิทธิภาพระดับ 300 PFLOPs (BF16) เทียบกับ 180 PFLOPs ของ GB200
แต่…มันแลกมาด้วยพลังงานระดับ “กินไฟพอๆ กับอาคารทั้งหลัง” — CM384 ใช้ไฟถึง 559 kW เทียบกับ NVIDIA GB200 NVL72 ที่ใช้ 145 kW เท่านั้น เรียกว่าแรงจริงแต่เปลืองไฟมากกว่า 4 เท่า
✅ Huawei เปิดตัวซูเปอร์คลัสเตอร์ CloudMatrix 384 ใช้ NPU Ascend 910C รวม 384 ตัว
• เชื่อมต่อด้วยสายออปติกทั้งหมด ลด latency ระหว่าง node
• ใช้ CPU เสริม 192 ตัวในโครงสร้าง 16 rack
✅ CM384 รันโมเดล DeepSeek R1 ได้เร็วกว่า NVIDIA H800 และ H100
• มี performance สูงถึง 300 PFLOPs (BF16)
• เมื่อเทียบกับ NVIDIA GB200 NVL72 ที่ให้ 180 PFLOPs
✅ ซอฟต์แวร์ CloudMatrix-Infer มีประสิทธิภาพสูงกว่า NVIDIA SGLang ในงาน LLM
• สร้าง token ได้เร็วขึ้น ทั้งตอน prefill และ generate
• เหมาะกับงาน AI inferencing ขนาดใหญ่มาก
✅ CM384 ออกแบบมาเพื่อสร้าง ecosystem ทางเลือกในจีน โดยไม่ต้องใช้ NVIDIA
• ได้รับการเผยแพร่ร่วมกับ AI startup จีนชื่อ SiliconFlow
• มีเป้าหมายเพื่อ “เพิ่มความมั่นใจให้ ecosystem ภายในประเทศจีน”
✅ พลังงานในจีนราคาต่ำลงเกือบ 40% ใน 3 ปี ทำให้การใช้พลังงานมากไม่ใช่จุดอ่อนใหญ่
• ทำให้จีนสามารถเลือก “สเกลแรงเข้าไว้” ได้โดยไม่กลัวค่าไฟพุ่ง
https://www.tomshardware.com/pc-components/gpus/huaweis-brute-force-ai-tactic-seems-to-be-working-cloudmatrix-384-claimed-to-outperform-nvidia-processors-running-deepseek-r1
0 ความคิดเห็น
0 การแบ่งปัน
35 มุมมอง
0 รีวิว