“NVIDIA เปิดตัว Rubin CPX: ชิป AI ที่แยกงานประมวลผลออกเป็นสองเฟส — ยกระดับการตอบสนองโมเดลยาวล้านโทเคนแบบไม่ต้องรอ”
ในยุคที่ AI ไม่ได้แค่ตอบคำถามสั้น ๆ แต่ต้องเข้าใจบทสนทนายาว ๆ โค้ดทั้งโปรเจกต์ หรือวิดีโอความยาวเป็นชั่วโมง NVIDIA ได้เปิดตัวสถาปัตยกรรมใหม่ที่เรียกว่า “Disaggregated Inference” ซึ่งแยกงานประมวลผลออกเป็นสองเฟสหลัก: เฟสบริบท (Context Phase) และเฟสสร้างผลลัพธ์ (Generation Phase)
Rubin CPX คือ GPU รุ่นใหม่ที่ออกแบบมาเฉพาะสำหรับเฟสบริบท ซึ่งต้องใช้พลังประมวลผลสูงเพื่อวิเคราะห์ข้อมูลจำนวนมหาศาล เช่น โค้ดทั้ง repository หรือบทสนทนาในหลาย session โดย Rubin CPX ให้พลังถึง 30 petaFLOPs ด้วย NVFP4 และใช้หน่วยความจำ GDDR7 ขนาด 128 GB — ต่างจาก Rubin GPU รุ่นหลักที่ใช้ HBM4 ขนาด 288 GB เพื่อรองรับเฟสสร้างผลลัพธ์ที่ต้องการแบนด์วิดท์สูง
แนวคิดนี้ไม่ใช่แค่ทฤษฎี เพราะ NVIDIA ได้พิสูจน์แล้วผ่านการทดสอบ MLPerf โดยใช้เทคนิค “Disaggregated Serving” ที่แยกงาน context และ generation ออกจากกัน ทำให้ throughput ต่อ GPU เพิ่มขึ้นเกือบ 50% และลด latency ได้อย่างชัดเจน
Rubin CPX จะถูกนำไปใช้ในระบบ Vera Rubin NVL144 CPX rack ซึ่งประกอบด้วย Rubin GPU 144 ตัว, Rubin CPX 144 ตัว, Vera CPU 36 ตัว, หน่วยความจำ 100 TB และแบนด์วิดท์ 1.7 PB/s — ให้พลังรวมถึง 8 exaFLOPs ซึ่งสูงกว่า GB300 NVL72 ถึง 7.5 เท่า
Jensen Huang ซีอีโอของ NVIDIA ระบุว่า Rubin CPX คือ “GPU CUDA ตัวแรกที่ออกแบบมาเพื่อ AI ที่ต้องใช้บริบทยาวมหาศาล” และจะเป็นหัวใจของยุคใหม่ที่ AI ไม่ใช่แค่ autocomplete แต่เป็นผู้ช่วยที่เข้าใจงานทั้งระบบ
สถาปัตยกรรม Disaggregated Inference
แยกงาน inference ออกเป็น 2 เฟส: Context (compute-bound) และ Generation (memory-bound)
เฟสบริบทใช้ Rubin CPX ที่เน้นพลังประมวลผล
เฟสสร้างผลลัพธ์ใช้ Rubin GPU ที่เน้นแบนด์วิดท์หน่วยความจำ
ลด latency และเพิ่ม throughput โดยไม่ต้องใช้ GPU แบบอเนกประสงค์
ข้อมูลทางเทคนิคของ Rubin CPX
พลังประมวลผล 30 petaFLOPs ด้วย NVFP4
หน่วยความจำ GDDR7 ขนาด 128 GB
ใช้ดีไซน์แบบ monolithic die ต่างจาก Rubin GPU ที่เป็น dual-die chiplet
ออกแบบมาเพื่องานที่มีบริบทยาว เช่น โค้ดทั้งโปรเจกต์หรือวิดีโอหลายชั่วโมง
ระบบ Vera Rubin NVL144 CPX
ประกอบด้วย Rubin GPU 144 ตัว, Rubin CPX 144 ตัว, Vera CPU 36 ตัว
หน่วยความจำรวม 100 TB และแบนด์วิดท์ 1.7 PB/s
พลังรวม 8 exaFLOPs — สูงกว่า GB300 NVL72 ถึง 7.5 เท่า
รองรับการประมวลผล AI ระดับโรงงาน (AI Factory)
ข้อมูลเสริมจากภายนอก
Rubin CPX ใช้ในงานที่ต้องประมวลผลล้านโทเคน เช่น video search, code analysis
ใช้ร่วมกับ InfiniBand หรือ Spectrum-X Ethernet สำหรับการ scale-out
NVIDIA ใช้ Dynamo orchestration layer เพื่อจัดการการแยกงานแบบอัจฉริยะ
ผลการทดสอบ MLPerf ล่าสุดแสดงว่า Disaggregated Serving เพิ่มประสิทธิภาพได้จริง
https://www.tomshardware.com/tech-industry/semiconductors/nvidia-rubin-cpx-forms-one-half-of-new-disaggregated-ai-inference-architecture-approach-splits-work-between-compute-and-bandwidth-optimized-chips-for-best-performance
ในยุคที่ AI ไม่ได้แค่ตอบคำถามสั้น ๆ แต่ต้องเข้าใจบทสนทนายาว ๆ โค้ดทั้งโปรเจกต์ หรือวิดีโอความยาวเป็นชั่วโมง NVIDIA ได้เปิดตัวสถาปัตยกรรมใหม่ที่เรียกว่า “Disaggregated Inference” ซึ่งแยกงานประมวลผลออกเป็นสองเฟสหลัก: เฟสบริบท (Context Phase) และเฟสสร้างผลลัพธ์ (Generation Phase)
Rubin CPX คือ GPU รุ่นใหม่ที่ออกแบบมาเฉพาะสำหรับเฟสบริบท ซึ่งต้องใช้พลังประมวลผลสูงเพื่อวิเคราะห์ข้อมูลจำนวนมหาศาล เช่น โค้ดทั้ง repository หรือบทสนทนาในหลาย session โดย Rubin CPX ให้พลังถึง 30 petaFLOPs ด้วย NVFP4 และใช้หน่วยความจำ GDDR7 ขนาด 128 GB — ต่างจาก Rubin GPU รุ่นหลักที่ใช้ HBM4 ขนาด 288 GB เพื่อรองรับเฟสสร้างผลลัพธ์ที่ต้องการแบนด์วิดท์สูง
แนวคิดนี้ไม่ใช่แค่ทฤษฎี เพราะ NVIDIA ได้พิสูจน์แล้วผ่านการทดสอบ MLPerf โดยใช้เทคนิค “Disaggregated Serving” ที่แยกงาน context และ generation ออกจากกัน ทำให้ throughput ต่อ GPU เพิ่มขึ้นเกือบ 50% และลด latency ได้อย่างชัดเจน
Rubin CPX จะถูกนำไปใช้ในระบบ Vera Rubin NVL144 CPX rack ซึ่งประกอบด้วย Rubin GPU 144 ตัว, Rubin CPX 144 ตัว, Vera CPU 36 ตัว, หน่วยความจำ 100 TB และแบนด์วิดท์ 1.7 PB/s — ให้พลังรวมถึง 8 exaFLOPs ซึ่งสูงกว่า GB300 NVL72 ถึง 7.5 เท่า
Jensen Huang ซีอีโอของ NVIDIA ระบุว่า Rubin CPX คือ “GPU CUDA ตัวแรกที่ออกแบบมาเพื่อ AI ที่ต้องใช้บริบทยาวมหาศาล” และจะเป็นหัวใจของยุคใหม่ที่ AI ไม่ใช่แค่ autocomplete แต่เป็นผู้ช่วยที่เข้าใจงานทั้งระบบ
สถาปัตยกรรม Disaggregated Inference
แยกงาน inference ออกเป็น 2 เฟส: Context (compute-bound) และ Generation (memory-bound)
เฟสบริบทใช้ Rubin CPX ที่เน้นพลังประมวลผล
เฟสสร้างผลลัพธ์ใช้ Rubin GPU ที่เน้นแบนด์วิดท์หน่วยความจำ
ลด latency และเพิ่ม throughput โดยไม่ต้องใช้ GPU แบบอเนกประสงค์
ข้อมูลทางเทคนิคของ Rubin CPX
พลังประมวลผล 30 petaFLOPs ด้วย NVFP4
หน่วยความจำ GDDR7 ขนาด 128 GB
ใช้ดีไซน์แบบ monolithic die ต่างจาก Rubin GPU ที่เป็น dual-die chiplet
ออกแบบมาเพื่องานที่มีบริบทยาว เช่น โค้ดทั้งโปรเจกต์หรือวิดีโอหลายชั่วโมง
ระบบ Vera Rubin NVL144 CPX
ประกอบด้วย Rubin GPU 144 ตัว, Rubin CPX 144 ตัว, Vera CPU 36 ตัว
หน่วยความจำรวม 100 TB และแบนด์วิดท์ 1.7 PB/s
พลังรวม 8 exaFLOPs — สูงกว่า GB300 NVL72 ถึง 7.5 เท่า
รองรับการประมวลผล AI ระดับโรงงาน (AI Factory)
ข้อมูลเสริมจากภายนอก
Rubin CPX ใช้ในงานที่ต้องประมวลผลล้านโทเคน เช่น video search, code analysis
ใช้ร่วมกับ InfiniBand หรือ Spectrum-X Ethernet สำหรับการ scale-out
NVIDIA ใช้ Dynamo orchestration layer เพื่อจัดการการแยกงานแบบอัจฉริยะ
ผลการทดสอบ MLPerf ล่าสุดแสดงว่า Disaggregated Serving เพิ่มประสิทธิภาพได้จริง
https://www.tomshardware.com/tech-industry/semiconductors/nvidia-rubin-cpx-forms-one-half-of-new-disaggregated-ai-inference-architecture-approach-splits-work-between-compute-and-bandwidth-optimized-chips-for-best-performance
🧠 “NVIDIA เปิดตัว Rubin CPX: ชิป AI ที่แยกงานประมวลผลออกเป็นสองเฟส — ยกระดับการตอบสนองโมเดลยาวล้านโทเคนแบบไม่ต้องรอ”
ในยุคที่ AI ไม่ได้แค่ตอบคำถามสั้น ๆ แต่ต้องเข้าใจบทสนทนายาว ๆ โค้ดทั้งโปรเจกต์ หรือวิดีโอความยาวเป็นชั่วโมง NVIDIA ได้เปิดตัวสถาปัตยกรรมใหม่ที่เรียกว่า “Disaggregated Inference” ซึ่งแยกงานประมวลผลออกเป็นสองเฟสหลัก: เฟสบริบท (Context Phase) และเฟสสร้างผลลัพธ์ (Generation Phase)
Rubin CPX คือ GPU รุ่นใหม่ที่ออกแบบมาเฉพาะสำหรับเฟสบริบท ซึ่งต้องใช้พลังประมวลผลสูงเพื่อวิเคราะห์ข้อมูลจำนวนมหาศาล เช่น โค้ดทั้ง repository หรือบทสนทนาในหลาย session โดย Rubin CPX ให้พลังถึง 30 petaFLOPs ด้วย NVFP4 และใช้หน่วยความจำ GDDR7 ขนาด 128 GB — ต่างจาก Rubin GPU รุ่นหลักที่ใช้ HBM4 ขนาด 288 GB เพื่อรองรับเฟสสร้างผลลัพธ์ที่ต้องการแบนด์วิดท์สูง
แนวคิดนี้ไม่ใช่แค่ทฤษฎี เพราะ NVIDIA ได้พิสูจน์แล้วผ่านการทดสอบ MLPerf โดยใช้เทคนิค “Disaggregated Serving” ที่แยกงาน context และ generation ออกจากกัน ทำให้ throughput ต่อ GPU เพิ่มขึ้นเกือบ 50% และลด latency ได้อย่างชัดเจน
Rubin CPX จะถูกนำไปใช้ในระบบ Vera Rubin NVL144 CPX rack ซึ่งประกอบด้วย Rubin GPU 144 ตัว, Rubin CPX 144 ตัว, Vera CPU 36 ตัว, หน่วยความจำ 100 TB และแบนด์วิดท์ 1.7 PB/s — ให้พลังรวมถึง 8 exaFLOPs ซึ่งสูงกว่า GB300 NVL72 ถึง 7.5 เท่า
Jensen Huang ซีอีโอของ NVIDIA ระบุว่า Rubin CPX คือ “GPU CUDA ตัวแรกที่ออกแบบมาเพื่อ AI ที่ต้องใช้บริบทยาวมหาศาล” และจะเป็นหัวใจของยุคใหม่ที่ AI ไม่ใช่แค่ autocomplete แต่เป็นผู้ช่วยที่เข้าใจงานทั้งระบบ
✅ สถาปัตยกรรม Disaggregated Inference
➡️ แยกงาน inference ออกเป็น 2 เฟส: Context (compute-bound) และ Generation (memory-bound)
➡️ เฟสบริบทใช้ Rubin CPX ที่เน้นพลังประมวลผล
➡️ เฟสสร้างผลลัพธ์ใช้ Rubin GPU ที่เน้นแบนด์วิดท์หน่วยความจำ
➡️ ลด latency และเพิ่ม throughput โดยไม่ต้องใช้ GPU แบบอเนกประสงค์
✅ ข้อมูลทางเทคนิคของ Rubin CPX
➡️ พลังประมวลผล 30 petaFLOPs ด้วย NVFP4
➡️ หน่วยความจำ GDDR7 ขนาด 128 GB
➡️ ใช้ดีไซน์แบบ monolithic die ต่างจาก Rubin GPU ที่เป็น dual-die chiplet
➡️ ออกแบบมาเพื่องานที่มีบริบทยาว เช่น โค้ดทั้งโปรเจกต์หรือวิดีโอหลายชั่วโมง
✅ ระบบ Vera Rubin NVL144 CPX
➡️ ประกอบด้วย Rubin GPU 144 ตัว, Rubin CPX 144 ตัว, Vera CPU 36 ตัว
➡️ หน่วยความจำรวม 100 TB และแบนด์วิดท์ 1.7 PB/s
➡️ พลังรวม 8 exaFLOPs — สูงกว่า GB300 NVL72 ถึง 7.5 เท่า
➡️ รองรับการประมวลผล AI ระดับโรงงาน (AI Factory)
✅ ข้อมูลเสริมจากภายนอก
➡️ Rubin CPX ใช้ในงานที่ต้องประมวลผลล้านโทเคน เช่น video search, code analysis
➡️ ใช้ร่วมกับ InfiniBand หรือ Spectrum-X Ethernet สำหรับการ scale-out
➡️ NVIDIA ใช้ Dynamo orchestration layer เพื่อจัดการการแยกงานแบบอัจฉริยะ
➡️ ผลการทดสอบ MLPerf ล่าสุดแสดงว่า Disaggregated Serving เพิ่มประสิทธิภาพได้จริง
https://www.tomshardware.com/tech-industry/semiconductors/nvidia-rubin-cpx-forms-one-half-of-new-disaggregated-ai-inference-architecture-approach-splits-work-between-compute-and-bandwidth-optimized-chips-for-best-performance
0 ความคิดเห็น
0 การแบ่งปัน
31 มุมมอง
0 รีวิว