“Nvidia Rubin CPX: ชิป AI ยุคใหม่ที่แยกงานประมวลผลออกเป็นสองเฟส — เร็วขึ้น ถูกลง และรองรับ context ยาวระดับล้านโทเคน”
ในยุคที่โมเดล AI ขนาดใหญ่ เช่น GPT-5, Gemini 2 และ Grok 3 ต้องประมวลผลข้อมูลจำนวนมหาศาลในคราวเดียว Nvidia ได้เปิดตัว GPU ใหม่ในชื่อ “Rubin CPX” ซึ่งออกแบบมาเฉพาะสำหรับงาน “context phase” ของการ inference — คือช่วงที่โมเดลต้องอ่านและตีความอินพุตทั้งหมดก่อนจะเริ่มสร้างผลลัพธ์ใด ๆ
Rubin CPX ใช้หน่วยความจำ GDDR7 ขนาด 128GB ซึ่งแม้จะมีแบนด์วิดธ์ต่ำกว่า HBM3E หรือ HBM4 แต่ก็มีข้อดีคือราคาถูกกว่า กินไฟน้อยกว่า และไม่ต้องใช้เทคโนโลยีแพ็กเกจขั้นสูงอย่าง CoWoS ทำให้ต้นทุนการผลิตลดลงอย่างมาก
ตัวชิปสามารถประมวลผลได้ถึง 30 NVFP4 PetaFLOPS และมีฮาร์ดแวร์เฉพาะสำหรับการเร่ง attention mechanism ซึ่งจำเป็นมากในการจัดการกับ context ยาวระดับล้านโทเคน โดยไม่ลดความเร็ว นอกจากนี้ยังมีฟีเจอร์สำหรับการเข้ารหัสและถอดรหัสวิดีโอ เพื่อรองรับงาน generative video ที่กำลังมาแรง
Rubin CPX จะทำงานร่วมกับ Rubin GPU และ Vera CPU ในระบบ Vera Rubin NVL144 CPX ซึ่งให้พลังประมวลผลรวมถึง 8 ExaFLOPS และหน่วยความจำสูงถึง 100TB ต่อแร็ค โดยใช้การเชื่อมต่อผ่าน Quantum-X800 InfiniBand หรือ Spectrum-XGS Ethernet
ที่สำคัญคือ Rubin CPX ไม่ต้องการการเขียนโค้ดใหม่ — นักพัฒนา AI สามารถใช้ CUDA, NIM microservices และเครื่องมือของ Nvidia ได้ทันที โดยระบบจะใช้ซอฟต์แวร์ “Dynamo” ในการจัดการการแบ่งงานระหว่าง context phase และ generation phase โดยอัตโนมัติ
หลายบริษัทเริ่มนำ Rubin CPX ไปใช้งานแล้ว เช่น Cursor สำหรับการสร้างโค้ดแบบเรียลไทม์, Runway สำหรับการสร้างวิดีโอแบบ agent-driven และ Magic สำหรับโมเดลที่ใช้ context ยาวถึง 100 ล้านโทเคน
ข้อมูลสำคัญจากข่าว
Nvidia เปิดตัว Rubin CPX GPU สำหรับงาน inference เฟสแรก (context phase)
ใช้ GDDR7 ขนาด 128GB ซึ่งราคาถูกและกินไฟน้อยกว่าหน่วยความจำ HBM
ประมวลผลได้ถึง 30 NVFP4 PetaFLOPS พร้อมฮาร์ดแวร์เร่ง attention mechanism
รองรับการเข้ารหัสและถอดรหัสวิดีโอสำหรับงาน generative video
ทำงานร่วมกับ Rubin GPU และ Vera CPU ในระบบ Vera Rubin NVL144 CPX
ระบบมีพลังรวม 8 ExaFLOPS และหน่วยความจำ 100TB ต่อแร็ค
ใช้การเชื่อมต่อผ่าน InfiniBand Quantum-X800 หรือ Ethernet Spectrum-XGS
รองรับ CUDA, NIM และเครื่องมือ Nvidia โดยไม่ต้องเขียนโค้ดใหม่
ใช้ซอฟต์แวร์ Dynamo ในการจัดการการแบ่งงานระหว่าง GPU โดยอัตโนมัติ
บริษัท Cursor, Runway และ Magic เริ่มนำ Rubin CPX ไปใช้งานจริงแล้ว
ข้อมูลเสริมจากภายนอก
Long-context inference คือการประมวลผลอินพุตจำนวนมากก่อนสร้างผลลัพธ์แรก
GDDR7 มีแบนด์วิดธ์ต่ำกว่า HBM แต่เหมาะกับงานที่เน้นความจุและต้นทุน
NVFP4 เป็นรูปแบบการประมวลผลที่ Nvidia พัฒนาขึ้นสำหรับงาน AI โดยเฉพาะ
Rubin CPX อาจใช้ดีไซน์เดียวกับ GR102/GR202 ซึ่งเป็น GPU สำหรับกราฟิกระดับสูง
การแยก context phase ออกจาก generation phase ช่วยเพิ่ม throughput ได้ถึง 6 เท่า
https://www.tomshardware.com/pc-components/gpus/nvidias-new-cpx-gpu-aims-to-change-the-game-in-ai-inference-how-the-debut-of-cheaper-and-cooler-gddr7-memory-could-redefine-ai-inference-infrastructure
ในยุคที่โมเดล AI ขนาดใหญ่ เช่น GPT-5, Gemini 2 และ Grok 3 ต้องประมวลผลข้อมูลจำนวนมหาศาลในคราวเดียว Nvidia ได้เปิดตัว GPU ใหม่ในชื่อ “Rubin CPX” ซึ่งออกแบบมาเฉพาะสำหรับงาน “context phase” ของการ inference — คือช่วงที่โมเดลต้องอ่านและตีความอินพุตทั้งหมดก่อนจะเริ่มสร้างผลลัพธ์ใด ๆ
Rubin CPX ใช้หน่วยความจำ GDDR7 ขนาด 128GB ซึ่งแม้จะมีแบนด์วิดธ์ต่ำกว่า HBM3E หรือ HBM4 แต่ก็มีข้อดีคือราคาถูกกว่า กินไฟน้อยกว่า และไม่ต้องใช้เทคโนโลยีแพ็กเกจขั้นสูงอย่าง CoWoS ทำให้ต้นทุนการผลิตลดลงอย่างมาก
ตัวชิปสามารถประมวลผลได้ถึง 30 NVFP4 PetaFLOPS และมีฮาร์ดแวร์เฉพาะสำหรับการเร่ง attention mechanism ซึ่งจำเป็นมากในการจัดการกับ context ยาวระดับล้านโทเคน โดยไม่ลดความเร็ว นอกจากนี้ยังมีฟีเจอร์สำหรับการเข้ารหัสและถอดรหัสวิดีโอ เพื่อรองรับงาน generative video ที่กำลังมาแรง
Rubin CPX จะทำงานร่วมกับ Rubin GPU และ Vera CPU ในระบบ Vera Rubin NVL144 CPX ซึ่งให้พลังประมวลผลรวมถึง 8 ExaFLOPS และหน่วยความจำสูงถึง 100TB ต่อแร็ค โดยใช้การเชื่อมต่อผ่าน Quantum-X800 InfiniBand หรือ Spectrum-XGS Ethernet
ที่สำคัญคือ Rubin CPX ไม่ต้องการการเขียนโค้ดใหม่ — นักพัฒนา AI สามารถใช้ CUDA, NIM microservices และเครื่องมือของ Nvidia ได้ทันที โดยระบบจะใช้ซอฟต์แวร์ “Dynamo” ในการจัดการการแบ่งงานระหว่าง context phase และ generation phase โดยอัตโนมัติ
หลายบริษัทเริ่มนำ Rubin CPX ไปใช้งานแล้ว เช่น Cursor สำหรับการสร้างโค้ดแบบเรียลไทม์, Runway สำหรับการสร้างวิดีโอแบบ agent-driven และ Magic สำหรับโมเดลที่ใช้ context ยาวถึง 100 ล้านโทเคน
ข้อมูลสำคัญจากข่าว
Nvidia เปิดตัว Rubin CPX GPU สำหรับงาน inference เฟสแรก (context phase)
ใช้ GDDR7 ขนาด 128GB ซึ่งราคาถูกและกินไฟน้อยกว่าหน่วยความจำ HBM
ประมวลผลได้ถึง 30 NVFP4 PetaFLOPS พร้อมฮาร์ดแวร์เร่ง attention mechanism
รองรับการเข้ารหัสและถอดรหัสวิดีโอสำหรับงาน generative video
ทำงานร่วมกับ Rubin GPU และ Vera CPU ในระบบ Vera Rubin NVL144 CPX
ระบบมีพลังรวม 8 ExaFLOPS และหน่วยความจำ 100TB ต่อแร็ค
ใช้การเชื่อมต่อผ่าน InfiniBand Quantum-X800 หรือ Ethernet Spectrum-XGS
รองรับ CUDA, NIM และเครื่องมือ Nvidia โดยไม่ต้องเขียนโค้ดใหม่
ใช้ซอฟต์แวร์ Dynamo ในการจัดการการแบ่งงานระหว่าง GPU โดยอัตโนมัติ
บริษัท Cursor, Runway และ Magic เริ่มนำ Rubin CPX ไปใช้งานจริงแล้ว
ข้อมูลเสริมจากภายนอก
Long-context inference คือการประมวลผลอินพุตจำนวนมากก่อนสร้างผลลัพธ์แรก
GDDR7 มีแบนด์วิดธ์ต่ำกว่า HBM แต่เหมาะกับงานที่เน้นความจุและต้นทุน
NVFP4 เป็นรูปแบบการประมวลผลที่ Nvidia พัฒนาขึ้นสำหรับงาน AI โดยเฉพาะ
Rubin CPX อาจใช้ดีไซน์เดียวกับ GR102/GR202 ซึ่งเป็น GPU สำหรับกราฟิกระดับสูง
การแยก context phase ออกจาก generation phase ช่วยเพิ่ม throughput ได้ถึง 6 เท่า
https://www.tomshardware.com/pc-components/gpus/nvidias-new-cpx-gpu-aims-to-change-the-game-in-ai-inference-how-the-debut-of-cheaper-and-cooler-gddr7-memory-could-redefine-ai-inference-infrastructure
🧠 “Nvidia Rubin CPX: ชิป AI ยุคใหม่ที่แยกงานประมวลผลออกเป็นสองเฟส — เร็วขึ้น ถูกลง และรองรับ context ยาวระดับล้านโทเคน”
ในยุคที่โมเดล AI ขนาดใหญ่ เช่น GPT-5, Gemini 2 และ Grok 3 ต้องประมวลผลข้อมูลจำนวนมหาศาลในคราวเดียว Nvidia ได้เปิดตัว GPU ใหม่ในชื่อ “Rubin CPX” ซึ่งออกแบบมาเฉพาะสำหรับงาน “context phase” ของการ inference — คือช่วงที่โมเดลต้องอ่านและตีความอินพุตทั้งหมดก่อนจะเริ่มสร้างผลลัพธ์ใด ๆ
Rubin CPX ใช้หน่วยความจำ GDDR7 ขนาด 128GB ซึ่งแม้จะมีแบนด์วิดธ์ต่ำกว่า HBM3E หรือ HBM4 แต่ก็มีข้อดีคือราคาถูกกว่า กินไฟน้อยกว่า และไม่ต้องใช้เทคโนโลยีแพ็กเกจขั้นสูงอย่าง CoWoS ทำให้ต้นทุนการผลิตลดลงอย่างมาก
ตัวชิปสามารถประมวลผลได้ถึง 30 NVFP4 PetaFLOPS และมีฮาร์ดแวร์เฉพาะสำหรับการเร่ง attention mechanism ซึ่งจำเป็นมากในการจัดการกับ context ยาวระดับล้านโทเคน โดยไม่ลดความเร็ว นอกจากนี้ยังมีฟีเจอร์สำหรับการเข้ารหัสและถอดรหัสวิดีโอ เพื่อรองรับงาน generative video ที่กำลังมาแรง
Rubin CPX จะทำงานร่วมกับ Rubin GPU และ Vera CPU ในระบบ Vera Rubin NVL144 CPX ซึ่งให้พลังประมวลผลรวมถึง 8 ExaFLOPS และหน่วยความจำสูงถึง 100TB ต่อแร็ค โดยใช้การเชื่อมต่อผ่าน Quantum-X800 InfiniBand หรือ Spectrum-XGS Ethernet
ที่สำคัญคือ Rubin CPX ไม่ต้องการการเขียนโค้ดใหม่ — นักพัฒนา AI สามารถใช้ CUDA, NIM microservices และเครื่องมือของ Nvidia ได้ทันที โดยระบบจะใช้ซอฟต์แวร์ “Dynamo” ในการจัดการการแบ่งงานระหว่าง context phase และ generation phase โดยอัตโนมัติ
หลายบริษัทเริ่มนำ Rubin CPX ไปใช้งานแล้ว เช่น Cursor สำหรับการสร้างโค้ดแบบเรียลไทม์, Runway สำหรับการสร้างวิดีโอแบบ agent-driven และ Magic สำหรับโมเดลที่ใช้ context ยาวถึง 100 ล้านโทเคน
✅ ข้อมูลสำคัญจากข่าว
➡️ Nvidia เปิดตัว Rubin CPX GPU สำหรับงาน inference เฟสแรก (context phase)
➡️ ใช้ GDDR7 ขนาด 128GB ซึ่งราคาถูกและกินไฟน้อยกว่าหน่วยความจำ HBM
➡️ ประมวลผลได้ถึง 30 NVFP4 PetaFLOPS พร้อมฮาร์ดแวร์เร่ง attention mechanism
➡️ รองรับการเข้ารหัสและถอดรหัสวิดีโอสำหรับงาน generative video
➡️ ทำงานร่วมกับ Rubin GPU และ Vera CPU ในระบบ Vera Rubin NVL144 CPX
➡️ ระบบมีพลังรวม 8 ExaFLOPS และหน่วยความจำ 100TB ต่อแร็ค
➡️ ใช้การเชื่อมต่อผ่าน InfiniBand Quantum-X800 หรือ Ethernet Spectrum-XGS
➡️ รองรับ CUDA, NIM และเครื่องมือ Nvidia โดยไม่ต้องเขียนโค้ดใหม่
➡️ ใช้ซอฟต์แวร์ Dynamo ในการจัดการการแบ่งงานระหว่าง GPU โดยอัตโนมัติ
➡️ บริษัท Cursor, Runway และ Magic เริ่มนำ Rubin CPX ไปใช้งานจริงแล้ว
✅ ข้อมูลเสริมจากภายนอก
➡️ Long-context inference คือการประมวลผลอินพุตจำนวนมากก่อนสร้างผลลัพธ์แรก
➡️ GDDR7 มีแบนด์วิดธ์ต่ำกว่า HBM แต่เหมาะกับงานที่เน้นความจุและต้นทุน
➡️ NVFP4 เป็นรูปแบบการประมวลผลที่ Nvidia พัฒนาขึ้นสำหรับงาน AI โดยเฉพาะ
➡️ Rubin CPX อาจใช้ดีไซน์เดียวกับ GR102/GR202 ซึ่งเป็น GPU สำหรับกราฟิกระดับสูง
➡️ การแยก context phase ออกจาก generation phase ช่วยเพิ่ม throughput ได้ถึง 6 เท่า
https://www.tomshardware.com/pc-components/gpus/nvidias-new-cpx-gpu-aims-to-change-the-game-in-ai-inference-how-the-debut-of-cheaper-and-cooler-gddr7-memory-could-redefine-ai-inference-infrastructure
0 ความคิดเห็น
0 การแบ่งปัน
145 มุมมอง
0 รีวิว