Two Nvidia DGX Spark systems fused with M3 Ultra Mac Studio to...

shared a link

2025-10-17 04:44:46 -

“EXO Labs ผสาน DGX Spark กับ Mac Studio สร้างระบบ LLM ความเร็วทะลุ 2.8 เท่า” — ยุคใหม่ของ AI inference แบบแยกส่วนที่ใช้ฮาร์ดแวร์ทั่วไป

EXO Labs ได้สาธิตระบบ AI inference แบบใหม่ที่ใช้แนวคิด “disaggregated inference” โดยผสานฮาร์ดแวร์ต่างชนิดเข้าด้วยกัน ได้แก่ 2 เครื่อง NVIDIA DGX Spark กับ Mac Studio ที่ใช้ชิป M3 Ultra ผ่านเครือข่าย 10-Gigabit Ethernet เพื่อแบ่งงานประมวลผลตามจุดแข็งของแต่ละเครื่อง

ระบบนี้ใช้ซอฟต์แวร์ EXO ซึ่งเป็น open-source framework ที่ออกแบบมาเพื่อกระจายงาน inference ของ LLM ไปยังอุปกรณ์หลายชนิด เช่น desktop, server, laptop หรือแม้แต่สมาร์ตโฟน โดยไม่จำเป็นต้องใช้ GPU เดียวกัน

หลักการทำงานคือแบ่งขั้นตอน inference ออกเป็น 2 ส่วน:

Prefill stage: อ่านและประมวลผล prompt ซึ่งต้องใช้พลังประมวลผลสูง — ให้ DGX Spark ทำ
Decode stage: สร้าง token ทีละตัว ซึ่งต้องใช้ bandwidth สูง — ให้ Mac Studio ทำ

EXO stream ข้อมูลภายในของโมเดล (KV cache) แบบ layer-by-layer เพื่อให้ทั้งสองระบบทำงานพร้อมกันโดยไม่ต้องรอกัน ส่งผลให้ความเร็วรวมเพิ่มขึ้นถึง 2.8 เท่าเมื่อเทียบกับ Mac Studio เพียงเครื่องเดียว

การทดสอบใช้โมเดล Llama 3.1 ขนาด 8B กับ prompt ยาว 8,000 token และพบว่าแม้จะเป็นโมเดลขนาดกลาง แต่การแบ่งงานแบบนี้ช่วยเพิ่มประสิทธิภาพได้อย่างชัดเจน

ข้อมูลในข่าว
EXO Labs สาธิตระบบ AI inference แบบ disaggregated โดยใช้ DGX Spark กับ Mac Studio
ใช้เครือข่าย 10-Gigabit Ethernet เชื่อมต่อระหว่างเครื่อง
ซอฟต์แวร์ EXO เป็น open-source framework สำหรับกระจายงาน inference
ระบบแบ่งงานเป็น prefill (DGX Spark) และ decode (Mac Studio)
ใช้การ stream KV cache แบบ layer-by-layer เพื่อให้ทำงานพร้อมกัน
ความเร็วรวมเพิ่มขึ้น 2.8 เท่าเมื่อเทียบกับ Mac Studio เดี่ยว
ทดสอบกับโมเดล Llama 3.1 ขนาด 8B และ prompt ยาว 8K token
EXO 1.0 ยังอยู่ในช่วง early access และไม่ใช่ซอฟต์แวร์ plug-and-play
NVIDIA เตรียมใช้แนวคิดนี้ในแพลตฟอร์ม Rubin CPX
Dynamo framework ของ NVIDIA มีเป้าหมายคล้ายกันแต่ไม่มีระบบ subscription อัตโนมัติ

https://www.tomshardware.com/software/two-nvidia-dgx-spark-systems-combined-with-m3-ultra-mac-studio-to-create-blistering-llm-system-exo-labs-demonstrates-disaggregated-ai-inference-and-achieves-a-2-8-benchmark-boost

⚡ “EXO Labs ผสาน DGX Spark กับ Mac Studio สร้างระบบ LLM ความเร็วทะลุ 2.8 เท่า” — ยุคใหม่ของ AI inference แบบแยกส่วนที่ใช้ฮาร์ดแวร์ทั่วไป EXO Labs ได้สาธิตระบบ AI inference แบบใหม่ที่ใช้แนวคิด “disaggregated inference” โดยผสานฮาร์ดแวร์ต่างชนิดเข้าด้วยกัน ได้แก่ 2 เครื่อง NVIDIA DGX Spark กับ Mac Studio ที่ใช้ชิป M3 Ultra ผ่านเครือข่าย 10-Gigabit Ethernet เพื่อแบ่งงานประมวลผลตามจุดแข็งของแต่ละเครื่อง ระบบนี้ใช้ซอฟต์แวร์ EXO ซึ่งเป็น open-source framework ที่ออกแบบมาเพื่อกระจายงาน inference ของ LLM ไปยังอุปกรณ์หลายชนิด เช่น desktop, server, laptop หรือแม้แต่สมาร์ตโฟน โดยไม่จำเป็นต้องใช้ GPU เดียวกัน หลักการทำงานคือแบ่งขั้นตอน inference ออกเป็น 2 ส่วน: ⚛️ Prefill stage: อ่านและประมวลผล prompt ซึ่งต้องใช้พลังประมวลผลสูง — ให้ DGX Spark ทำ ⚛️ Decode stage: สร้าง token ทีละตัว ซึ่งต้องใช้ bandwidth สูง — ให้ Mac Studio ทำ EXO stream ข้อมูลภายในของโมเดล (KV cache) แบบ layer-by-layer เพื่อให้ทั้งสองระบบทำงานพร้อมกันโดยไม่ต้องรอกัน ส่งผลให้ความเร็วรวมเพิ่มขึ้นถึง 2.8 เท่าเมื่อเทียบกับ Mac Studio เพียงเครื่องเดียว การทดสอบใช้โมเดล Llama 3.1 ขนาด 8B กับ prompt ยาว 8,000 token และพบว่าแม้จะเป็นโมเดลขนาดกลาง แต่การแบ่งงานแบบนี้ช่วยเพิ่มประสิทธิภาพได้อย่างชัดเจน ✅ ข้อมูลในข่าว ➡️ EXO Labs สาธิตระบบ AI inference แบบ disaggregated โดยใช้ DGX Spark กับ Mac Studio ➡️ ใช้เครือข่าย 10-Gigabit Ethernet เชื่อมต่อระหว่างเครื่อง ➡️ ซอฟต์แวร์ EXO เป็น open-source framework สำหรับกระจายงาน inference ➡️ ระบบแบ่งงานเป็น prefill (DGX Spark) และ decode (Mac Studio) ➡️ ใช้การ stream KV cache แบบ layer-by-layer เพื่อให้ทำงานพร้อมกัน ➡️ ความเร็วรวมเพิ่มขึ้น 2.8 เท่าเมื่อเทียบกับ Mac Studio เดี่ยว ➡️ ทดสอบกับโมเดล Llama 3.1 ขนาด 8B และ prompt ยาว 8K token ➡️ EXO 1.0 ยังอยู่ในช่วง early access และไม่ใช่ซอฟต์แวร์ plug-and-play ➡️ NVIDIA เตรียมใช้แนวคิดนี้ในแพลตฟอร์ม Rubin CPX ➡️ Dynamo framework ของ NVIDIA มีเป้าหมายคล้ายกันแต่ไม่มีระบบ subscription อัตโนมัติ https://www.tomshardware.com/software/two-nvidia-dgx-spark-systems-combined-with-m3-ultra-mac-studio-to-create-blistering-llm-system-exo-labs-demonstrates-disaggregated-ai-inference-and-achieves-a-2-8-benchmark-boost

WWW.TOMSHARDWARE.COM

Two Nvidia DGX Spark systems fused with M3 Ultra Mac Studio to deliver 2.8x gain in AI benchmarks — EXO Labs demonstrates disaggregated AI inference serving

The company used its EXO tool to spread an inference workload across two DGX Spark systems and a Mac Studio.

0 Comments 0 Shares 80 Views 0 Reviews