“EXO Labs ผสาน DGX Spark กับ Mac Studio สร้างระบบ LLM ความเร็วทะลุ 2.8 เท่า” — ยุคใหม่ของ AI inference แบบแยกส่วนที่ใช้ฮาร์ดแวร์ทั่วไป
EXO Labs ได้สาธิตระบบ AI inference แบบใหม่ที่ใช้แนวคิด “disaggregated inference” โดยผสานฮาร์ดแวร์ต่างชนิดเข้าด้วยกัน ได้แก่ 2 เครื่อง NVIDIA DGX Spark กับ Mac Studio ที่ใช้ชิป M3 Ultra ผ่านเครือข่าย 10-Gigabit Ethernet เพื่อแบ่งงานประมวลผลตามจุดแข็งของแต่ละเครื่อง
ระบบนี้ใช้ซอฟต์แวร์ EXO ซึ่งเป็น open-source framework ที่ออกแบบมาเพื่อกระจายงาน inference ของ LLM ไปยังอุปกรณ์หลายชนิด เช่น desktop, server, laptop หรือแม้แต่สมาร์ตโฟน โดยไม่จำเป็นต้องใช้ GPU เดียวกัน
หลักการทำงานคือแบ่งขั้นตอน inference ออกเป็น 2 ส่วน:
Prefill stage: อ่านและประมวลผล prompt ซึ่งต้องใช้พลังประมวลผลสูง — ให้ DGX Spark ทำ
Decode stage: สร้าง token ทีละตัว ซึ่งต้องใช้ bandwidth สูง — ให้ Mac Studio ทำ
EXO stream ข้อมูลภายในของโมเดล (KV cache) แบบ layer-by-layer เพื่อให้ทั้งสองระบบทำงานพร้อมกันโดยไม่ต้องรอกัน ส่งผลให้ความเร็วรวมเพิ่มขึ้นถึง 2.8 เท่าเมื่อเทียบกับ Mac Studio เพียงเครื่องเดียว
การทดสอบใช้โมเดล Llama 3.1 ขนาด 8B กับ prompt ยาว 8,000 token และพบว่าแม้จะเป็นโมเดลขนาดกลาง แต่การแบ่งงานแบบนี้ช่วยเพิ่มประสิทธิภาพได้อย่างชัดเจน
ข้อมูลในข่าว
EXO Labs สาธิตระบบ AI inference แบบ disaggregated โดยใช้ DGX Spark กับ Mac Studio
ใช้เครือข่าย 10-Gigabit Ethernet เชื่อมต่อระหว่างเครื่อง
ซอฟต์แวร์ EXO เป็น open-source framework สำหรับกระจายงาน inference
ระบบแบ่งงานเป็น prefill (DGX Spark) และ decode (Mac Studio)
ใช้การ stream KV cache แบบ layer-by-layer เพื่อให้ทำงานพร้อมกัน
ความเร็วรวมเพิ่มขึ้น 2.8 เท่าเมื่อเทียบกับ Mac Studio เดี่ยว
ทดสอบกับโมเดล Llama 3.1 ขนาด 8B และ prompt ยาว 8K token
EXO 1.0 ยังอยู่ในช่วง early access และไม่ใช่ซอฟต์แวร์ plug-and-play
NVIDIA เตรียมใช้แนวคิดนี้ในแพลตฟอร์ม Rubin CPX
Dynamo framework ของ NVIDIA มีเป้าหมายคล้ายกันแต่ไม่มีระบบ subscription อัตโนมัติ
https://www.tomshardware.com/software/two-nvidia-dgx-spark-systems-combined-with-m3-ultra-mac-studio-to-create-blistering-llm-system-exo-labs-demonstrates-disaggregated-ai-inference-and-achieves-a-2-8-benchmark-boost
EXO Labs ได้สาธิตระบบ AI inference แบบใหม่ที่ใช้แนวคิด “disaggregated inference” โดยผสานฮาร์ดแวร์ต่างชนิดเข้าด้วยกัน ได้แก่ 2 เครื่อง NVIDIA DGX Spark กับ Mac Studio ที่ใช้ชิป M3 Ultra ผ่านเครือข่าย 10-Gigabit Ethernet เพื่อแบ่งงานประมวลผลตามจุดแข็งของแต่ละเครื่อง
ระบบนี้ใช้ซอฟต์แวร์ EXO ซึ่งเป็น open-source framework ที่ออกแบบมาเพื่อกระจายงาน inference ของ LLM ไปยังอุปกรณ์หลายชนิด เช่น desktop, server, laptop หรือแม้แต่สมาร์ตโฟน โดยไม่จำเป็นต้องใช้ GPU เดียวกัน
หลักการทำงานคือแบ่งขั้นตอน inference ออกเป็น 2 ส่วน:
Prefill stage: อ่านและประมวลผล prompt ซึ่งต้องใช้พลังประมวลผลสูง — ให้ DGX Spark ทำ
Decode stage: สร้าง token ทีละตัว ซึ่งต้องใช้ bandwidth สูง — ให้ Mac Studio ทำ
EXO stream ข้อมูลภายในของโมเดล (KV cache) แบบ layer-by-layer เพื่อให้ทั้งสองระบบทำงานพร้อมกันโดยไม่ต้องรอกัน ส่งผลให้ความเร็วรวมเพิ่มขึ้นถึง 2.8 เท่าเมื่อเทียบกับ Mac Studio เพียงเครื่องเดียว
การทดสอบใช้โมเดล Llama 3.1 ขนาด 8B กับ prompt ยาว 8,000 token และพบว่าแม้จะเป็นโมเดลขนาดกลาง แต่การแบ่งงานแบบนี้ช่วยเพิ่มประสิทธิภาพได้อย่างชัดเจน
ข้อมูลในข่าว
EXO Labs สาธิตระบบ AI inference แบบ disaggregated โดยใช้ DGX Spark กับ Mac Studio
ใช้เครือข่าย 10-Gigabit Ethernet เชื่อมต่อระหว่างเครื่อง
ซอฟต์แวร์ EXO เป็น open-source framework สำหรับกระจายงาน inference
ระบบแบ่งงานเป็น prefill (DGX Spark) และ decode (Mac Studio)
ใช้การ stream KV cache แบบ layer-by-layer เพื่อให้ทำงานพร้อมกัน
ความเร็วรวมเพิ่มขึ้น 2.8 เท่าเมื่อเทียบกับ Mac Studio เดี่ยว
ทดสอบกับโมเดล Llama 3.1 ขนาด 8B และ prompt ยาว 8K token
EXO 1.0 ยังอยู่ในช่วง early access และไม่ใช่ซอฟต์แวร์ plug-and-play
NVIDIA เตรียมใช้แนวคิดนี้ในแพลตฟอร์ม Rubin CPX
Dynamo framework ของ NVIDIA มีเป้าหมายคล้ายกันแต่ไม่มีระบบ subscription อัตโนมัติ
https://www.tomshardware.com/software/two-nvidia-dgx-spark-systems-combined-with-m3-ultra-mac-studio-to-create-blistering-llm-system-exo-labs-demonstrates-disaggregated-ai-inference-and-achieves-a-2-8-benchmark-boost
⚡ “EXO Labs ผสาน DGX Spark กับ Mac Studio สร้างระบบ LLM ความเร็วทะลุ 2.8 เท่า” — ยุคใหม่ของ AI inference แบบแยกส่วนที่ใช้ฮาร์ดแวร์ทั่วไป
EXO Labs ได้สาธิตระบบ AI inference แบบใหม่ที่ใช้แนวคิด “disaggregated inference” โดยผสานฮาร์ดแวร์ต่างชนิดเข้าด้วยกัน ได้แก่ 2 เครื่อง NVIDIA DGX Spark กับ Mac Studio ที่ใช้ชิป M3 Ultra ผ่านเครือข่าย 10-Gigabit Ethernet เพื่อแบ่งงานประมวลผลตามจุดแข็งของแต่ละเครื่อง
ระบบนี้ใช้ซอฟต์แวร์ EXO ซึ่งเป็น open-source framework ที่ออกแบบมาเพื่อกระจายงาน inference ของ LLM ไปยังอุปกรณ์หลายชนิด เช่น desktop, server, laptop หรือแม้แต่สมาร์ตโฟน โดยไม่จำเป็นต้องใช้ GPU เดียวกัน
หลักการทำงานคือแบ่งขั้นตอน inference ออกเป็น 2 ส่วน:
⚛️ Prefill stage: อ่านและประมวลผล prompt ซึ่งต้องใช้พลังประมวลผลสูง — ให้ DGX Spark ทำ
⚛️ Decode stage: สร้าง token ทีละตัว ซึ่งต้องใช้ bandwidth สูง — ให้ Mac Studio ทำ
EXO stream ข้อมูลภายในของโมเดล (KV cache) แบบ layer-by-layer เพื่อให้ทั้งสองระบบทำงานพร้อมกันโดยไม่ต้องรอกัน ส่งผลให้ความเร็วรวมเพิ่มขึ้นถึง 2.8 เท่าเมื่อเทียบกับ Mac Studio เพียงเครื่องเดียว
การทดสอบใช้โมเดล Llama 3.1 ขนาด 8B กับ prompt ยาว 8,000 token และพบว่าแม้จะเป็นโมเดลขนาดกลาง แต่การแบ่งงานแบบนี้ช่วยเพิ่มประสิทธิภาพได้อย่างชัดเจน
✅ ข้อมูลในข่าว
➡️ EXO Labs สาธิตระบบ AI inference แบบ disaggregated โดยใช้ DGX Spark กับ Mac Studio
➡️ ใช้เครือข่าย 10-Gigabit Ethernet เชื่อมต่อระหว่างเครื่อง
➡️ ซอฟต์แวร์ EXO เป็น open-source framework สำหรับกระจายงาน inference
➡️ ระบบแบ่งงานเป็น prefill (DGX Spark) และ decode (Mac Studio)
➡️ ใช้การ stream KV cache แบบ layer-by-layer เพื่อให้ทำงานพร้อมกัน
➡️ ความเร็วรวมเพิ่มขึ้น 2.8 เท่าเมื่อเทียบกับ Mac Studio เดี่ยว
➡️ ทดสอบกับโมเดล Llama 3.1 ขนาด 8B และ prompt ยาว 8K token
➡️ EXO 1.0 ยังอยู่ในช่วง early access และไม่ใช่ซอฟต์แวร์ plug-and-play
➡️ NVIDIA เตรียมใช้แนวคิดนี้ในแพลตฟอร์ม Rubin CPX
➡️ Dynamo framework ของ NVIDIA มีเป้าหมายคล้ายกันแต่ไม่มีระบบ subscription อัตโนมัติ
https://www.tomshardware.com/software/two-nvidia-dgx-spark-systems-combined-with-m3-ultra-mac-studio-to-create-blistering-llm-system-exo-labs-demonstrates-disaggregated-ai-inference-and-achieves-a-2-8-benchmark-boost
0 Comments
0 Shares
80 Views
0 Reviews