Mac Studio Cluster กับ RDMA บน Thunderbolt 5: Apple เปิดประตูสู่ยุค AI Supernode บนเดสก์ท็อป
การทดสอบล่าสุดของ Jeff Geerling เผยให้เห็นศักยภาพใหม่ของ Mac Studio M3 Ultra เมื่อจับมารวมคลัสเตอร์ผ่าน RDMA บน Thunderbolt 5 ซึ่งเป็นฟีเจอร์ใหม่ใน macOS 26.2 การเชื่อมต่อแบบ RDMA ทำให้เครื่องหลายตัวแชร์หน่วยความจำเสมือนเป็นก้อนเดียว ลด latency จากระดับ
300𝜇𝑠 เหลือไม่ถึง 50𝜇𝑠 ซึ่งเป็นตัวเลขที่ปกติพบในระบบ HPC ระดับศูนย์ข้อมูล ไม่ใช่บนเดสก์ท็อปทั่วไป

คลัสเตอร์ที่ใช้ทดสอบประกอบด้วย Mac Studio 4 เครื่อง รวมหน่วยความจำ 1.5 TB unified memory มูลค่ารวมเกือบ $40,000 แม้จะเป็นตัวเลขที่สูง แต่เมื่อเทียบกับระบบอย่าง Nvidia DGX Spark หรือ AMD AI Max+ 395 ที่มีหน่วยความจำสูงสุดเพียง 128 GB ต่อเครื่อง Mac Studio กลับให้สเปกที่เหนือกว่าในหลายมิติ โดยเฉพาะงาน inference ของโมเดลขนาดใหญ่

การทดสอบจริงพบว่า RDMA ทำให้ Exo 1.0 สามารถรันโมเดลระดับ 600+ GB (Kimi K2 Thinking) และแม้แต่โมเดลระดับ 1T parameters ได้ที่ความเร็วประมาณ 30 tokens/s บนคลัสเตอร์ 4 เครื่อง ซึ่งถือว่าเร็วพอสำหรับงานโต้ตอบแบบ near‑real‑time ในระดับ local compute นอกจากนี้ Mac Studio ยังโดดเด่นด้านพลังงาน ใช้ไฟไม่ถึง 250W ต่อเครื่อง และ idle ต่ำกว่า 10W ซึ่งเป็นตัวเลขที่หาได้ยากในโลก HPC

อย่างไรก็ตาม การจัดการคลัสเตอร์ macOS ยังมีข้อจำกัด เช่น การอัปเดตระบบที่ต้องคลิกผ่าน UI, ความยุ่งยากของการเดินสาย Thunderbolt 5 ที่ยังไม่มีสวิตช์กลาง, และความไม่เสถียรของ RDMA ในบางงาน เช่น HPL ที่ทำให้เครื่องรีบูตระหว่างทดสอบ แต่ภาพรวมแล้ว นี่คือสัญญาณว่า Apple กำลังกลับเข้าสู่โลก HPC อีกครั้ง หลังจากยุค Xserve และ Xgrid ที่เคยล้มเหลวในอดีต

สรุปประเด็นสำคัญ
RDMA บน Thunderbolt 5 เปลี่ยน Mac Studio ให้เป็น AI Supernode
ลด latency จาก 300 µs → < 50 µs
ทำให้หลายเครื่องแชร์หน่วยความจำเสมือนเป็นก้อนเดียว

ประสิทธิภาพของคลัสเตอร์ 1.5 TB unified memory
รันโมเดล 600+ GB และ 1T parameters ได้จริง
ทำงานเร็วพอสำหรับงาน AI แบบ local compute

Mac Studio vs ระบบ HPC เชิงพาณิชย์
แรงกว่า DGX Spark/AI Max+ 395 ในหลายงาน
ใช้พลังงานต่ำกว่าและเสียงเงียบกว่าอย่างมาก

ปัญหาและข้อจำกัด
macOS ยังไม่เหมาะกับการจัดการคลัสเตอร์แบบมืออาชีพ
Thunderbolt 5 ยังไม่มีสวิตช์ ทำให้ต้องต่อแบบ mesh
RDMA ยังมีบั๊กและความไม่เสถียรในบาง workload

คำเตือน / ประเด็นที่ควรระวัง
RDMA บน macOS ยังใหม่มาก
มีรายงาน crash เมื่อรัน HPL ผ่าน Thunderbolt

การจัดการคลัสเตอร์ macOS ยังไม่เทียบเท่า Linux
การอัปเดตระบบต้องทำผ่าน UI ไม่สามารถทำผ่าน SSH

การเดินสาย Thunderbolt 5 มีข้อจำกัดเชิงกายภาพ
ไม่มีสวิตช์ TB5 ทำให้การต่อหลายเครื่องยุ่งยากและไม่เสถียร

https://www.jeffgeerling.com/blog/2025/15-tb-vram-on-mac-studio-rdma-over-thunderbolt-5
⚡ Mac Studio Cluster กับ RDMA บน Thunderbolt 5: Apple เปิดประตูสู่ยุค AI Supernode บนเดสก์ท็อป การทดสอบล่าสุดของ Jeff Geerling เผยให้เห็นศักยภาพใหม่ของ Mac Studio M3 Ultra เมื่อจับมารวมคลัสเตอร์ผ่าน RDMA บน Thunderbolt 5 ซึ่งเป็นฟีเจอร์ใหม่ใน macOS 26.2 การเชื่อมต่อแบบ RDMA ทำให้เครื่องหลายตัวแชร์หน่วยความจำเสมือนเป็นก้อนเดียว ลด latency จากระดับ 300𝜇𝑠 เหลือไม่ถึง 50𝜇𝑠 ซึ่งเป็นตัวเลขที่ปกติพบในระบบ HPC ระดับศูนย์ข้อมูล ไม่ใช่บนเดสก์ท็อปทั่วไป คลัสเตอร์ที่ใช้ทดสอบประกอบด้วย Mac Studio 4 เครื่อง รวมหน่วยความจำ 1.5 TB unified memory มูลค่ารวมเกือบ $40,000 แม้จะเป็นตัวเลขที่สูง แต่เมื่อเทียบกับระบบอย่าง Nvidia DGX Spark หรือ AMD AI Max+ 395 ที่มีหน่วยความจำสูงสุดเพียง 128 GB ต่อเครื่อง Mac Studio กลับให้สเปกที่เหนือกว่าในหลายมิติ โดยเฉพาะงาน inference ของโมเดลขนาดใหญ่ การทดสอบจริงพบว่า RDMA ทำให้ Exo 1.0 สามารถรันโมเดลระดับ 600+ GB (Kimi K2 Thinking) และแม้แต่โมเดลระดับ 1T parameters ได้ที่ความเร็วประมาณ 30 tokens/s บนคลัสเตอร์ 4 เครื่อง ซึ่งถือว่าเร็วพอสำหรับงานโต้ตอบแบบ near‑real‑time ในระดับ local compute นอกจากนี้ Mac Studio ยังโดดเด่นด้านพลังงาน ใช้ไฟไม่ถึง 250W ต่อเครื่อง และ idle ต่ำกว่า 10W ซึ่งเป็นตัวเลขที่หาได้ยากในโลก HPC อย่างไรก็ตาม การจัดการคลัสเตอร์ macOS ยังมีข้อจำกัด เช่น การอัปเดตระบบที่ต้องคลิกผ่าน UI, ความยุ่งยากของการเดินสาย Thunderbolt 5 ที่ยังไม่มีสวิตช์กลาง, และความไม่เสถียรของ RDMA ในบางงาน เช่น HPL ที่ทำให้เครื่องรีบูตระหว่างทดสอบ แต่ภาพรวมแล้ว นี่คือสัญญาณว่า Apple กำลังกลับเข้าสู่โลก HPC อีกครั้ง หลังจากยุค Xserve และ Xgrid ที่เคยล้มเหลวในอดีต 📌 สรุปประเด็นสำคัญ ✅ RDMA บน Thunderbolt 5 เปลี่ยน Mac Studio ให้เป็น AI Supernode ➡️ ลด latency จาก 300 µs → < 50 µs ➡️ ทำให้หลายเครื่องแชร์หน่วยความจำเสมือนเป็นก้อนเดียว ✅ ประสิทธิภาพของคลัสเตอร์ 1.5 TB unified memory ➡️ รันโมเดล 600+ GB และ 1T parameters ได้จริง ➡️ ทำงานเร็วพอสำหรับงาน AI แบบ local compute ✅ Mac Studio vs ระบบ HPC เชิงพาณิชย์ ➡️ แรงกว่า DGX Spark/AI Max+ 395 ในหลายงาน ➡️ ใช้พลังงานต่ำกว่าและเสียงเงียบกว่าอย่างมาก ✅ ปัญหาและข้อจำกัด ➡️ macOS ยังไม่เหมาะกับการจัดการคลัสเตอร์แบบมืออาชีพ ➡️ Thunderbolt 5 ยังไม่มีสวิตช์ ทำให้ต้องต่อแบบ mesh ➡️ RDMA ยังมีบั๊กและความไม่เสถียรในบาง workload ⚠️ คำเตือน / ประเด็นที่ควรระวัง ‼️ RDMA บน macOS ยังใหม่มาก ⛔ มีรายงาน crash เมื่อรัน HPL ผ่าน Thunderbolt ‼️ การจัดการคลัสเตอร์ macOS ยังไม่เทียบเท่า Linux ⛔ การอัปเดตระบบต้องทำผ่าน UI ไม่สามารถทำผ่าน SSH ‼️ การเดินสาย Thunderbolt 5 มีข้อจำกัดเชิงกายภาพ ⛔ ไม่มีสวิตช์ TB5 ทำให้การต่อหลายเครื่องยุ่งยากและไม่เสถียร https://www.jeffgeerling.com/blog/2025/15-tb-vram-on-mac-studio-rdma-over-thunderbolt-5
0 ความคิดเห็น 0 การแบ่งปัน 21 มุมมอง 0 รีวิว