Mac Studio Cluster กับ RDMA บน Thunderbolt 5: Apple เปิดประตูสู่ยุค AI Supernode บนเดสก์ท็อป
การทดสอบล่าสุดของ Jeff Geerling เผยให้เห็นศักยภาพใหม่ของ Mac Studio M3 Ultra เมื่อจับมารวมคลัสเตอร์ผ่าน RDMA บน Thunderbolt 5 ซึ่งเป็นฟีเจอร์ใหม่ใน macOS 26.2 การเชื่อมต่อแบบ RDMA ทำให้เครื่องหลายตัวแชร์หน่วยความจำเสมือนเป็นก้อนเดียว ลด latency จากระดับ
300𝜇𝑠 เหลือไม่ถึง 50𝜇𝑠 ซึ่งเป็นตัวเลขที่ปกติพบในระบบ HPC ระดับศูนย์ข้อมูล ไม่ใช่บนเดสก์ท็อปทั่วไป
คลัสเตอร์ที่ใช้ทดสอบประกอบด้วย Mac Studio 4 เครื่อง รวมหน่วยความจำ 1.5 TB unified memory มูลค่ารวมเกือบ $40,000 แม้จะเป็นตัวเลขที่สูง แต่เมื่อเทียบกับระบบอย่าง Nvidia DGX Spark หรือ AMD AI Max+ 395 ที่มีหน่วยความจำสูงสุดเพียง 128 GB ต่อเครื่อง Mac Studio กลับให้สเปกที่เหนือกว่าในหลายมิติ โดยเฉพาะงาน inference ของโมเดลขนาดใหญ่
การทดสอบจริงพบว่า RDMA ทำให้ Exo 1.0 สามารถรันโมเดลระดับ 600+ GB (Kimi K2 Thinking) และแม้แต่โมเดลระดับ 1T parameters ได้ที่ความเร็วประมาณ 30 tokens/s บนคลัสเตอร์ 4 เครื่อง ซึ่งถือว่าเร็วพอสำหรับงานโต้ตอบแบบ near‑real‑time ในระดับ local compute นอกจากนี้ Mac Studio ยังโดดเด่นด้านพลังงาน ใช้ไฟไม่ถึง 250W ต่อเครื่อง และ idle ต่ำกว่า 10W ซึ่งเป็นตัวเลขที่หาได้ยากในโลก HPC
อย่างไรก็ตาม การจัดการคลัสเตอร์ macOS ยังมีข้อจำกัด เช่น การอัปเดตระบบที่ต้องคลิกผ่าน UI, ความยุ่งยากของการเดินสาย Thunderbolt 5 ที่ยังไม่มีสวิตช์กลาง, และความไม่เสถียรของ RDMA ในบางงาน เช่น HPL ที่ทำให้เครื่องรีบูตระหว่างทดสอบ แต่ภาพรวมแล้ว นี่คือสัญญาณว่า Apple กำลังกลับเข้าสู่โลก HPC อีกครั้ง หลังจากยุค Xserve และ Xgrid ที่เคยล้มเหลวในอดีต
สรุปประเด็นสำคัญ
RDMA บน Thunderbolt 5 เปลี่ยน Mac Studio ให้เป็น AI Supernode
ลด latency จาก 300 µs → < 50 µs
ทำให้หลายเครื่องแชร์หน่วยความจำเสมือนเป็นก้อนเดียว
ประสิทธิภาพของคลัสเตอร์ 1.5 TB unified memory
รันโมเดล 600+ GB และ 1T parameters ได้จริง
ทำงานเร็วพอสำหรับงาน AI แบบ local compute
Mac Studio vs ระบบ HPC เชิงพาณิชย์
แรงกว่า DGX Spark/AI Max+ 395 ในหลายงาน
ใช้พลังงานต่ำกว่าและเสียงเงียบกว่าอย่างมาก
ปัญหาและข้อจำกัด
macOS ยังไม่เหมาะกับการจัดการคลัสเตอร์แบบมืออาชีพ
Thunderbolt 5 ยังไม่มีสวิตช์ ทำให้ต้องต่อแบบ mesh
RDMA ยังมีบั๊กและความไม่เสถียรในบาง workload
คำเตือน / ประเด็นที่ควรระวัง
RDMA บน macOS ยังใหม่มาก
มีรายงาน crash เมื่อรัน HPL ผ่าน Thunderbolt
การจัดการคลัสเตอร์ macOS ยังไม่เทียบเท่า Linux
การอัปเดตระบบต้องทำผ่าน UI ไม่สามารถทำผ่าน SSH
การเดินสาย Thunderbolt 5 มีข้อจำกัดเชิงกายภาพ
ไม่มีสวิตช์ TB5 ทำให้การต่อหลายเครื่องยุ่งยากและไม่เสถียร
https://www.jeffgeerling.com/blog/2025/15-tb-vram-on-mac-studio-rdma-over-thunderbolt-5
การทดสอบล่าสุดของ Jeff Geerling เผยให้เห็นศักยภาพใหม่ของ Mac Studio M3 Ultra เมื่อจับมารวมคลัสเตอร์ผ่าน RDMA บน Thunderbolt 5 ซึ่งเป็นฟีเจอร์ใหม่ใน macOS 26.2 การเชื่อมต่อแบบ RDMA ทำให้เครื่องหลายตัวแชร์หน่วยความจำเสมือนเป็นก้อนเดียว ลด latency จากระดับ
300𝜇𝑠 เหลือไม่ถึง 50𝜇𝑠 ซึ่งเป็นตัวเลขที่ปกติพบในระบบ HPC ระดับศูนย์ข้อมูล ไม่ใช่บนเดสก์ท็อปทั่วไป
คลัสเตอร์ที่ใช้ทดสอบประกอบด้วย Mac Studio 4 เครื่อง รวมหน่วยความจำ 1.5 TB unified memory มูลค่ารวมเกือบ $40,000 แม้จะเป็นตัวเลขที่สูง แต่เมื่อเทียบกับระบบอย่าง Nvidia DGX Spark หรือ AMD AI Max+ 395 ที่มีหน่วยความจำสูงสุดเพียง 128 GB ต่อเครื่อง Mac Studio กลับให้สเปกที่เหนือกว่าในหลายมิติ โดยเฉพาะงาน inference ของโมเดลขนาดใหญ่
การทดสอบจริงพบว่า RDMA ทำให้ Exo 1.0 สามารถรันโมเดลระดับ 600+ GB (Kimi K2 Thinking) และแม้แต่โมเดลระดับ 1T parameters ได้ที่ความเร็วประมาณ 30 tokens/s บนคลัสเตอร์ 4 เครื่อง ซึ่งถือว่าเร็วพอสำหรับงานโต้ตอบแบบ near‑real‑time ในระดับ local compute นอกจากนี้ Mac Studio ยังโดดเด่นด้านพลังงาน ใช้ไฟไม่ถึง 250W ต่อเครื่อง และ idle ต่ำกว่า 10W ซึ่งเป็นตัวเลขที่หาได้ยากในโลก HPC
อย่างไรก็ตาม การจัดการคลัสเตอร์ macOS ยังมีข้อจำกัด เช่น การอัปเดตระบบที่ต้องคลิกผ่าน UI, ความยุ่งยากของการเดินสาย Thunderbolt 5 ที่ยังไม่มีสวิตช์กลาง, และความไม่เสถียรของ RDMA ในบางงาน เช่น HPL ที่ทำให้เครื่องรีบูตระหว่างทดสอบ แต่ภาพรวมแล้ว นี่คือสัญญาณว่า Apple กำลังกลับเข้าสู่โลก HPC อีกครั้ง หลังจากยุค Xserve และ Xgrid ที่เคยล้มเหลวในอดีต
สรุปประเด็นสำคัญ
RDMA บน Thunderbolt 5 เปลี่ยน Mac Studio ให้เป็น AI Supernode
ลด latency จาก 300 µs → < 50 µs
ทำให้หลายเครื่องแชร์หน่วยความจำเสมือนเป็นก้อนเดียว
ประสิทธิภาพของคลัสเตอร์ 1.5 TB unified memory
รันโมเดล 600+ GB และ 1T parameters ได้จริง
ทำงานเร็วพอสำหรับงาน AI แบบ local compute
Mac Studio vs ระบบ HPC เชิงพาณิชย์
แรงกว่า DGX Spark/AI Max+ 395 ในหลายงาน
ใช้พลังงานต่ำกว่าและเสียงเงียบกว่าอย่างมาก
ปัญหาและข้อจำกัด
macOS ยังไม่เหมาะกับการจัดการคลัสเตอร์แบบมืออาชีพ
Thunderbolt 5 ยังไม่มีสวิตช์ ทำให้ต้องต่อแบบ mesh
RDMA ยังมีบั๊กและความไม่เสถียรในบาง workload
คำเตือน / ประเด็นที่ควรระวัง
RDMA บน macOS ยังใหม่มาก
มีรายงาน crash เมื่อรัน HPL ผ่าน Thunderbolt
การจัดการคลัสเตอร์ macOS ยังไม่เทียบเท่า Linux
การอัปเดตระบบต้องทำผ่าน UI ไม่สามารถทำผ่าน SSH
การเดินสาย Thunderbolt 5 มีข้อจำกัดเชิงกายภาพ
ไม่มีสวิตช์ TB5 ทำให้การต่อหลายเครื่องยุ่งยากและไม่เสถียร
https://www.jeffgeerling.com/blog/2025/15-tb-vram-on-mac-studio-rdma-over-thunderbolt-5
⚡ Mac Studio Cluster กับ RDMA บน Thunderbolt 5: Apple เปิดประตูสู่ยุค AI Supernode บนเดสก์ท็อป
การทดสอบล่าสุดของ Jeff Geerling เผยให้เห็นศักยภาพใหม่ของ Mac Studio M3 Ultra เมื่อจับมารวมคลัสเตอร์ผ่าน RDMA บน Thunderbolt 5 ซึ่งเป็นฟีเจอร์ใหม่ใน macOS 26.2 การเชื่อมต่อแบบ RDMA ทำให้เครื่องหลายตัวแชร์หน่วยความจำเสมือนเป็นก้อนเดียว ลด latency จากระดับ
300𝜇𝑠 เหลือไม่ถึง 50𝜇𝑠 ซึ่งเป็นตัวเลขที่ปกติพบในระบบ HPC ระดับศูนย์ข้อมูล ไม่ใช่บนเดสก์ท็อปทั่วไป
คลัสเตอร์ที่ใช้ทดสอบประกอบด้วย Mac Studio 4 เครื่อง รวมหน่วยความจำ 1.5 TB unified memory มูลค่ารวมเกือบ $40,000 แม้จะเป็นตัวเลขที่สูง แต่เมื่อเทียบกับระบบอย่าง Nvidia DGX Spark หรือ AMD AI Max+ 395 ที่มีหน่วยความจำสูงสุดเพียง 128 GB ต่อเครื่อง Mac Studio กลับให้สเปกที่เหนือกว่าในหลายมิติ โดยเฉพาะงาน inference ของโมเดลขนาดใหญ่
การทดสอบจริงพบว่า RDMA ทำให้ Exo 1.0 สามารถรันโมเดลระดับ 600+ GB (Kimi K2 Thinking) และแม้แต่โมเดลระดับ 1T parameters ได้ที่ความเร็วประมาณ 30 tokens/s บนคลัสเตอร์ 4 เครื่อง ซึ่งถือว่าเร็วพอสำหรับงานโต้ตอบแบบ near‑real‑time ในระดับ local compute นอกจากนี้ Mac Studio ยังโดดเด่นด้านพลังงาน ใช้ไฟไม่ถึง 250W ต่อเครื่อง และ idle ต่ำกว่า 10W ซึ่งเป็นตัวเลขที่หาได้ยากในโลก HPC
อย่างไรก็ตาม การจัดการคลัสเตอร์ macOS ยังมีข้อจำกัด เช่น การอัปเดตระบบที่ต้องคลิกผ่าน UI, ความยุ่งยากของการเดินสาย Thunderbolt 5 ที่ยังไม่มีสวิตช์กลาง, และความไม่เสถียรของ RDMA ในบางงาน เช่น HPL ที่ทำให้เครื่องรีบูตระหว่างทดสอบ แต่ภาพรวมแล้ว นี่คือสัญญาณว่า Apple กำลังกลับเข้าสู่โลก HPC อีกครั้ง หลังจากยุค Xserve และ Xgrid ที่เคยล้มเหลวในอดีต
📌 สรุปประเด็นสำคัญ
✅ RDMA บน Thunderbolt 5 เปลี่ยน Mac Studio ให้เป็น AI Supernode
➡️ ลด latency จาก 300 µs → < 50 µs
➡️ ทำให้หลายเครื่องแชร์หน่วยความจำเสมือนเป็นก้อนเดียว
✅ ประสิทธิภาพของคลัสเตอร์ 1.5 TB unified memory
➡️ รันโมเดล 600+ GB และ 1T parameters ได้จริง
➡️ ทำงานเร็วพอสำหรับงาน AI แบบ local compute
✅ Mac Studio vs ระบบ HPC เชิงพาณิชย์
➡️ แรงกว่า DGX Spark/AI Max+ 395 ในหลายงาน
➡️ ใช้พลังงานต่ำกว่าและเสียงเงียบกว่าอย่างมาก
✅ ปัญหาและข้อจำกัด
➡️ macOS ยังไม่เหมาะกับการจัดการคลัสเตอร์แบบมืออาชีพ
➡️ Thunderbolt 5 ยังไม่มีสวิตช์ ทำให้ต้องต่อแบบ mesh
➡️ RDMA ยังมีบั๊กและความไม่เสถียรในบาง workload
⚠️ คำเตือน / ประเด็นที่ควรระวัง
‼️ RDMA บน macOS ยังใหม่มาก
⛔ มีรายงาน crash เมื่อรัน HPL ผ่าน Thunderbolt
‼️ การจัดการคลัสเตอร์ macOS ยังไม่เทียบเท่า Linux
⛔ การอัปเดตระบบต้องทำผ่าน UI ไม่สามารถทำผ่าน SSH
‼️ การเดินสาย Thunderbolt 5 มีข้อจำกัดเชิงกายภาพ
⛔ ไม่มีสวิตช์ TB5 ทำให้การต่อหลายเครื่องยุ่งยากและไม่เสถียร
https://www.jeffgeerling.com/blog/2025/15-tb-vram-on-mac-studio-rdma-over-thunderbolt-5
0 Comments
0 Shares
21 Views
0 Reviews