“AMD เตรียมปล่อย ROCm 7.0 — ซอฟต์แวร์ AI ที่หวังโค่น CUDA ด้วยประสิทธิภาพทะลุ Blackwell”
AMD กำลังเตรียมเปิดตัว ROCm 7.0 ซึ่งเป็นเวอร์ชันใหม่ของชุดซอฟต์แวร์สำหรับการประมวลผล AI และ HPC โดยมีเป้าหมายชัดเจน: สร้างทางเลือกที่แท้จริงให้กับนักพัฒนาแทนการพึ่งพา CUDA ของ NVIDIA ที่ครองตลาดมายาวนาน ROCm 7.0 ถูกเพิ่มเข้าใน GitHub แล้ว และคาดว่าจะเปิดตัวภายในไม่กี่สัปดาห์ข้างหน้า
ในงาน Advancing AI ล่าสุด AMD ได้เผยว่า ROCm 7.0 จะมาพร้อมการปรับปรุงครั้งใหญ่ โดยเฉพาะด้าน inferencing และ training ซึ่งสามารถเพิ่มประสิทธิภาพได้ถึง 3.5 เท่าเมื่อเทียบกับ ROCm 6 และที่น่าตื่นเต้นที่สุดคือ Instinct MI355X สามารถทำ FP8 throughput ได้สูงกว่า Blackwell B200 ของ NVIDIA ถึง 30% ในโมเดล DeepSeek R1
ROCm 7.0 ยังรองรับฟีเจอร์ใหม่ เช่น HIP 7.0, การจัดการคลัสเตอร์, และเครื่องมือสำหรับองค์กร พร้อม Docker image ที่ปรับแต่งมาแล้วสำหรับ MI355, MI350, MI325 และ MI300 โดยสามารถใช้งานร่วมกับโมเดลขนาดใหญ่ที่ถูก quantize ด้วย AMD Quark เช่น Llama 3.3 70B และ gpt-oss-120B
เมื่อเปรียบเทียบกับ CUDA ล่าสุด พบว่า ROCm บน MI325X มีข้อได้เปรียบในหลายด้าน เช่น VRAM ขนาด 256GB ต่อ GPU ที่ช่วยลดความซับซ้อนของ pipeline และรองรับ batch ใหญ่ ๆ ได้ดี รวมถึงการทำงานร่วมกับ Hugging Face และ DeepSpeed ได้แบบ native โดยไม่ต้อง patch เพิ่ม
แม้ ROCm จะยังตามหลัง CUDA ในบางด้าน เช่น ecosystem ที่ยังไม่สมบูรณ์ และ library เฉพาะบางตัวที่ต้องปรับแต่งเอง แต่ก็ถือว่าเป็นทางเลือกที่จริงจังสำหรับองค์กรที่ต้องการลดต้นทุนและหลีกเลี่ยงการผูกขาดด้านฮาร์ดแวร์
ข้อมูลสำคัญจากข่าว
AMD เตรียมเปิดตัว ROCm 7.0 เพื่อเป็นทางเลือกแทน CUDA
เพิ่มประสิทธิภาพ inferencing และ training สูงถึง 3.5 เท่าเมื่อเทียบกับ ROCm 6
MI355X ทำ FP8 throughput ได้สูงกว่า Blackwell B200 ถึง 30%
มี Docker image สำหรับ MI355, MI350, MI325 และ MI300 พร้อมใช้งาน
ฟีเจอร์ใหม่และการรองรับ
รองรับ HIP 7.0, การจัดการคลัสเตอร์ และเครื่องมือสำหรับองค์กร
ใช้งานร่วมกับโมเดล MXFP4 และ FP8 ที่ถูก quantize ด้วย AMD Quark
รองรับ DeepSeek R1, Llama 3.3 70B, gpt-oss-120B และอื่น ๆ
ทำงานร่วมกับ Hugging Face และ DeepSpeed ได้แบบ native
ข้อมูลเสริมจากภายนอก
MI325X มี VRAM 256GB ต่อ GPU — เหนือกว่า H100 ที่ต้องแบ่งโมเดล
ROCm ไม่ล็อกผู้ใช้กับฮาร์ดแวร์เฉพาะเหมือน CUDA
TensorWave และ Scimus เริ่มให้บริการคลัสเตอร์ ROCm สำหรับองค์กร
ROCm เหมาะกับงาน inference ขนาดใหญ่และ training ที่เน้นต้นทุนต่อ TFLOP
https://wccftech.com/amd-initiates-work-on-rocm-7-compute-stack/
AMD กำลังเตรียมเปิดตัว ROCm 7.0 ซึ่งเป็นเวอร์ชันใหม่ของชุดซอฟต์แวร์สำหรับการประมวลผล AI และ HPC โดยมีเป้าหมายชัดเจน: สร้างทางเลือกที่แท้จริงให้กับนักพัฒนาแทนการพึ่งพา CUDA ของ NVIDIA ที่ครองตลาดมายาวนาน ROCm 7.0 ถูกเพิ่มเข้าใน GitHub แล้ว และคาดว่าจะเปิดตัวภายในไม่กี่สัปดาห์ข้างหน้า
ในงาน Advancing AI ล่าสุด AMD ได้เผยว่า ROCm 7.0 จะมาพร้อมการปรับปรุงครั้งใหญ่ โดยเฉพาะด้าน inferencing และ training ซึ่งสามารถเพิ่มประสิทธิภาพได้ถึง 3.5 เท่าเมื่อเทียบกับ ROCm 6 และที่น่าตื่นเต้นที่สุดคือ Instinct MI355X สามารถทำ FP8 throughput ได้สูงกว่า Blackwell B200 ของ NVIDIA ถึง 30% ในโมเดล DeepSeek R1
ROCm 7.0 ยังรองรับฟีเจอร์ใหม่ เช่น HIP 7.0, การจัดการคลัสเตอร์, และเครื่องมือสำหรับองค์กร พร้อม Docker image ที่ปรับแต่งมาแล้วสำหรับ MI355, MI350, MI325 และ MI300 โดยสามารถใช้งานร่วมกับโมเดลขนาดใหญ่ที่ถูก quantize ด้วย AMD Quark เช่น Llama 3.3 70B และ gpt-oss-120B
เมื่อเปรียบเทียบกับ CUDA ล่าสุด พบว่า ROCm บน MI325X มีข้อได้เปรียบในหลายด้าน เช่น VRAM ขนาด 256GB ต่อ GPU ที่ช่วยลดความซับซ้อนของ pipeline และรองรับ batch ใหญ่ ๆ ได้ดี รวมถึงการทำงานร่วมกับ Hugging Face และ DeepSpeed ได้แบบ native โดยไม่ต้อง patch เพิ่ม
แม้ ROCm จะยังตามหลัง CUDA ในบางด้าน เช่น ecosystem ที่ยังไม่สมบูรณ์ และ library เฉพาะบางตัวที่ต้องปรับแต่งเอง แต่ก็ถือว่าเป็นทางเลือกที่จริงจังสำหรับองค์กรที่ต้องการลดต้นทุนและหลีกเลี่ยงการผูกขาดด้านฮาร์ดแวร์
ข้อมูลสำคัญจากข่าว
AMD เตรียมเปิดตัว ROCm 7.0 เพื่อเป็นทางเลือกแทน CUDA
เพิ่มประสิทธิภาพ inferencing และ training สูงถึง 3.5 เท่าเมื่อเทียบกับ ROCm 6
MI355X ทำ FP8 throughput ได้สูงกว่า Blackwell B200 ถึง 30%
มี Docker image สำหรับ MI355, MI350, MI325 และ MI300 พร้อมใช้งาน
ฟีเจอร์ใหม่และการรองรับ
รองรับ HIP 7.0, การจัดการคลัสเตอร์ และเครื่องมือสำหรับองค์กร
ใช้งานร่วมกับโมเดล MXFP4 และ FP8 ที่ถูก quantize ด้วย AMD Quark
รองรับ DeepSeek R1, Llama 3.3 70B, gpt-oss-120B และอื่น ๆ
ทำงานร่วมกับ Hugging Face และ DeepSpeed ได้แบบ native
ข้อมูลเสริมจากภายนอก
MI325X มี VRAM 256GB ต่อ GPU — เหนือกว่า H100 ที่ต้องแบ่งโมเดล
ROCm ไม่ล็อกผู้ใช้กับฮาร์ดแวร์เฉพาะเหมือน CUDA
TensorWave และ Scimus เริ่มให้บริการคลัสเตอร์ ROCm สำหรับองค์กร
ROCm เหมาะกับงาน inference ขนาดใหญ่และ training ที่เน้นต้นทุนต่อ TFLOP
https://wccftech.com/amd-initiates-work-on-rocm-7-compute-stack/
🚀 “AMD เตรียมปล่อย ROCm 7.0 — ซอฟต์แวร์ AI ที่หวังโค่น CUDA ด้วยประสิทธิภาพทะลุ Blackwell”
AMD กำลังเตรียมเปิดตัว ROCm 7.0 ซึ่งเป็นเวอร์ชันใหม่ของชุดซอฟต์แวร์สำหรับการประมวลผล AI และ HPC โดยมีเป้าหมายชัดเจน: สร้างทางเลือกที่แท้จริงให้กับนักพัฒนาแทนการพึ่งพา CUDA ของ NVIDIA ที่ครองตลาดมายาวนาน ROCm 7.0 ถูกเพิ่มเข้าใน GitHub แล้ว และคาดว่าจะเปิดตัวภายในไม่กี่สัปดาห์ข้างหน้า
ในงาน Advancing AI ล่าสุด AMD ได้เผยว่า ROCm 7.0 จะมาพร้อมการปรับปรุงครั้งใหญ่ โดยเฉพาะด้าน inferencing และ training ซึ่งสามารถเพิ่มประสิทธิภาพได้ถึง 3.5 เท่าเมื่อเทียบกับ ROCm 6 และที่น่าตื่นเต้นที่สุดคือ Instinct MI355X สามารถทำ FP8 throughput ได้สูงกว่า Blackwell B200 ของ NVIDIA ถึง 30% ในโมเดล DeepSeek R1
ROCm 7.0 ยังรองรับฟีเจอร์ใหม่ เช่น HIP 7.0, การจัดการคลัสเตอร์, และเครื่องมือสำหรับองค์กร พร้อม Docker image ที่ปรับแต่งมาแล้วสำหรับ MI355, MI350, MI325 และ MI300 โดยสามารถใช้งานร่วมกับโมเดลขนาดใหญ่ที่ถูก quantize ด้วย AMD Quark เช่น Llama 3.3 70B และ gpt-oss-120B
เมื่อเปรียบเทียบกับ CUDA ล่าสุด พบว่า ROCm บน MI325X มีข้อได้เปรียบในหลายด้าน เช่น VRAM ขนาด 256GB ต่อ GPU ที่ช่วยลดความซับซ้อนของ pipeline และรองรับ batch ใหญ่ ๆ ได้ดี รวมถึงการทำงานร่วมกับ Hugging Face และ DeepSpeed ได้แบบ native โดยไม่ต้อง patch เพิ่ม
แม้ ROCm จะยังตามหลัง CUDA ในบางด้าน เช่น ecosystem ที่ยังไม่สมบูรณ์ และ library เฉพาะบางตัวที่ต้องปรับแต่งเอง แต่ก็ถือว่าเป็นทางเลือกที่จริงจังสำหรับองค์กรที่ต้องการลดต้นทุนและหลีกเลี่ยงการผูกขาดด้านฮาร์ดแวร์
✅ ข้อมูลสำคัญจากข่าว
➡️ AMD เตรียมเปิดตัว ROCm 7.0 เพื่อเป็นทางเลือกแทน CUDA
➡️ เพิ่มประสิทธิภาพ inferencing และ training สูงถึง 3.5 เท่าเมื่อเทียบกับ ROCm 6
➡️ MI355X ทำ FP8 throughput ได้สูงกว่า Blackwell B200 ถึง 30%
➡️ มี Docker image สำหรับ MI355, MI350, MI325 และ MI300 พร้อมใช้งาน
✅ ฟีเจอร์ใหม่และการรองรับ
➡️ รองรับ HIP 7.0, การจัดการคลัสเตอร์ และเครื่องมือสำหรับองค์กร
➡️ ใช้งานร่วมกับโมเดล MXFP4 และ FP8 ที่ถูก quantize ด้วย AMD Quark
➡️ รองรับ DeepSeek R1, Llama 3.3 70B, gpt-oss-120B และอื่น ๆ
➡️ ทำงานร่วมกับ Hugging Face และ DeepSpeed ได้แบบ native
✅ ข้อมูลเสริมจากภายนอก
➡️ MI325X มี VRAM 256GB ต่อ GPU — เหนือกว่า H100 ที่ต้องแบ่งโมเดล
➡️ ROCm ไม่ล็อกผู้ใช้กับฮาร์ดแวร์เฉพาะเหมือน CUDA
➡️ TensorWave และ Scimus เริ่มให้บริการคลัสเตอร์ ROCm สำหรับองค์กร
➡️ ROCm เหมาะกับงาน inference ขนาดใหญ่และ training ที่เน้นต้นทุนต่อ TFLOP
https://wccftech.com/amd-initiates-work-on-rocm-7-compute-stack/
0 Comments
0 Shares
6 Views
0 Reviews