“āļĻāļķāļāļāļīāļ AI āļĢāļ°āļāļąāļāđāļĨāļ! NVIDIA Blackwell Ultra GB300 āļāļ°āļāļ° AMD Instinct MI355X āđāļ MLPerf v5.1 — āđāļĢāđāļ§āļāļķāđāļ āļāļĨāļēāļāļāļķāđāļ āđāļĨāļ°āļĢāđāļāļāđāļĢāļāļāļ§āđāļēāđāļāļīāļĄ”
āđāļāđāļĨāļāļāļāļ AI āļāļĩāđāđāļāđāļāļāļąāļāļāļąāļāļāđāļ§āļĒāļāļ§āļēāļĄāđāļĢāđāļ§āđāļĨāļ°āļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļ āļāļīāļāļāļĢāļ°āļĄāļ§āļĨāļāļĨāļāļ·āļāļŦāļąāļ§āđāļāļāļāļāļāļļāļāļĢāļ°āļāļ āđāļĨāļ°āđāļāļĢāļāļāļĨāđāļēāļŠāļļāļāļāļāļāļāļēāļĢāļāļāļŠāļāļ MLPerf v5.1 āļāļķāđāļāđāļāđāļāļĄāļēāļāļĢāļāļēāļāļĢāļ°āļāļąāļāđāļĨāļāļŠāļģāļŦāļĢāļąāļāļāļēāļĢāļ§āļąāļāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨ AI — NVIDIA āđāļĨāļ° AMD āļāđāļēāļāļāđāļŠāđāļāļāļīāļāđāļĢāļ·āļāļāļāļāļāļāļāļāđāļāđāļēāļāļĢāļ°āļĨāļāļāļāļąāļāđāļāļāđāļĄāđāļĄāļĩāđāļāļĢāļĒāļāļĄāđāļāļĢ
NVIDIA āđāļāļīāļāļāļąāļ§ Blackwell Ultra GB300 āļāļķāđāļāđāļāđāļāļĢāļļāđāļāļāļąāļāđāļāļĢāļāļāļēāļ GB200 āđāļāļĒāļŠāļēāļĄāļēāļĢāļāļāļģāļāļ§āļēāļĄāđāļĢāđāļ§āđāļāđāļŠāļđāļāļāļķāđāļāļāļķāļ 45% āđāļāļāļēāļ DeepSeek R1 (Offline) āđāļĄāļ·āđāļāđāļāđ 72 GPU āđāļĨāļ° 44% āđāļĄāļ·āđāļāđāļāđ 8 GPU āļŠāđāļ§āļāđāļāđāļŦāļĄāļ Server āļāđāļĒāļąāļāđāļĢāđāļ§āļāļķāđāļāļāļķāļ 25% āđāļĨāļ° 21% āļāļēāļĄāļĨāļģāļāļąāļ1 āļāļ·āļāđāļāđāļāļāļēāļĢāļāļģāļāļēāļĄāļŠāļąāļāļāļēāļāļĩāđāđāļāļĒāļāļĢāļ°āļāļēāļĻāđāļ§āđāļ§āđāļē Blackwell Ultra āļāļ°āđāļĢāđāļ§āļāļķāđāļāļāļĢāļ°āļĄāļēāļ 50%
āļāļąāđāļ AMD āļāđāđāļĄāđāļāđāļāļĒāļŦāļāđāļē āļŠāđāļ Instinct MI355X āđāļāđāļēāļĢāđāļ§āļĄāļāļēāļĢāļāļāļŠāļāļ āđāļāļĒāđāļāļāļēāļ Llama 3.1 405B (Offline) āļāļāļ§āđāļēāļāļģāļāļ§āļēāļĄāđāļĢāđāļ§āđāļāđāļŠāļđāļāļāļ§āđāļē GB200 āļāļķāļ 27% āđāļĨāļ°āđāļāļāļēāļ Llama 2 70B (Offline) MI355X āļŠāļēāļĄāļēāļĢāļāļŠāļĢāđāļēāļ token āđāļāđāļāļķāļ 648,248 āļāđāļāļ§āļīāļāļēāļāļĩāđāļāļĢāļ°āļāļ 64 āļāļīāļ āđāļĨāļ° 93,045 āđāļāļĢāļ°āļāļ 8 āļāļīāļ — āđāļĢāđāļ§āļāļ§āđāļē GB200 āļāļķāļ 2 āđāļāđāļē
NVIDIA āļĒāļąāļāđāļāļ§āđāļāļĨāļąāļāļāļāļ GB300 āļāđāļ§āļĒāļāļēāļĢāļāļģāļĨāļēāļĒāļŠāļāļīāļāļīāđāļāļŦāļĨāļēāļĒāļŦāļĄāļ§āļ āđāļāđāļ Stable Diffusion XL, Whisper, Mixtral āđāļĨāļ° DLRMv2 āđāļāļĒāđāļāđāđāļāļāļāļīāļāđāļŦāļĄāđāļāļĒāđāļēāļ NVFP4 āļāļķāđāļāđāļāđāļāļāļāļĢāđāđāļĄāļ 4-bit floating point āļāļĩāđāļāļāļāđāļāļāļĄāļēāđāļāļāļēāļ°āļŠāļģāļŦāļĢāļąāļāļāļēāļ AI reasoning āļāļĢāđāļāļĄāļĢāļ°āļāļāđāļŠāļīāļĢāđāļāđāļāļāđāļĒāļ context āđāļĨāļ° generation āđāļāļ·āđāļāđāļāļīāđāļĄ throughput āļŠāļđāļāļŠāļļāļ
āļāļēāļĢāļāļāļŠāļāļāļāļĢāļąāđāļāļāļĩāđāļĒāļąāļāļĄāļĩ Intel Arc Pro B60 āđāļāđāļēāļĢāđāļ§āļĄāļāđāļ§āļĒ āđāļĄāđāļāļ°āđāļĄāđāđāļĢāđāļ§āđāļāđāļēāļāļīāļāļĢāļ°āļāļąāļ datacenter āđāļāđāļāđāļĄāļĩāļāļļāļāđāļāđāļāļāđāļēāļāļāļ§āļēāļĄāļāļļāđāļĄāļāđāļēāđāļĨāļ°āļāļēāļĢāđāļāđāļāļēāļāđāļāļĢāļ°āļāļāļāļāļēāļāđāļĨāđāļ — āļŠāļ°āļāđāļāļāļ§āđāļēāļāļēāļĢāđāļāđāļāļāļąāļāđāļĄāđāđāļāđāļĄāļĩāđāļāđāđāļĢāļ·āđāļāļāļāļ§āļēāļĄāđāļĢāđāļ§ āđāļāđāļĒāļąāļāļĢāļ§āļĄāļāļķāļāļāļēāļĢāļāļāļāđāļāļāļāļĩāđāļāļāļāđāļāļāļĒāđāļāļēāļĢāđāļāđāļāļēāļāļāļĢāļīāļ
āļāļĨāļāļēāļĢāļāļāļŠāļāļ MLPerf v5.1
GB300 āđāļĢāđāļ§āļāļ§āđāļē GB200 āļāļķāļ 45% āđāļ DeepSeek R1 (Offline) āđāļĨāļ° 25% āđāļ Server
MI355X āđāļĢāđāļ§āļāļ§āđāļē GB200 āļāļķāļ 27% āđāļ Llama 3.1 405B āđāļĨāļ° 2.09x āđāļ Llama 2 70B
GB300 āļāļģāļĨāļēāļĒāļŠāļāļīāļāļīāđāļāļŦāļĨāļēāļĒāļŦāļĄāļ§āļ āđāļāđāļ Whisper, Mixtral, DLRMv2 āđāļĨāļ° Stable Diffusion XL
āđāļāđāđāļāļāļāļīāļ NVFP4 āđāļĨāļ°āļĢāļ°āļāļāđāļŠāļīāļĢāđāļāđāļāļāđāļĒāļ context/generation āđāļāļ·āđāļāđāļāļīāđāļĄ throughput
āļāļļāļāđāļāđāļāļāļāļ Blackwell Ultra GB300
āļĄāļĩ 1.5x NVFP4 compute āđāļĨāļ° 2x attention-layer acceleration āđāļĄāļ·āđāļāđāļāļĩāļĒāļāļāļąāļ Blackwell āļĢāļļāđāļāļāđāļāļ
āđāļāđ HBM3e āļŠāļđāļāļŠāļļāļ 288GB āļāđāļ GPU
āļāļģāļāļ§āļēāļĄāđāļĢāđāļ§ reasoning āđāļāđāļŠāļđāļāļāļ§āđāļē Hopper āļāļķāļ 4.7x āđāļ Offline āđāļĨāļ° 5.2x āđāļ Server1
āļāļ·āļāļāļĢāļāļāļŠāļāļīāļāļī per-GPU āđāļāļāļļāļāļŦāļĄāļ§āļāļāļāļ MLPerf datacenter benchmark
āļāļļāļāđāļāđāļāļāļāļ AMD Instinct MI355X
āļāļģ token generation āđāļāđāļŠāļđāļāļŠāļļāļ 648,248 āļāđāļāļ§āļīāļāļēāļāļĩāđāļāļĢāļ°āļāļ 64 āļāļīāļ
āđāļĢāđāļ§āļāļ§āđāļē GB200 āļāļķāļ 2 āđāļāđāļēāđāļāļĢāļ°āļāļ 8 āļāļīāļ
āđāļŦāļĄāļēāļ°āļāļąāļāļāļēāļ LLM āļāļāļēāļāđāļŦāļāđ āđāļāđāļ Llama 2 āđāļĨāļ° Llama 3.1
āļĄāļĩāļāļēāļĢāļāļĢāļąāļāļāļĢāļļāļāļāđāļēāļ memory bandwidth āđāļĨāļ°āļāļēāļĢāļāļąāļāļāļēāļĢāļāļĨāļąāļāļāļēāļ
āļāđāļāļĄāļđāļĨāđāļŠāļĢāļīāļĄāļāļēāļāļ āļēāļĒāļāļāļ
MLPerf v5.1 āļĄāļĩāļāļđāđāđāļāđāļēāļĢāđāļ§āļĄāļĄāļēāļāļāļķāļ 27 āļĢāļēāļĒ āđāļĨāļ°āđāļāļīāđāļĄ benchmark āđāļŦāļĄāđ 3 āļĢāļēāļĒāļāļēāļĢ āđāļāđāđāļāđ DeepSeek-R1, Llama 3.1 8B āđāļĨāļ° Whisper Large V3
NVIDIA āđāļāđ TensorRT-LLM āđāļĨāļ° Model Optimizer āđāļāļ·āđāļāļāļĢāļąāļāđāļāđāļāđāļĄāđāļāļĨāđāļŦāđāļāļģāļāļēāļāļāļąāļ NVFP4 āđāļāđāļāļĒāđāļēāļāđāļĄāđāļāļĒāļģ2 āļāļēāļĢāđāļŠāļīāļĢāđāļāđāļāļāđāļĒāļ context/generation āļāđāļ§āļĒāđāļāļīāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāđāļāļāļēāļ LLM āđāļāļ interactive
Intel Arc Pro B60 āđāļĄāđāļāļ°āļāđāļēāļāļ§āđāļē āđāļāđāļĄāļĩāļāļļāļāđāļāđāļāļāđāļēāļāļāļ§āļēāļĄāļāļļāđāļĄāļāđāļēāđāļĨāļ°āļāļēāļĢāđāļāđāļāļēāļāđāļāļĢāļ°āļāļāļāļāļēāļāđāļĨāđāļ
https://wccftech.com/mlperf-v5-1-ai-inference-benchmark-showdown-nvidia-blackwell-ultra-gb300-amd-instinct-mi355x/
āđāļāđāļĨāļāļāļāļ AI āļāļĩāđāđāļāđāļāļāļąāļāļāļąāļāļāđāļ§āļĒāļāļ§āļēāļĄāđāļĢāđāļ§āđāļĨāļ°āļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļ āļāļīāļāļāļĢāļ°āļĄāļ§āļĨāļāļĨāļāļ·āļāļŦāļąāļ§āđāļāļāļāļāļāļļāļāļĢāļ°āļāļ āđāļĨāļ°āđāļāļĢāļāļāļĨāđāļēāļŠāļļāļāļāļāļāļāļēāļĢāļāļāļŠāļāļ MLPerf v5.1 āļāļķāđāļāđāļāđāļāļĄāļēāļāļĢāļāļēāļāļĢāļ°āļāļąāļāđāļĨāļāļŠāļģāļŦāļĢāļąāļāļāļēāļĢāļ§āļąāļāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨ AI — NVIDIA āđāļĨāļ° AMD āļāđāļēāļāļāđāļŠāđāļāļāļīāļāđāļĢāļ·āļāļāļāļāļāļāļāļāđāļāđāļēāļāļĢāļ°āļĨāļāļāļāļąāļāđāļāļāđāļĄāđāļĄāļĩāđāļāļĢāļĒāļāļĄāđāļāļĢ
NVIDIA āđāļāļīāļāļāļąāļ§ Blackwell Ultra GB300 āļāļķāđāļāđāļāđāļāļĢāļļāđāļāļāļąāļāđāļāļĢāļāļāļēāļ GB200 āđāļāļĒāļŠāļēāļĄāļēāļĢāļāļāļģāļāļ§āļēāļĄāđāļĢāđāļ§āđāļāđāļŠāļđāļāļāļķāđāļāļāļķāļ 45% āđāļāļāļēāļ DeepSeek R1 (Offline) āđāļĄāļ·āđāļāđāļāđ 72 GPU āđāļĨāļ° 44% āđāļĄāļ·āđāļāđāļāđ 8 GPU āļŠāđāļ§āļāđāļāđāļŦāļĄāļ Server āļāđāļĒāļąāļāđāļĢāđāļ§āļāļķāđāļāļāļķāļ 25% āđāļĨāļ° 21% āļāļēāļĄāļĨāļģāļāļąāļ1 āļāļ·āļāđāļāđāļāļāļēāļĢāļāļģāļāļēāļĄāļŠāļąāļāļāļēāļāļĩāđāđāļāļĒāļāļĢāļ°āļāļēāļĻāđāļ§āđāļ§āđāļē Blackwell Ultra āļāļ°āđāļĢāđāļ§āļāļķāđāļāļāļĢāļ°āļĄāļēāļ 50%
āļāļąāđāļ AMD āļāđāđāļĄāđāļāđāļāļĒāļŦāļāđāļē āļŠāđāļ Instinct MI355X āđāļāđāļēāļĢāđāļ§āļĄāļāļēāļĢāļāļāļŠāļāļ āđāļāļĒāđāļāļāļēāļ Llama 3.1 405B (Offline) āļāļāļ§āđāļēāļāļģāļāļ§āļēāļĄāđāļĢāđāļ§āđāļāđāļŠāļđāļāļāļ§āđāļē GB200 āļāļķāļ 27% āđāļĨāļ°āđāļāļāļēāļ Llama 2 70B (Offline) MI355X āļŠāļēāļĄāļēāļĢāļāļŠāļĢāđāļēāļ token āđāļāđāļāļķāļ 648,248 āļāđāļāļ§āļīāļāļēāļāļĩāđāļāļĢāļ°āļāļ 64 āļāļīāļ āđāļĨāļ° 93,045 āđāļāļĢāļ°āļāļ 8 āļāļīāļ — āđāļĢāđāļ§āļāļ§āđāļē GB200 āļāļķāļ 2 āđāļāđāļē
NVIDIA āļĒāļąāļāđāļāļ§āđāļāļĨāļąāļāļāļāļ GB300 āļāđāļ§āļĒāļāļēāļĢāļāļģāļĨāļēāļĒāļŠāļāļīāļāļīāđāļāļŦāļĨāļēāļĒāļŦāļĄāļ§āļ āđāļāđāļ Stable Diffusion XL, Whisper, Mixtral āđāļĨāļ° DLRMv2 āđāļāļĒāđāļāđāđāļāļāļāļīāļāđāļŦāļĄāđāļāļĒāđāļēāļ NVFP4 āļāļķāđāļāđāļāđāļāļāļāļĢāđāđāļĄāļ 4-bit floating point āļāļĩāđāļāļāļāđāļāļāļĄāļēāđāļāļāļēāļ°āļŠāļģāļŦāļĢāļąāļāļāļēāļ AI reasoning āļāļĢāđāļāļĄāļĢāļ°āļāļāđāļŠāļīāļĢāđāļāđāļāļāđāļĒāļ context āđāļĨāļ° generation āđāļāļ·āđāļāđāļāļīāđāļĄ throughput āļŠāļđāļāļŠāļļāļ
āļāļēāļĢāļāļāļŠāļāļāļāļĢāļąāđāļāļāļĩāđāļĒāļąāļāļĄāļĩ Intel Arc Pro B60 āđāļāđāļēāļĢāđāļ§āļĄāļāđāļ§āļĒ āđāļĄāđāļāļ°āđāļĄāđāđāļĢāđāļ§āđāļāđāļēāļāļīāļāļĢāļ°āļāļąāļ datacenter āđāļāđāļāđāļĄāļĩāļāļļāļāđāļāđāļāļāđāļēāļāļāļ§āļēāļĄāļāļļāđāļĄāļāđāļēāđāļĨāļ°āļāļēāļĢāđāļāđāļāļēāļāđāļāļĢāļ°āļāļāļāļāļēāļāđāļĨāđāļ — āļŠāļ°āļāđāļāļāļ§āđāļēāļāļēāļĢāđāļāđāļāļāļąāļāđāļĄāđāđāļāđāļĄāļĩāđāļāđāđāļĢāļ·āđāļāļāļāļ§āļēāļĄāđāļĢāđāļ§ āđāļāđāļĒāļąāļāļĢāļ§āļĄāļāļķāļāļāļēāļĢāļāļāļāđāļāļāļāļĩāđāļāļāļāđāļāļāļĒāđāļāļēāļĢāđāļāđāļāļēāļāļāļĢāļīāļ
āļāļĨāļāļēāļĢāļāļāļŠāļāļ MLPerf v5.1
GB300 āđāļĢāđāļ§āļāļ§āđāļē GB200 āļāļķāļ 45% āđāļ DeepSeek R1 (Offline) āđāļĨāļ° 25% āđāļ Server
MI355X āđāļĢāđāļ§āļāļ§āđāļē GB200 āļāļķāļ 27% āđāļ Llama 3.1 405B āđāļĨāļ° 2.09x āđāļ Llama 2 70B
GB300 āļāļģāļĨāļēāļĒāļŠāļāļīāļāļīāđāļāļŦāļĨāļēāļĒāļŦāļĄāļ§āļ āđāļāđāļ Whisper, Mixtral, DLRMv2 āđāļĨāļ° Stable Diffusion XL
āđāļāđāđāļāļāļāļīāļ NVFP4 āđāļĨāļ°āļĢāļ°āļāļāđāļŠāļīāļĢāđāļāđāļāļāđāļĒāļ context/generation āđāļāļ·āđāļāđāļāļīāđāļĄ throughput
āļāļļāļāđāļāđāļāļāļāļ Blackwell Ultra GB300
āļĄāļĩ 1.5x NVFP4 compute āđāļĨāļ° 2x attention-layer acceleration āđāļĄāļ·āđāļāđāļāļĩāļĒāļāļāļąāļ Blackwell āļĢāļļāđāļāļāđāļāļ
āđāļāđ HBM3e āļŠāļđāļāļŠāļļāļ 288GB āļāđāļ GPU
āļāļģāļāļ§āļēāļĄāđāļĢāđāļ§ reasoning āđāļāđāļŠāļđāļāļāļ§āđāļē Hopper āļāļķāļ 4.7x āđāļ Offline āđāļĨāļ° 5.2x āđāļ Server1
āļāļ·āļāļāļĢāļāļāļŠāļāļīāļāļī per-GPU āđāļāļāļļāļāļŦāļĄāļ§āļāļāļāļ MLPerf datacenter benchmark
āļāļļāļāđāļāđāļāļāļāļ AMD Instinct MI355X
āļāļģ token generation āđāļāđāļŠāļđāļāļŠāļļāļ 648,248 āļāđāļāļ§āļīāļāļēāļāļĩāđāļāļĢāļ°āļāļ 64 āļāļīāļ
āđāļĢāđāļ§āļāļ§āđāļē GB200 āļāļķāļ 2 āđāļāđāļēāđāļāļĢāļ°āļāļ 8 āļāļīāļ
āđāļŦāļĄāļēāļ°āļāļąāļāļāļēāļ LLM āļāļāļēāļāđāļŦāļāđ āđāļāđāļ Llama 2 āđāļĨāļ° Llama 3.1
āļĄāļĩāļāļēāļĢāļāļĢāļąāļāļāļĢāļļāļāļāđāļēāļ memory bandwidth āđāļĨāļ°āļāļēāļĢāļāļąāļāļāļēāļĢāļāļĨāļąāļāļāļēāļ
āļāđāļāļĄāļđāļĨāđāļŠāļĢāļīāļĄāļāļēāļāļ āļēāļĒāļāļāļ
MLPerf v5.1 āļĄāļĩāļāļđāđāđāļāđāļēāļĢāđāļ§āļĄāļĄāļēāļāļāļķāļ 27 āļĢāļēāļĒ āđāļĨāļ°āđāļāļīāđāļĄ benchmark āđāļŦāļĄāđ 3 āļĢāļēāļĒāļāļēāļĢ āđāļāđāđāļāđ DeepSeek-R1, Llama 3.1 8B āđāļĨāļ° Whisper Large V3
NVIDIA āđāļāđ TensorRT-LLM āđāļĨāļ° Model Optimizer āđāļāļ·āđāļāļāļĢāļąāļāđāļāđāļāđāļĄāđāļāļĨāđāļŦāđāļāļģāļāļēāļāļāļąāļ NVFP4 āđāļāđāļāļĒāđāļēāļāđāļĄāđāļāļĒāļģ2 āļāļēāļĢāđāļŠāļīāļĢāđāļāđāļāļāđāļĒāļ context/generation āļāđāļ§āļĒāđāļāļīāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāđāļāļāļēāļ LLM āđāļāļ interactive
Intel Arc Pro B60 āđāļĄāđāļāļ°āļāđāļēāļāļ§āđāļē āđāļāđāļĄāļĩāļāļļāļāđāļāđāļāļāđāļēāļāļāļ§āļēāļĄāļāļļāđāļĄāļāđāļēāđāļĨāļ°āļāļēāļĢāđāļāđāļāļēāļāđāļāļĢāļ°āļāļāļāļāļēāļāđāļĨāđāļ
https://wccftech.com/mlperf-v5-1-ai-inference-benchmark-showdown-nvidia-blackwell-ultra-gb300-amd-instinct-mi355x/
âïļ “āļĻāļķāļāļāļīāļ AI āļĢāļ°āļāļąāļāđāļĨāļ! NVIDIA Blackwell Ultra GB300 āļāļ°āļāļ° AMD Instinct MI355X āđāļ MLPerf v5.1 — āđāļĢāđāļ§āļāļķāđāļ āļāļĨāļēāļāļāļķāđāļ āđāļĨāļ°āļĢāđāļāļāđāļĢāļāļāļ§āđāļēāđāļāļīāļĄ”
āđāļāđāļĨāļāļāļāļ AI āļāļĩāđāđāļāđāļāļāļąāļāļāļąāļāļāđāļ§āļĒāļāļ§āļēāļĄāđāļĢāđāļ§āđāļĨāļ°āļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļ āļāļīāļāļāļĢāļ°āļĄāļ§āļĨāļāļĨāļāļ·āļāļŦāļąāļ§āđāļāļāļāļāļāļļāļāļĢāļ°āļāļ āđāļĨāļ°āđāļāļĢāļāļāļĨāđāļēāļŠāļļāļāļāļāļāļāļēāļĢāļāļāļŠāļāļ MLPerf v5.1 āļāļķāđāļāđāļāđāļāļĄāļēāļāļĢāļāļēāļāļĢāļ°āļāļąāļāđāļĨāļāļŠāļģāļŦāļĢāļąāļāļāļēāļĢāļ§āļąāļāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨ AI — NVIDIA āđāļĨāļ° AMD āļāđāļēāļāļāđāļŠāđāļāļāļīāļāđāļĢāļ·āļāļāļāļāļāļāļāļāđāļāđāļēāļāļĢāļ°āļĨāļāļāļāļąāļāđāļāļāđāļĄāđāļĄāļĩāđāļāļĢāļĒāļāļĄāđāļāļĢ
NVIDIA āđāļāļīāļāļāļąāļ§ Blackwell Ultra GB300 āļāļķāđāļāđāļāđāļāļĢāļļāđāļāļāļąāļāđāļāļĢāļāļāļēāļ GB200 āđāļāļĒāļŠāļēāļĄāļēāļĢāļāļāļģāļāļ§āļēāļĄāđāļĢāđāļ§āđāļāđāļŠāļđāļāļāļķāđāļāļāļķāļ 45% āđāļāļāļēāļ DeepSeek R1 (Offline) āđāļĄāļ·āđāļāđāļāđ 72 GPU āđāļĨāļ° 44% āđāļĄāļ·āđāļāđāļāđ 8 GPU āļŠāđāļ§āļāđāļāđāļŦāļĄāļ Server āļāđāļĒāļąāļāđāļĢāđāļ§āļāļķāđāļāļāļķāļ 25% āđāļĨāļ° 21% āļāļēāļĄāļĨāļģāļāļąāļ1 āļāļ·āļāđāļāđāļāļāļēāļĢāļāļģāļāļēāļĄāļŠāļąāļāļāļēāļāļĩāđāđāļāļĒāļāļĢāļ°āļāļēāļĻāđāļ§āđāļ§āđāļē Blackwell Ultra āļāļ°āđāļĢāđāļ§āļāļķāđāļāļāļĢāļ°āļĄāļēāļ 50%
āļāļąāđāļ AMD āļāđāđāļĄāđāļāđāļāļĒāļŦāļāđāļē āļŠāđāļ Instinct MI355X āđāļāđāļēāļĢāđāļ§āļĄāļāļēāļĢāļāļāļŠāļāļ āđāļāļĒāđāļāļāļēāļ Llama 3.1 405B (Offline) āļāļāļ§āđāļēāļāļģāļāļ§āļēāļĄāđāļĢāđāļ§āđāļāđāļŠāļđāļāļāļ§āđāļē GB200 āļāļķāļ 27% āđāļĨāļ°āđāļāļāļēāļ Llama 2 70B (Offline) MI355X āļŠāļēāļĄāļēāļĢāļāļŠāļĢāđāļēāļ token āđāļāđāļāļķāļ 648,248 āļāđāļāļ§āļīāļāļēāļāļĩāđāļāļĢāļ°āļāļ 64 āļāļīāļ āđāļĨāļ° 93,045 āđāļāļĢāļ°āļāļ 8 āļāļīāļ — āđāļĢāđāļ§āļāļ§āđāļē GB200 āļāļķāļ 2 āđāļāđāļē
NVIDIA āļĒāļąāļāđāļāļ§āđāļāļĨāļąāļāļāļāļ GB300 āļāđāļ§āļĒāļāļēāļĢāļāļģāļĨāļēāļĒāļŠāļāļīāļāļīāđāļāļŦāļĨāļēāļĒāļŦāļĄāļ§āļ āđāļāđāļ Stable Diffusion XL, Whisper, Mixtral āđāļĨāļ° DLRMv2 āđāļāļĒāđāļāđāđāļāļāļāļīāļāđāļŦāļĄāđāļāļĒāđāļēāļ NVFP4 āļāļķāđāļāđāļāđāļāļāļāļĢāđāđāļĄāļ 4-bit floating point āļāļĩāđāļāļāļāđāļāļāļĄāļēāđāļāļāļēāļ°āļŠāļģāļŦāļĢāļąāļāļāļēāļ AI reasoning āļāļĢāđāļāļĄāļĢāļ°āļāļāđāļŠāļīāļĢāđāļāđāļāļāđāļĒāļ context āđāļĨāļ° generation āđāļāļ·āđāļāđāļāļīāđāļĄ throughput āļŠāļđāļāļŠāļļāļ
āļāļēāļĢāļāļāļŠāļāļāļāļĢāļąāđāļāļāļĩāđāļĒāļąāļāļĄāļĩ Intel Arc Pro B60 āđāļāđāļēāļĢāđāļ§āļĄāļāđāļ§āļĒ āđāļĄāđāļāļ°āđāļĄāđāđāļĢāđāļ§āđāļāđāļēāļāļīāļāļĢāļ°āļāļąāļ datacenter āđāļāđāļāđāļĄāļĩāļāļļāļāđāļāđāļāļāđāļēāļāļāļ§āļēāļĄāļāļļāđāļĄāļāđāļēāđāļĨāļ°āļāļēāļĢāđāļāđāļāļēāļāđāļāļĢāļ°āļāļāļāļāļēāļāđāļĨāđāļ — āļŠāļ°āļāđāļāļāļ§āđāļēāļāļēāļĢāđāļāđāļāļāļąāļāđāļĄāđāđāļāđāļĄāļĩāđāļāđāđāļĢāļ·āđāļāļāļāļ§āļēāļĄāđāļĢāđāļ§ āđāļāđāļĒāļąāļāļĢāļ§āļĄāļāļķāļāļāļēāļĢāļāļāļāđāļāļāļāļĩāđāļāļāļāđāļāļāļĒāđāļāļēāļĢāđāļāđāļāļēāļāļāļĢāļīāļ
â
āļāļĨāļāļēāļĢāļāļāļŠāļāļ MLPerf v5.1
âĄïļ GB300 āđāļĢāđāļ§āļāļ§āđāļē GB200 āļāļķāļ 45% āđāļ DeepSeek R1 (Offline) āđāļĨāļ° 25% āđāļ Server
âĄïļ MI355X āđāļĢāđāļ§āļāļ§āđāļē GB200 āļāļķāļ 27% āđāļ Llama 3.1 405B āđāļĨāļ° 2.09x āđāļ Llama 2 70B
âĄïļ GB300 āļāļģāļĨāļēāļĒāļŠāļāļīāļāļīāđāļāļŦāļĨāļēāļĒāļŦāļĄāļ§āļ āđāļāđāļ Whisper, Mixtral, DLRMv2 āđāļĨāļ° Stable Diffusion XL
âĄïļ āđāļāđāđāļāļāļāļīāļ NVFP4 āđāļĨāļ°āļĢāļ°āļāļāđāļŠāļīāļĢāđāļāđāļāļāđāļĒāļ context/generation āđāļāļ·āđāļāđāļāļīāđāļĄ throughput
â
āļāļļāļāđāļāđāļāļāļāļ Blackwell Ultra GB300
âĄïļ āļĄāļĩ 1.5x NVFP4 compute āđāļĨāļ° 2x attention-layer acceleration āđāļĄāļ·āđāļāđāļāļĩāļĒāļāļāļąāļ Blackwell āļĢāļļāđāļāļāđāļāļ
âĄïļ āđāļāđ HBM3e āļŠāļđāļāļŠāļļāļ 288GB āļāđāļ GPU
âĄïļ āļāļģāļāļ§āļēāļĄāđāļĢāđāļ§ reasoning āđāļāđāļŠāļđāļāļāļ§āđāļē Hopper āļāļķāļ 4.7x āđāļ Offline āđāļĨāļ° 5.2x āđāļ Server1
âĄïļ āļāļ·āļāļāļĢāļāļāļŠāļāļīāļāļī per-GPU āđāļāļāļļāļāļŦāļĄāļ§āļāļāļāļ MLPerf datacenter benchmark
â
āļāļļāļāđāļāđāļāļāļāļ AMD Instinct MI355X
âĄïļ āļāļģ token generation āđāļāđāļŠāļđāļāļŠāļļāļ 648,248 āļāđāļāļ§āļīāļāļēāļāļĩāđāļāļĢāļ°āļāļ 64 āļāļīāļ
âĄïļ āđāļĢāđāļ§āļāļ§āđāļē GB200 āļāļķāļ 2 āđāļāđāļēāđāļāļĢāļ°āļāļ 8 āļāļīāļ
âĄïļ āđāļŦāļĄāļēāļ°āļāļąāļāļāļēāļ LLM āļāļāļēāļāđāļŦāļāđ āđāļāđāļ Llama 2 āđāļĨāļ° Llama 3.1
âĄïļ āļĄāļĩāļāļēāļĢāļāļĢāļąāļāļāļĢāļļāļāļāđāļēāļ memory bandwidth āđāļĨāļ°āļāļēāļĢāļāļąāļāļāļēāļĢāļāļĨāļąāļāļāļēāļ
â
āļāđāļāļĄāļđāļĨāđāļŠāļĢāļīāļĄāļāļēāļāļ āļēāļĒāļāļāļ
âĄïļ MLPerf v5.1 āļĄāļĩāļāļđāđāđāļāđāļēāļĢāđāļ§āļĄāļĄāļēāļāļāļķāļ 27 āļĢāļēāļĒ āđāļĨāļ°āđāļāļīāđāļĄ benchmark āđāļŦāļĄāđ 3 āļĢāļēāļĒāļāļēāļĢ āđāļāđāđāļāđ DeepSeek-R1, Llama 3.1 8B āđāļĨāļ° Whisper Large V3
âĄïļ NVIDIA āđāļāđ TensorRT-LLM āđāļĨāļ° Model Optimizer āđāļāļ·āđāļāļāļĢāļąāļāđāļāđāļāđāļĄāđāļāļĨāđāļŦāđāļāļģāļāļēāļāļāļąāļ NVFP4 āđāļāđāļāļĒāđāļēāļāđāļĄāđāļāļĒāļģ2 âĄïļ āļāļēāļĢāđāļŠāļīāļĢāđāļāđāļāļāđāļĒāļ context/generation āļāđāļ§āļĒāđāļāļīāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāđāļāļāļēāļ LLM āđāļāļ interactive
âĄïļ Intel Arc Pro B60 āđāļĄāđāļāļ°āļāđāļēāļāļ§āđāļē āđāļāđāļĄāļĩāļāļļāļāđāļāđāļāļāđāļēāļāļāļ§āļēāļĄāļāļļāđāļĄāļāđāļēāđāļĨāļ°āļāļēāļĢāđāļāđāļāļēāļāđāļāļĢāļ°āļāļāļāļāļēāļāđāļĨāđāļ
https://wccftech.com/mlperf-v5-1-ai-inference-benchmark-showdown-nvidia-blackwell-ultra-gb300-amd-instinct-mi355x/
0 Comments
0 Shares
39 Views
0 Reviews