“NVIDIA Blackwell Ultra GB300 āļāļģāļĨāļēāļĒāļŠāļāļīāļāļī MLPerf — āđāļĢāđāļ§āļāļķāđāļ 45% āđāļ DeepSeek R1 āļāļĢāđāļāļĄāđāļāļāļāļīāļāđāļŦāļĄāđāļāļĩāđāđāļāļĨāļĩāđāļĒāļāđāļāļĄ AI inference”
NVIDIA āļāļĢāļ°āļāļēāļĻāļāļ§āļēāļĄāļŠāļģāđāļĢāđāļāļāļĢāļąāđāļāđāļŦāļāđāđāļāļāļēāļĢāļāļāļŠāļāļ MLPerf v5.1 āđāļāļĒāļāļīāļ Blackwell Ultra GB300 NVL72 rack-scale system āļŠāļēāļĄāļēāļĢāļāļāļģāļāļ§āļēāļĄāđāļĢāđāļ§āđāļāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨ inference āđāļāđāļŠāļđāļāļāļ§āđāļēāļĢāļļāđāļāļāđāļāļāļŦāļāđāļē GB200 āļāļķāļ 45% āđāļāđāļĄāđāļāļĨ DeepSeek R1 āļāļķāđāļāđāļāđāļāļŦāļāļķāđāļāđāļāđāļĄāđāļāļĨ AI āļāļāļēāļāđāļŦāļāđāļāļĩāđāļāļąāļāļāđāļāļāļāļĩāđāļŠāļļāļāđāļāļāļąāļāļāļļāļāļąāļ
āļāļ§āļēāļĄāļŠāļģāđāļĢāđāļāļāļĩāđāđāļāļīāļāļāļēāļāļāļēāļĢāļāļŠāļēāļāļĢāļ°āļŦāļ§āđāļēāļāļŪāļēāļĢāđāļāđāļ§āļĢāđāļāļĩāđāļāļĢāļāļāļĨāļąāļāđāļĨāļ°āļāļēāļĢāļāļĢāļąāļāđāļāđāļāļāļāļāļāđāđāļ§āļĢāđāļāļĒāđāļēāļāļĨāļķāļāļāļķāđāļ āđāļāļĒ GB300 āđāļāđ tensor core āļāļĩāđāļĄāļĩāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļŠāļđāļāļāļķāđāļāļāļķāļ 2 āđāļāđāļēāđāļāļŠāđāļ§āļ attention-layer āđāļĨāļ°āđāļāļīāđāļĄ FLOPS āļāđāļēāļ AI compute āļāļĩāļ 1.5 āđāļāđāļē āļāļĢāđāļāļĄāļŦāļāđāļ§āļĒāļāļ§āļēāļĄāļāļģ HBM3e āļŠāļđāļāļŠāļļāļ 288GB āļāđāļ GPU
āđāļāļāđāļēāļāļāļāļāļāđāđāļ§āļĢāđ NVIDIA āđāļāđāļāļāļĢāđāđāļĄāļ NVFP4 āļāļķāđāļāđāļāđāļ floating point āđāļāļ 4-bit āļāļĩāđāļāļāļāđāļāļāļĄāļēāđāļāļāļēāļ°āļŠāļģāļŦāļĢāļąāļāļāļēāļ AI reasoning āđāļāļĒāļŠāļēāļĄāļēāļĢāļāļĨāļāļāļāļēāļāđāļĄāđāļāļĨāđāļĨāļ°āđāļāļīāđāļĄ throughput āđāļāđāđāļāļĒāđāļĄāđāđāļŠāļĩāļĒāļāļ§āļēāļĄāđāļĄāđāļāļĒāļģ āļāļāļāļāļēāļāļāļĩāđāļĒāļąāļāđāļāđāđāļāļāļāļīāļāļāļēāļĢ “shard” āđāļĄāđāļāļĨ Llama 3.1 405B āļāđāļēāļĄāļŦāļĨāļēāļĒ GPU āđāļāļ·āđāļāđāļāļīāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāđāļāļĒāđāļĄāđāđāļāļīāđāļĄ latency
āļĢāļ°āļāļ GB300 NVL72 āļĒāļąāļāļĄāļĩāđāļāļāļāđāļ§āļīāļāļāđāļĢāļ§āļĄāļāļķāļ 130 TBps āļāđāļ§āļĒ NVLink fabric āļāļ§āļēāļĄāđāļĢāđāļ§ 1.8 TBps āļĢāļ°āļŦāļ§āđāļēāļ GPU āđāļāđāļĨāļ°āļāļąāļ§ āļāļģāđāļŦāđāļŠāļēāļĄāļēāļĢāļāļŠāļ·āđāļāļŠāļēāļĢāļāļąāļāđāļāđāļāļĒāđāļēāļāļĢāļ§āļāđāļĢāđāļ§āđāļĨāļ°āđāļĄāđāļĄāļĩāļāļāļāļ§āļ
āļāļąāđāļāļŦāļĄāļāļāļĩāđāđāļāđāļāļŠāđāļ§āļāļŦāļāļķāđāļāļāļāļāđāļāļ§āļāļīāļ “AI Factory” āļāļĩāđ NVIDIA āļāļĨāļąāļāļāļąāļ āđāļāļĒāđāļāļ·āđāļāļ§āđāļēāļāļēāļĢāđāļāļīāđāļĄ throughput āđāļāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨ AI āļāļ°āļāđāļ§āļĒāđāļāļīāđāļĄāļĢāļēāļĒāđāļāđ āļĨāļāļāđāļāļāļļāļ āđāļĨāļ°āļāļģāđāļŦāđāļĢāļ°āļāļāļĄāļĩāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļŠāļđāļāļŠāļļāļāđāļāļĒāļļāļāļāļĩāđāļāđāļāļĄāļđāļĨāļāļĨāļēāļĒāđāļāđāļāļŠāļīāļāļāļĢāļąāļāļĒāđāļŦāļĨāļąāļ
āļāļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļāļāļāļ Blackwell Ultra GB300
āđāļāļīāđāļĄāļāļ§āļēāļĄāđāļĢāđāļ§ inference āđāļ DeepSeek R1 āđāļāđāļāļķāļ 45% āđāļĄāļ·āđāļāđāļāļĩāļĒāļāļāļąāļ GB200
āđāļĢāđāļ§āļāļ§āđāļē Hopper GPU āļĢāļļāđāļāļāđāļāļāļŦāļāđāļēāļāļķāļ 5 āđāļāđāļē
āđāļāđ tensor core āļāļĩāđāļĄāļĩ 2X attention-layer acceleration āđāļĨāļ° 1.5X AI compute FLOPS
āļŦāļāđāļ§āļĒāļāļ§āļēāļĄāļāļģ HBM3e āļŠāļđāļāļŠāļļāļ 288GB āļāđāļ GPU
āđāļāļāļāļīāļāļāļāļāļāđāđāļ§āļĢāđāļāļĩāđāđāļāđ
āđāļāđ NVFP4 format āđāļāļ·āđāļāļĨāļāļāļāļēāļāđāļĄāđāļāļĨāđāļĨāļ°āđāļāļīāđāļĄ throughput
āđāļāđ TensorRT Model Optimizer āđāļĨāļ° TensorRT-LLM library āđāļāļ·āđāļāļāļĢāļąāļāđāļāđāļāđāļĄāđāļāļĨ
shard āđāļĄāđāļāļĨ Llama 3.1 405B āļāđāļēāļĄāļŦāļĨāļēāļĒ GPU āđāļāļ·āđāļāđāļāļīāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļ
āđāļāđ NVLink fabric āļāļ§āļēāļĄāđāļĢāđāļ§ 1.8 TBps āļĢāļ°āļŦāļ§āđāļēāļ GPU āļĢāļ§āļĄāđāļāđāļ 130 TBps
āļāļĨāļāļēāļĢāļāļāļŠāļāļ MLPerf v5.1
GB300 NVL72 āļāļģāļĨāļēāļĒāļŠāļāļīāļāļīāđāļ DeepSeek R1, Llama 3.1 405B, Llama 3.1 8B āđāļĨāļ° Whisper
āđāļāļīāđāļĄ throughput āļāđāļ GPU āđāļāđāđāļāļ·āļāļ 50% āļāđāļ§āļĒāđāļāļāļāļīāļ disaggregated serving
āļĨāļ latency āđāļĨāļ°āđāļāļīāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāđāļāļāļēāļ interactive AI
āđāļŦāļĄāļēāļ°āļāļąāļāļāļēāļĢāđāļāđāļāļēāļāđāļāļĢāļ°āļāļ AI Factory āļāļĩāđāļāđāļāļāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨāļāļģāļāļ§āļāļĄāļēāļ
āļāđāļāļĄāļđāļĨāđāļŠāļĢāļīāļĄāļāļēāļāļ āļēāļĒāļāļāļ
DeepSeek R1 āđāļāđāļāđāļĄāđāļāļĨ MoE āļāļāļēāļ 671B parameter āļāļĩāđāļāđāļāļāđāļāđ compute āļŠāļđāļāļĄāļēāļ
Whisper āļāļĨāļēāļĒāđāļāđāļāđāļĄāđāļāļĨāđāļāļĨāļāđāļŠāļĩāļĒāļāļĒāļāļāļāļīāļĒāļĄāļāļ HuggingFace āļāđāļ§āļĒāļĒāļāļāļāļēāļ§āļāđāđāļŦāļĨāļāđāļāļ·āļāļ 5 āļĨāđāļēāļāļāļĢāļąāđāļ
Llama 3.1 405B āļĄāļĩāļāļ§āļēāļĄāļāđāļāļāļāļēāļĢāļāđāļēāļ latency āđāļĨāļ° throughput āļŠāļđāļāļāļ§āđāļēāļĢāļļāđāļāļāđāļāļ
Hopper GPU āđāļĢāļīāđāļĄāļĨāđāļēāļŠāļĄāļąāļĒāđāļĄāļ·āđāļāđāļāļĩāļĒāļāļāļąāļ Blackwell Ultra āđāļāļāļēāļ inference
https://www.tomshardware.com/pc-components/gpus/nvidia-claims-software-and-hardware-upgrades-allow-blackwell-ultra-gb300-to-dominate-mlperf-benchmarks-touts-45-percent-deepseek-r-1-inference-throughput-increase-over-gb200
NVIDIA āļāļĢāļ°āļāļēāļĻāļāļ§āļēāļĄāļŠāļģāđāļĢāđāļāļāļĢāļąāđāļāđāļŦāļāđāđāļāļāļēāļĢāļāļāļŠāļāļ MLPerf v5.1 āđāļāļĒāļāļīāļ Blackwell Ultra GB300 NVL72 rack-scale system āļŠāļēāļĄāļēāļĢāļāļāļģāļāļ§āļēāļĄāđāļĢāđāļ§āđāļāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨ inference āđāļāđāļŠāļđāļāļāļ§āđāļēāļĢāļļāđāļāļāđāļāļāļŦāļāđāļē GB200 āļāļķāļ 45% āđāļāđāļĄāđāļāļĨ DeepSeek R1 āļāļķāđāļāđāļāđāļāļŦāļāļķāđāļāđāļāđāļĄāđāļāļĨ AI āļāļāļēāļāđāļŦāļāđāļāļĩāđāļāļąāļāļāđāļāļāļāļĩāđāļŠāļļāļāđāļāļāļąāļāļāļļāļāļąāļ
āļāļ§āļēāļĄāļŠāļģāđāļĢāđāļāļāļĩāđāđāļāļīāļāļāļēāļāļāļēāļĢāļāļŠāļēāļāļĢāļ°āļŦāļ§āđāļēāļāļŪāļēāļĢāđāļāđāļ§āļĢāđāļāļĩāđāļāļĢāļāļāļĨāļąāļāđāļĨāļ°āļāļēāļĢāļāļĢāļąāļāđāļāđāļāļāļāļāļāđāđāļ§āļĢāđāļāļĒāđāļēāļāļĨāļķāļāļāļķāđāļ āđāļāļĒ GB300 āđāļāđ tensor core āļāļĩāđāļĄāļĩāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļŠāļđāļāļāļķāđāļāļāļķāļ 2 āđāļāđāļēāđāļāļŠāđāļ§āļ attention-layer āđāļĨāļ°āđāļāļīāđāļĄ FLOPS āļāđāļēāļ AI compute āļāļĩāļ 1.5 āđāļāđāļē āļāļĢāđāļāļĄāļŦāļāđāļ§āļĒāļāļ§āļēāļĄāļāļģ HBM3e āļŠāļđāļāļŠāļļāļ 288GB āļāđāļ GPU
āđāļāļāđāļēāļāļāļāļāļāđāđāļ§āļĢāđ NVIDIA āđāļāđāļāļāļĢāđāđāļĄāļ NVFP4 āļāļķāđāļāđāļāđāļ floating point āđāļāļ 4-bit āļāļĩāđāļāļāļāđāļāļāļĄāļēāđāļāļāļēāļ°āļŠāļģāļŦāļĢāļąāļāļāļēāļ AI reasoning āđāļāļĒāļŠāļēāļĄāļēāļĢāļāļĨāļāļāļāļēāļāđāļĄāđāļāļĨāđāļĨāļ°āđāļāļīāđāļĄ throughput āđāļāđāđāļāļĒāđāļĄāđāđāļŠāļĩāļĒāļāļ§āļēāļĄāđāļĄāđāļāļĒāļģ āļāļāļāļāļēāļāļāļĩāđāļĒāļąāļāđāļāđāđāļāļāļāļīāļāļāļēāļĢ “shard” āđāļĄāđāļāļĨ Llama 3.1 405B āļāđāļēāļĄāļŦāļĨāļēāļĒ GPU āđāļāļ·āđāļāđāļāļīāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāđāļāļĒāđāļĄāđāđāļāļīāđāļĄ latency
āļĢāļ°āļāļ GB300 NVL72 āļĒāļąāļāļĄāļĩāđāļāļāļāđāļ§āļīāļāļāđāļĢāļ§āļĄāļāļķāļ 130 TBps āļāđāļ§āļĒ NVLink fabric āļāļ§āļēāļĄāđāļĢāđāļ§ 1.8 TBps āļĢāļ°āļŦāļ§āđāļēāļ GPU āđāļāđāļĨāļ°āļāļąāļ§ āļāļģāđāļŦāđāļŠāļēāļĄāļēāļĢāļāļŠāļ·āđāļāļŠāļēāļĢāļāļąāļāđāļāđāļāļĒāđāļēāļāļĢāļ§āļāđāļĢāđāļ§āđāļĨāļ°āđāļĄāđāļĄāļĩāļāļāļāļ§āļ
āļāļąāđāļāļŦāļĄāļāļāļĩāđāđāļāđāļāļŠāđāļ§āļāļŦāļāļķāđāļāļāļāļāđāļāļ§āļāļīāļ “AI Factory” āļāļĩāđ NVIDIA āļāļĨāļąāļāļāļąāļ āđāļāļĒāđāļāļ·āđāļāļ§āđāļēāļāļēāļĢāđāļāļīāđāļĄ throughput āđāļāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨ AI āļāļ°āļāđāļ§āļĒāđāļāļīāđāļĄāļĢāļēāļĒāđāļāđ āļĨāļāļāđāļāļāļļāļ āđāļĨāļ°āļāļģāđāļŦāđāļĢāļ°āļāļāļĄāļĩāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļŠāļđāļāļŠāļļāļāđāļāļĒāļļāļāļāļĩāđāļāđāļāļĄāļđāļĨāļāļĨāļēāļĒāđāļāđāļāļŠāļīāļāļāļĢāļąāļāļĒāđāļŦāļĨāļąāļ
āļāļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļāļāļāļ Blackwell Ultra GB300
āđāļāļīāđāļĄāļāļ§āļēāļĄāđāļĢāđāļ§ inference āđāļ DeepSeek R1 āđāļāđāļāļķāļ 45% āđāļĄāļ·āđāļāđāļāļĩāļĒāļāļāļąāļ GB200
āđāļĢāđāļ§āļāļ§āđāļē Hopper GPU āļĢāļļāđāļāļāđāļāļāļŦāļāđāļēāļāļķāļ 5 āđāļāđāļē
āđāļāđ tensor core āļāļĩāđāļĄāļĩ 2X attention-layer acceleration āđāļĨāļ° 1.5X AI compute FLOPS
āļŦāļāđāļ§āļĒāļāļ§āļēāļĄāļāļģ HBM3e āļŠāļđāļāļŠāļļāļ 288GB āļāđāļ GPU
āđāļāļāļāļīāļāļāļāļāļāđāđāļ§āļĢāđāļāļĩāđāđāļāđ
āđāļāđ NVFP4 format āđāļāļ·āđāļāļĨāļāļāļāļēāļāđāļĄāđāļāļĨāđāļĨāļ°āđāļāļīāđāļĄ throughput
āđāļāđ TensorRT Model Optimizer āđāļĨāļ° TensorRT-LLM library āđāļāļ·āđāļāļāļĢāļąāļāđāļāđāļāđāļĄāđāļāļĨ
shard āđāļĄāđāļāļĨ Llama 3.1 405B āļāđāļēāļĄāļŦāļĨāļēāļĒ GPU āđāļāļ·āđāļāđāļāļīāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļ
āđāļāđ NVLink fabric āļāļ§āļēāļĄāđāļĢāđāļ§ 1.8 TBps āļĢāļ°āļŦāļ§āđāļēāļ GPU āļĢāļ§āļĄāđāļāđāļ 130 TBps
āļāļĨāļāļēāļĢāļāļāļŠāļāļ MLPerf v5.1
GB300 NVL72 āļāļģāļĨāļēāļĒāļŠāļāļīāļāļīāđāļ DeepSeek R1, Llama 3.1 405B, Llama 3.1 8B āđāļĨāļ° Whisper
āđāļāļīāđāļĄ throughput āļāđāļ GPU āđāļāđāđāļāļ·āļāļ 50% āļāđāļ§āļĒāđāļāļāļāļīāļ disaggregated serving
āļĨāļ latency āđāļĨāļ°āđāļāļīāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāđāļāļāļēāļ interactive AI
āđāļŦāļĄāļēāļ°āļāļąāļāļāļēāļĢāđāļāđāļāļēāļāđāļāļĢāļ°āļāļ AI Factory āļāļĩāđāļāđāļāļāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨāļāļģāļāļ§āļāļĄāļēāļ
āļāđāļāļĄāļđāļĨāđāļŠāļĢāļīāļĄāļāļēāļāļ āļēāļĒāļāļāļ
DeepSeek R1 āđāļāđāļāđāļĄāđāļāļĨ MoE āļāļāļēāļ 671B parameter āļāļĩāđāļāđāļāļāđāļāđ compute āļŠāļđāļāļĄāļēāļ
Whisper āļāļĨāļēāļĒāđāļāđāļāđāļĄāđāļāļĨāđāļāļĨāļāđāļŠāļĩāļĒāļāļĒāļāļāļāļīāļĒāļĄāļāļ HuggingFace āļāđāļ§āļĒāļĒāļāļāļāļēāļ§āļāđāđāļŦāļĨāļāđāļāļ·āļāļ 5 āļĨāđāļēāļāļāļĢāļąāđāļ
Llama 3.1 405B āļĄāļĩāļāļ§āļēāļĄāļāđāļāļāļāļēāļĢāļāđāļēāļ latency āđāļĨāļ° throughput āļŠāļđāļāļāļ§āđāļēāļĢāļļāđāļāļāđāļāļ
Hopper GPU āđāļĢāļīāđāļĄāļĨāđāļēāļŠāļĄāļąāļĒāđāļĄāļ·āđāļāđāļāļĩāļĒāļāļāļąāļ Blackwell Ultra āđāļāļāļēāļ inference
https://www.tomshardware.com/pc-components/gpus/nvidia-claims-software-and-hardware-upgrades-allow-blackwell-ultra-gb300-to-dominate-mlperf-benchmarks-touts-45-percent-deepseek-r-1-inference-throughput-increase-over-gb200
ð “NVIDIA Blackwell Ultra GB300 āļāļģāļĨāļēāļĒāļŠāļāļīāļāļī MLPerf — āđāļĢāđāļ§āļāļķāđāļ 45% āđāļ DeepSeek R1 āļāļĢāđāļāļĄāđāļāļāļāļīāļāđāļŦāļĄāđāļāļĩāđāđāļāļĨāļĩāđāļĒāļāđāļāļĄ AI inference”
NVIDIA āļāļĢāļ°āļāļēāļĻāļāļ§āļēāļĄāļŠāļģāđāļĢāđāļāļāļĢāļąāđāļāđāļŦāļāđāđāļāļāļēāļĢāļāļāļŠāļāļ MLPerf v5.1 āđāļāļĒāļāļīāļ Blackwell Ultra GB300 NVL72 rack-scale system āļŠāļēāļĄāļēāļĢāļāļāļģāļāļ§āļēāļĄāđāļĢāđāļ§āđāļāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨ inference āđāļāđāļŠāļđāļāļāļ§āđāļēāļĢāļļāđāļāļāđāļāļāļŦāļāđāļē GB200 āļāļķāļ 45% āđāļāđāļĄāđāļāļĨ DeepSeek R1 āļāļķāđāļāđāļāđāļāļŦāļāļķāđāļāđāļāđāļĄāđāļāļĨ AI āļāļāļēāļāđāļŦāļāđāļāļĩāđāļāļąāļāļāđāļāļāļāļĩāđāļŠāļļāļāđāļāļāļąāļāļāļļāļāļąāļ
āļāļ§āļēāļĄāļŠāļģāđāļĢāđāļāļāļĩāđāđāļāļīāļāļāļēāļāļāļēāļĢāļāļŠāļēāļāļĢāļ°āļŦāļ§āđāļēāļāļŪāļēāļĢāđāļāđāļ§āļĢāđāļāļĩāđāļāļĢāļāļāļĨāļąāļāđāļĨāļ°āļāļēāļĢāļāļĢāļąāļāđāļāđāļāļāļāļāļāđāđāļ§āļĢāđāļāļĒāđāļēāļāļĨāļķāļāļāļķāđāļ āđāļāļĒ GB300 āđāļāđ tensor core āļāļĩāđāļĄāļĩāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļŠāļđāļāļāļķāđāļāļāļķāļ 2 āđāļāđāļēāđāļāļŠāđāļ§āļ attention-layer āđāļĨāļ°āđāļāļīāđāļĄ FLOPS āļāđāļēāļ AI compute āļāļĩāļ 1.5 āđāļāđāļē āļāļĢāđāļāļĄāļŦāļāđāļ§āļĒāļāļ§āļēāļĄāļāļģ HBM3e āļŠāļđāļāļŠāļļāļ 288GB āļāđāļ GPU
āđāļāļāđāļēāļāļāļāļāļāđāđāļ§āļĢāđ NVIDIA āđāļāđāļāļāļĢāđāđāļĄāļ NVFP4 āļāļķāđāļāđāļāđāļ floating point āđāļāļ 4-bit āļāļĩāđāļāļāļāđāļāļāļĄāļēāđāļāļāļēāļ°āļŠāļģāļŦāļĢāļąāļāļāļēāļ AI reasoning āđāļāļĒāļŠāļēāļĄāļēāļĢāļāļĨāļāļāļāļēāļāđāļĄāđāļāļĨāđāļĨāļ°āđāļāļīāđāļĄ throughput āđāļāđāđāļāļĒāđāļĄāđāđāļŠāļĩāļĒāļāļ§āļēāļĄāđāļĄāđāļāļĒāļģ āļāļāļāļāļēāļāļāļĩāđāļĒāļąāļāđāļāđāđāļāļāļāļīāļāļāļēāļĢ “shard” āđāļĄāđāļāļĨ Llama 3.1 405B āļāđāļēāļĄāļŦāļĨāļēāļĒ GPU āđāļāļ·āđāļāđāļāļīāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāđāļāļĒāđāļĄāđāđāļāļīāđāļĄ latency
āļĢāļ°āļāļ GB300 NVL72 āļĒāļąāļāļĄāļĩāđāļāļāļāđāļ§āļīāļāļāđāļĢāļ§āļĄāļāļķāļ 130 TBps āļāđāļ§āļĒ NVLink fabric āļāļ§āļēāļĄāđāļĢāđāļ§ 1.8 TBps āļĢāļ°āļŦāļ§āđāļēāļ GPU āđāļāđāļĨāļ°āļāļąāļ§ āļāļģāđāļŦāđāļŠāļēāļĄāļēāļĢāļāļŠāļ·āđāļāļŠāļēāļĢāļāļąāļāđāļāđāļāļĒāđāļēāļāļĢāļ§āļāđāļĢāđāļ§āđāļĨāļ°āđāļĄāđāļĄāļĩāļāļāļāļ§āļ
āļāļąāđāļāļŦāļĄāļāļāļĩāđāđāļāđāļāļŠāđāļ§āļāļŦāļāļķāđāļāļāļāļāđāļāļ§āļāļīāļ “AI Factory” āļāļĩāđ NVIDIA āļāļĨāļąāļāļāļąāļ āđāļāļĒāđāļāļ·āđāļāļ§āđāļēāļāļēāļĢāđāļāļīāđāļĄ throughput āđāļāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨ AI āļāļ°āļāđāļ§āļĒāđāļāļīāđāļĄāļĢāļēāļĒāđāļāđ āļĨāļāļāđāļāļāļļāļ āđāļĨāļ°āļāļģāđāļŦāđāļĢāļ°āļāļāļĄāļĩāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļŠāļđāļāļŠāļļāļāđāļāļĒāļļāļāļāļĩāđāļāđāļāļĄāļđāļĨāļāļĨāļēāļĒāđāļāđāļāļŠāļīāļāļāļĢāļąāļāļĒāđāļŦāļĨāļąāļ
â
āļāļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļāļāļāļ Blackwell Ultra GB300
âĄïļ āđāļāļīāđāļĄāļāļ§āļēāļĄāđāļĢāđāļ§ inference āđāļ DeepSeek R1 āđāļāđāļāļķāļ 45% āđāļĄāļ·āđāļāđāļāļĩāļĒāļāļāļąāļ GB200
âĄïļ āđāļĢāđāļ§āļāļ§āđāļē Hopper GPU āļĢāļļāđāļāļāđāļāļāļŦāļāđāļēāļāļķāļ 5 āđāļāđāļē
âĄïļ āđāļāđ tensor core āļāļĩāđāļĄāļĩ 2X attention-layer acceleration āđāļĨāļ° 1.5X AI compute FLOPS
âĄïļ āļŦāļāđāļ§āļĒāļāļ§āļēāļĄāļāļģ HBM3e āļŠāļđāļāļŠāļļāļ 288GB āļāđāļ GPU
â
āđāļāļāļāļīāļāļāļāļāļāđāđāļ§āļĢāđāļāļĩāđāđāļāđ
âĄïļ āđāļāđ NVFP4 format āđāļāļ·āđāļāļĨāļāļāļāļēāļāđāļĄāđāļāļĨāđāļĨāļ°āđāļāļīāđāļĄ throughput
âĄïļ āđāļāđ TensorRT Model Optimizer āđāļĨāļ° TensorRT-LLM library āđāļāļ·āđāļāļāļĢāļąāļāđāļāđāļāđāļĄāđāļāļĨ
âĄïļ shard āđāļĄāđāļāļĨ Llama 3.1 405B āļāđāļēāļĄāļŦāļĨāļēāļĒ GPU āđāļāļ·āđāļāđāļāļīāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļ
âĄïļ āđāļāđ NVLink fabric āļāļ§āļēāļĄāđāļĢāđāļ§ 1.8 TBps āļĢāļ°āļŦāļ§āđāļēāļ GPU āļĢāļ§āļĄāđāļāđāļ 130 TBps
â
āļāļĨāļāļēāļĢāļāļāļŠāļāļ MLPerf v5.1
âĄïļ GB300 NVL72 āļāļģāļĨāļēāļĒāļŠāļāļīāļāļīāđāļ DeepSeek R1, Llama 3.1 405B, Llama 3.1 8B āđāļĨāļ° Whisper
âĄïļ āđāļāļīāđāļĄ throughput āļāđāļ GPU āđāļāđāđāļāļ·āļāļ 50% āļāđāļ§āļĒāđāļāļāļāļīāļ disaggregated serving
âĄïļ āļĨāļ latency āđāļĨāļ°āđāļāļīāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāđāļāļāļēāļ interactive AI
âĄïļ āđāļŦāļĄāļēāļ°āļāļąāļāļāļēāļĢāđāļāđāļāļēāļāđāļāļĢāļ°āļāļ AI Factory āļāļĩāđāļāđāļāļāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨāļāļģāļāļ§āļāļĄāļēāļ
â
āļāđāļāļĄāļđāļĨāđāļŠāļĢāļīāļĄāļāļēāļāļ āļēāļĒāļāļāļ
âĄïļ DeepSeek R1 āđāļāđāļāđāļĄāđāļāļĨ MoE āļāļāļēāļ 671B parameter āļāļĩāđāļāđāļāļāđāļāđ compute āļŠāļđāļāļĄāļēāļ
âĄïļ Whisper āļāļĨāļēāļĒāđāļāđāļāđāļĄāđāļāļĨāđāļāļĨāļāđāļŠāļĩāļĒāļāļĒāļāļāļāļīāļĒāļĄāļāļ HuggingFace āļāđāļ§āļĒāļĒāļāļāļāļēāļ§āļāđāđāļŦāļĨāļāđāļāļ·āļāļ 5 āļĨāđāļēāļāļāļĢāļąāđāļ
âĄïļ Llama 3.1 405B āļĄāļĩāļāļ§āļēāļĄāļāđāļāļāļāļēāļĢāļāđāļēāļ latency āđāļĨāļ° throughput āļŠāļđāļāļāļ§āđāļēāļĢāļļāđāļāļāđāļāļ
âĄïļ Hopper GPU āđāļĢāļīāđāļĄāļĨāđāļēāļŠāļĄāļąāļĒāđāļĄāļ·āđāļāđāļāļĩāļĒāļāļāļąāļ Blackwell Ultra āđāļāļāļēāļ inference
https://www.tomshardware.com/pc-components/gpus/nvidia-claims-software-and-hardware-upgrades-allow-blackwell-ultra-gb300-to-dominate-mlperf-benchmarks-touts-45-percent-deepseek-r-1-inference-throughput-increase-over-gb200
0 Comments
0 Shares
82 Views
0 Reviews