“Stanford āđāļāļīāļāļāļąāļ§ Megakernel āļŠāļģāļŦāļĢāļąāļ Llama-70B — āđāļāđ GPU āđāļāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļ āđāļāļ SGLang āđāļāļāļ§āđāļē 22%”
āļāļĩāļĄāļāļąāļāļ§āļīāļāļąāļĒāļāļēāļ Hazy Research āđāļŦāđāļāļĄāļŦāļēāļ§āļīāļāļĒāļēāļĨāļąāļĒ Stanford āđāļāđāđāļāļīāļāļāļąāļ§ “Megakernel” āļŠāļģāļŦāļĢāļąāļāļāļēāļĢ inference āđāļĄāđāļāļĨ Llama-70B āđāļāļĒāđāļāđ GPU H100 āđāļāļāđāļāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļ āļāļķāđāļāļŠāļēāļĄāļēāļĢāļāđāļāļāļĢāļ°āļāļāļĒāļāļāļāļīāļĒāļĄāļāļĒāđāļēāļ SGLang āđāļāđāļāļķāļ 22% āđāļāļāļēāļĢāļāļāļŠāļāļāļāļļāļāļāļģāļŠāļąāđāļāļāļēāļ ShareGPT
āđāļāļ§āļāļīāļāļŦāļĨāļąāļāļāļ·āļāļāļēāļĢāļĢāļ§āļĄāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨāļāļąāđāļāļŦāļĄāļāļāļāļāđāļĄāđāļāļĨāđāļ§āđāđāļ “megakernel” āđāļāļĩāļĒāļ§ āđāļāļāļāļĩāđāļāļ°āđāļāđāļŦāļĨāļēāļĒ kernel āđāļāļāđāļāļīāļĄ āļāļķāđāļāļĄāļąāļāļĄāļĩāļāđāļ§āļāđāļ§āļĨāļēāļāļĩāđ GPU āļ§āđāļēāļāđāļāļĨāđāļēāđāļĨāļ°āđāļĄāđāđāļāđāļāļģāļāļēāļ āļāļĩāļĄāļāļēāļāļāļķāļāļāļāļāđāļāļāļĢāļ°āļāļ interpreter āļāļĩāđāļŠāļēāļĄāļēāļĢāļ pipeline āļāļģāļŠāļąāđāļāļāđāļēāļ āđ āđāļāđāļāļĒāđāļēāļāļāđāļāđāļāļ·āđāļāļ āļāļąāđāļāđāļāļĢāļ°āļāļąāļ SM (Streaming Multiprocessor), āļĢāļ°āļŦāļ§āđāļēāļ SM āļŦāļĨāļēāļĒāļāļąāļ§ āđāļĨāļ°āļĢāļ°āļŦāļ§āđāļēāļ GPU āļŦāļĨāļēāļĒāļāļąāļ§
āļāļēāļĢāļāļāļāđāļāļāļāļĩāđāļāđāļ§āļĒāđāļŦāđāļŠāļēāļĄāļēāļĢāļ overlap āļāļēāļĢāđāļŦāļĨāļāļāđāļāļĄāļđāļĨ, āļāļēāļĢāļāļģāļāļ§āļ, āđāļĨāļ°āļāļēāļĢāļŠāļ·āđāļāļŠāļēāļĢāļĢāļ°āļŦāļ§āđāļēāļ GPU āđāļāđāļāļĢāđāļāļĄāļāļąāļ āļāļģāđāļŦāđāđāļāđāļāļĢāļąāļāļĒāļēāļāļĢāļāļāļ GPU āđāļāđāđāļāđāļĄāļāļĩāđ āđāļĄāđāļ§āđāļēāļāļ°āđāļāđāļ tensor core, memory bandwidth āļŦāļĢāļ·āļ NVLink
āļāļāļāļāļēāļāļāļĩāđāļĒāļąāļāļĄāļĩāļāļēāļĢāļāļĢāļąāļāđāļāļĢāļāļŠāļĢāđāļēāļāļāļāļ Llama-70B āđāļŦāđāđāļŦāļĄāļēāļ°āļāļąāļāļāļēāļĢāļāļģāļāļēāļāđāļāļ parallel āđāļāļĒāđāļāđāđāļāļāļāļīāļ “distributed transpose” āđāļāļ reduce-scatter āđāļāļ·āđāļāļĨāļāļāļēāļĢāļŠāļ·āđāļāļŠāļēāļĢāļĢāļ°āļŦāļ§āđāļēāļ GPU āļĨāļāļāļķāļ 8 āđāļāđāļē āđāļĄāđāļāļ°āđāļĨāļāļāļąāļāļāļēāļĢāđāļāđāļŦāļāđāļ§āļĒāļāļ§āļēāļĄāļāļģāđāļāļīāđāļĄāļāļķāđāļ 9GB āļāđāļ GPU
āļĢāļ°āļāļāļāļĩāđāļāļđāļāļāļģāđāļāđāļāđāđāļ Tokasaurus āļāļķāđāļāđāļāđāļ inference engine āļāļĩāđāļāļāļāđāļāļāļĄāļēāđāļāļ·āđāļāļāļēāļ throughput āļŠāļđāļ āđāļāļĒāļŠāļēāļĄāļēāļĢāļāļāļąāļāļāļēāļĢ batch āļāļāļēāļāđāļŦāļāđāđāļāđāļāļĒāđāļēāļāļĄāļĩāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļ āđāļĨāļ°āđāļāđ CPU āđāļāļĩāļĒāļāđāļĨāđāļāļāđāļāļĒāđāļāļāļēāļĢāļāļąāļāļāļīāļ§āļāļģāļŠāļąāđāļ
āļāļĨāļāļēāļĢāļāļāļŠāļāļāđāļŠāļāļāđāļŦāđāđāļŦāđāļāļ§āđāļē Megakernel āļŠāļēāļĄāļēāļĢāļāļāļĢāļ°āļĄāļ§āļĨāļāļĨāļāļģāļŠāļąāđāļāđāļāđāđāļĢāđāļ§āļāļ§āđāļē SGLang āļāļĒāđāļēāļāļāļąāļāđāļāļ āļāļąāđāļāđāļāļāđāļēāļ input, output āđāļĨāļ° throughput āļĢāļ§āļĄ āđāļāļĒāđāļāļāļēāļ°āđāļĄāļ·āđāļāđāļāđ batch āļāļāļēāļāđāļŦāļāđ āđāļāđāļ 8,192 prompt
āļāđāļāļĄāļđāļĨāļŠāļģāļāļąāļāļāļēāļāļāđāļēāļ§
Megakernel āļāļđāļāļāļāļāđāļāļāđāļāļ·āđāļ inference Llama-70B āļāļ GPU H100
āđāļāđāļĢāļ°āļāļ interpreter āļāļĩāđ pipeline āļāļģāļŠāļąāđāļāđāļāđāļāļąāđāļāđāļ SM, āļĢāļ°āļŦāļ§āđāļēāļ SM āđāļĨāļ° GPU
āļĨāļāļāđāļ§āļāđāļ§āļĨāļēāļāļĩāđ GPU āđāļĄāđāđāļāđāļāļģāļāļēāļ āļāđāļ§āļĒāļāļēāļĢ overlap āļāļēāļĢāđāļŦāļĨāļ, āļāļģāļāļ§āļ āđāļĨāļ°āļŠāļ·āđāļāļŠāļēāļĢ
āđāļāđ distributed transpose āđāļāļ reduce-scatter āđāļāļ·āđāļāļĨāļ network traffic
āđāļāļīāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļāļēāļĢāļāļģāļāļēāļāđāļāļ data-parallel āđāļāļĒ replicate O-projection matrix
Megakernel āļāļđāļāļāļģāđāļāđāļāđāđāļ Tokasaurus āļāļķāđāļāđāļāđāļ engine āļŠāļģāļŦāļĢāļąāļāļāļēāļ throughput āļŠāļđāļ
āļāļĨāļāļēāļĢāļāļāļŠāļāļāđāļŠāļāļāļ§āđāļē Megakernel āđāļāļ SGLang āđāļāļāļ§āđāļē 22% āđāļāļāļļāļāļāļģāļŠāļąāđāļ ShareGPT
āđāļāđ global work queue āđāļĨāļ° interleaving āđāļāļ·āđāļāļāļąāļāļāļēāļĢāļāļģāļŠāļąāđāļāđāļāļ dynamic
āļāđāļāļĄāļđāļĨāđāļŠāļĢāļīāļĄāļāļēāļāļ āļēāļĒāļāļāļ
SM (Streaming Multiprocessor) āļāļ·āļāļŦāļāđāļ§āļĒāļĒāđāļāļĒāļāļāļ GPU āļāļĩāđāļāļģāļāļēāļāđāļāļ parallel
NVLink āđāļāđāļāđāļāļāđāļāđāļĨāļĒāļĩāđāļāļ·āđāļāļĄāļāđāļāļĢāļ°āļŦāļ§āđāļēāļ GPU āļāļĩāđāļĄāļĩ bandwidth āļŠāļđāļ
Reduce-scatter āđāļāđāļāđāļāļāļāļīāļāļāļēāļĢāļĢāļ§āļĄāļāđāļāļĄāļđāļĨāļāļēāļāļŦāļĨāļēāļĒ GPU āđāļāđāļĄāļĩāļāđāļēāđāļāđāļāđāļēāļĒāļāđāļēāļ network
Distributed transpose āļāđāļ§āļĒāļĨāļāļāļēāļĢāļŠāļ·āđāļāļŠāļēāļĢāđāļāļĒāđāļāļĨāļĩāđāļĒāļāļĢāļđāļāđāļāļāļāļēāļĢāļāļąāļāļāđāļāļĄāļđāļĨ
Tokasaurus āļĢāļāļāļĢāļąāļāļāļēāļĢāļāļģāļāļēāļāđāļāļ tensor-parallel āđāļĨāļ° pipeline-parallel
https://hazyresearch.stanford.edu/blog/2025-09-28-tp-llama-main
āļāļĩāļĄāļāļąāļāļ§āļīāļāļąāļĒāļāļēāļ Hazy Research āđāļŦāđāļāļĄāļŦāļēāļ§āļīāļāļĒāļēāļĨāļąāļĒ Stanford āđāļāđāđāļāļīāļāļāļąāļ§ “Megakernel” āļŠāļģāļŦāļĢāļąāļāļāļēāļĢ inference āđāļĄāđāļāļĨ Llama-70B āđāļāļĒāđāļāđ GPU H100 āđāļāļāđāļāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļ āļāļķāđāļāļŠāļēāļĄāļēāļĢāļāđāļāļāļĢāļ°āļāļāļĒāļāļāļāļīāļĒāļĄāļāļĒāđāļēāļ SGLang āđāļāđāļāļķāļ 22% āđāļāļāļēāļĢāļāļāļŠāļāļāļāļļāļāļāļģāļŠāļąāđāļāļāļēāļ ShareGPT
āđāļāļ§āļāļīāļāļŦāļĨāļąāļāļāļ·āļāļāļēāļĢāļĢāļ§āļĄāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨāļāļąāđāļāļŦāļĄāļāļāļāļāđāļĄāđāļāļĨāđāļ§āđāđāļ “megakernel” āđāļāļĩāļĒāļ§ āđāļāļāļāļĩāđāļāļ°āđāļāđāļŦāļĨāļēāļĒ kernel āđāļāļāđāļāļīāļĄ āļāļķāđāļāļĄāļąāļāļĄāļĩāļāđāļ§āļāđāļ§āļĨāļēāļāļĩāđ GPU āļ§āđāļēāļāđāļāļĨāđāļēāđāļĨāļ°āđāļĄāđāđāļāđāļāļģāļāļēāļ āļāļĩāļĄāļāļēāļāļāļķāļāļāļāļāđāļāļāļĢāļ°āļāļ interpreter āļāļĩāđāļŠāļēāļĄāļēāļĢāļ pipeline āļāļģāļŠāļąāđāļāļāđāļēāļ āđ āđāļāđāļāļĒāđāļēāļāļāđāļāđāļāļ·āđāļāļ āļāļąāđāļāđāļāļĢāļ°āļāļąāļ SM (Streaming Multiprocessor), āļĢāļ°āļŦāļ§āđāļēāļ SM āļŦāļĨāļēāļĒāļāļąāļ§ āđāļĨāļ°āļĢāļ°āļŦāļ§āđāļēāļ GPU āļŦāļĨāļēāļĒāļāļąāļ§
āļāļēāļĢāļāļāļāđāļāļāļāļĩāđāļāđāļ§āļĒāđāļŦāđāļŠāļēāļĄāļēāļĢāļ overlap āļāļēāļĢāđāļŦāļĨāļāļāđāļāļĄāļđāļĨ, āļāļēāļĢāļāļģāļāļ§āļ, āđāļĨāļ°āļāļēāļĢāļŠāļ·āđāļāļŠāļēāļĢāļĢāļ°āļŦāļ§āđāļēāļ GPU āđāļāđāļāļĢāđāļāļĄāļāļąāļ āļāļģāđāļŦāđāđāļāđāļāļĢāļąāļāļĒāļēāļāļĢāļāļāļ GPU āđāļāđāđāļāđāļĄāļāļĩāđ āđāļĄāđāļ§āđāļēāļāļ°āđāļāđāļ tensor core, memory bandwidth āļŦāļĢāļ·āļ NVLink
āļāļāļāļāļēāļāļāļĩāđāļĒāļąāļāļĄāļĩāļāļēāļĢāļāļĢāļąāļāđāļāļĢāļāļŠāļĢāđāļēāļāļāļāļ Llama-70B āđāļŦāđāđāļŦāļĄāļēāļ°āļāļąāļāļāļēāļĢāļāļģāļāļēāļāđāļāļ parallel āđāļāļĒāđāļāđāđāļāļāļāļīāļ “distributed transpose” āđāļāļ reduce-scatter āđāļāļ·āđāļāļĨāļāļāļēāļĢāļŠāļ·āđāļāļŠāļēāļĢāļĢāļ°āļŦāļ§āđāļēāļ GPU āļĨāļāļāļķāļ 8 āđāļāđāļē āđāļĄāđāļāļ°āđāļĨāļāļāļąāļāļāļēāļĢāđāļāđāļŦāļāđāļ§āļĒāļāļ§āļēāļĄāļāļģāđāļāļīāđāļĄāļāļķāđāļ 9GB āļāđāļ GPU
āļĢāļ°āļāļāļāļĩāđāļāļđāļāļāļģāđāļāđāļāđāđāļ Tokasaurus āļāļķāđāļāđāļāđāļ inference engine āļāļĩāđāļāļāļāđāļāļāļĄāļēāđāļāļ·āđāļāļāļēāļ throughput āļŠāļđāļ āđāļāļĒāļŠāļēāļĄāļēāļĢāļāļāļąāļāļāļēāļĢ batch āļāļāļēāļāđāļŦāļāđāđāļāđāļāļĒāđāļēāļāļĄāļĩāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļ āđāļĨāļ°āđāļāđ CPU āđāļāļĩāļĒāļāđāļĨāđāļāļāđāļāļĒāđāļāļāļēāļĢāļāļąāļāļāļīāļ§āļāļģāļŠāļąāđāļ
āļāļĨāļāļēāļĢāļāļāļŠāļāļāđāļŠāļāļāđāļŦāđāđāļŦāđāļāļ§āđāļē Megakernel āļŠāļēāļĄāļēāļĢāļāļāļĢāļ°āļĄāļ§āļĨāļāļĨāļāļģāļŠāļąāđāļāđāļāđāđāļĢāđāļ§āļāļ§āđāļē SGLang āļāļĒāđāļēāļāļāļąāļāđāļāļ āļāļąāđāļāđāļāļāđāļēāļ input, output āđāļĨāļ° throughput āļĢāļ§āļĄ āđāļāļĒāđāļāļāļēāļ°āđāļĄāļ·āđāļāđāļāđ batch āļāļāļēāļāđāļŦāļāđ āđāļāđāļ 8,192 prompt
āļāđāļāļĄāļđāļĨāļŠāļģāļāļąāļāļāļēāļāļāđāļēāļ§
Megakernel āļāļđāļāļāļāļāđāļāļāđāļāļ·āđāļ inference Llama-70B āļāļ GPU H100
āđāļāđāļĢāļ°āļāļ interpreter āļāļĩāđ pipeline āļāļģāļŠāļąāđāļāđāļāđāļāļąāđāļāđāļ SM, āļĢāļ°āļŦāļ§āđāļēāļ SM āđāļĨāļ° GPU
āļĨāļāļāđāļ§āļāđāļ§āļĨāļēāļāļĩāđ GPU āđāļĄāđāđāļāđāļāļģāļāļēāļ āļāđāļ§āļĒāļāļēāļĢ overlap āļāļēāļĢāđāļŦāļĨāļ, āļāļģāļāļ§āļ āđāļĨāļ°āļŠāļ·āđāļāļŠāļēāļĢ
āđāļāđ distributed transpose āđāļāļ reduce-scatter āđāļāļ·āđāļāļĨāļ network traffic
āđāļāļīāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļāļēāļĢāļāļģāļāļēāļāđāļāļ data-parallel āđāļāļĒ replicate O-projection matrix
Megakernel āļāļđāļāļāļģāđāļāđāļāđāđāļ Tokasaurus āļāļķāđāļāđāļāđāļ engine āļŠāļģāļŦāļĢāļąāļāļāļēāļ throughput āļŠāļđāļ
āļāļĨāļāļēāļĢāļāļāļŠāļāļāđāļŠāļāļāļ§āđāļē Megakernel āđāļāļ SGLang āđāļāļāļ§āđāļē 22% āđāļāļāļļāļāļāļģāļŠāļąāđāļ ShareGPT
āđāļāđ global work queue āđāļĨāļ° interleaving āđāļāļ·āđāļāļāļąāļāļāļēāļĢāļāļģāļŠāļąāđāļāđāļāļ dynamic
āļāđāļāļĄāļđāļĨāđāļŠāļĢāļīāļĄāļāļēāļāļ āļēāļĒāļāļāļ
SM (Streaming Multiprocessor) āļāļ·āļāļŦāļāđāļ§āļĒāļĒāđāļāļĒāļāļāļ GPU āļāļĩāđāļāļģāļāļēāļāđāļāļ parallel
NVLink āđāļāđāļāđāļāļāđāļāđāļĨāļĒāļĩāđāļāļ·āđāļāļĄāļāđāļāļĢāļ°āļŦāļ§āđāļēāļ GPU āļāļĩāđāļĄāļĩ bandwidth āļŠāļđāļ
Reduce-scatter āđāļāđāļāđāļāļāļāļīāļāļāļēāļĢāļĢāļ§āļĄāļāđāļāļĄāļđāļĨāļāļēāļāļŦāļĨāļēāļĒ GPU āđāļāđāļĄāļĩāļāđāļēāđāļāđāļāđāļēāļĒāļāđāļēāļ network
Distributed transpose āļāđāļ§āļĒāļĨāļāļāļēāļĢāļŠāļ·āđāļāļŠāļēāļĢāđāļāļĒāđāļāļĨāļĩāđāļĒāļāļĢāļđāļāđāļāļāļāļēāļĢāļāļąāļāļāđāļāļĄāļđāļĨ
Tokasaurus āļĢāļāļāļĢāļąāļāļāļēāļĢāļāļģāļāļēāļāđāļāļ tensor-parallel āđāļĨāļ° pipeline-parallel
https://hazyresearch.stanford.edu/blog/2025-09-28-tp-llama-main
âïļ “Stanford āđāļāļīāļāļāļąāļ§ Megakernel āļŠāļģāļŦāļĢāļąāļ Llama-70B — āđāļāđ GPU āđāļāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļ āđāļāļ SGLang āđāļāļāļ§āđāļē 22%”
āļāļĩāļĄāļāļąāļāļ§āļīāļāļąāļĒāļāļēāļ Hazy Research āđāļŦāđāļāļĄāļŦāļēāļ§āļīāļāļĒāļēāļĨāļąāļĒ Stanford āđāļāđāđāļāļīāļāļāļąāļ§ “Megakernel” āļŠāļģāļŦāļĢāļąāļāļāļēāļĢ inference āđāļĄāđāļāļĨ Llama-70B āđāļāļĒāđāļāđ GPU H100 āđāļāļāđāļāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļ āļāļķāđāļāļŠāļēāļĄāļēāļĢāļāđāļāļāļĢāļ°āļāļāļĒāļāļāļāļīāļĒāļĄāļāļĒāđāļēāļ SGLang āđāļāđāļāļķāļ 22% āđāļāļāļēāļĢāļāļāļŠāļāļāļāļļāļāļāļģāļŠāļąāđāļāļāļēāļ ShareGPT
āđāļāļ§āļāļīāļāļŦāļĨāļąāļāļāļ·āļāļāļēāļĢāļĢāļ§āļĄāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨāļāļąāđāļāļŦāļĄāļāļāļāļāđāļĄāđāļāļĨāđāļ§āđāđāļ “megakernel” āđāļāļĩāļĒāļ§ āđāļāļāļāļĩāđāļāļ°āđāļāđāļŦāļĨāļēāļĒ kernel āđāļāļāđāļāļīāļĄ āļāļķāđāļāļĄāļąāļāļĄāļĩāļāđāļ§āļāđāļ§āļĨāļēāļāļĩāđ GPU āļ§āđāļēāļāđāļāļĨāđāļēāđāļĨāļ°āđāļĄāđāđāļāđāļāļģāļāļēāļ āļāļĩāļĄāļāļēāļāļāļķāļāļāļāļāđāļāļāļĢāļ°āļāļ interpreter āļāļĩāđāļŠāļēāļĄāļēāļĢāļ pipeline āļāļģāļŠāļąāđāļāļāđāļēāļ āđ āđāļāđāļāļĒāđāļēāļāļāđāļāđāļāļ·āđāļāļ āļāļąāđāļāđāļāļĢāļ°āļāļąāļ SM (Streaming Multiprocessor), āļĢāļ°āļŦāļ§āđāļēāļ SM āļŦāļĨāļēāļĒāļāļąāļ§ āđāļĨāļ°āļĢāļ°āļŦāļ§āđāļēāļ GPU āļŦāļĨāļēāļĒāļāļąāļ§
āļāļēāļĢāļāļāļāđāļāļāļāļĩāđāļāđāļ§āļĒāđāļŦāđāļŠāļēāļĄāļēāļĢāļ overlap āļāļēāļĢāđāļŦāļĨāļāļāđāļāļĄāļđāļĨ, āļāļēāļĢāļāļģāļāļ§āļ, āđāļĨāļ°āļāļēāļĢāļŠāļ·āđāļāļŠāļēāļĢāļĢāļ°āļŦāļ§āđāļēāļ GPU āđāļāđāļāļĢāđāļāļĄāļāļąāļ āļāļģāđāļŦāđāđāļāđāļāļĢāļąāļāļĒāļēāļāļĢāļāļāļ GPU āđāļāđāđāļāđāļĄāļāļĩāđ āđāļĄāđāļ§āđāļēāļāļ°āđāļāđāļ tensor core, memory bandwidth āļŦāļĢāļ·āļ NVLink
āļāļāļāļāļēāļāļāļĩāđāļĒāļąāļāļĄāļĩāļāļēāļĢāļāļĢāļąāļāđāļāļĢāļāļŠāļĢāđāļēāļāļāļāļ Llama-70B āđāļŦāđāđāļŦāļĄāļēāļ°āļāļąāļāļāļēāļĢāļāļģāļāļēāļāđāļāļ parallel āđāļāļĒāđāļāđāđāļāļāļāļīāļ “distributed transpose” āđāļāļ reduce-scatter āđāļāļ·āđāļāļĨāļāļāļēāļĢāļŠāļ·āđāļāļŠāļēāļĢāļĢāļ°āļŦāļ§āđāļēāļ GPU āļĨāļāļāļķāļ 8 āđāļāđāļē āđāļĄāđāļāļ°āđāļĨāļāļāļąāļāļāļēāļĢāđāļāđāļŦāļāđāļ§āļĒāļāļ§āļēāļĄāļāļģāđāļāļīāđāļĄāļāļķāđāļ 9GB āļāđāļ GPU
āļĢāļ°āļāļāļāļĩāđāļāļđāļāļāļģāđāļāđāļāđāđāļ Tokasaurus āļāļķāđāļāđāļāđāļ inference engine āļāļĩāđāļāļāļāđāļāļāļĄāļēāđāļāļ·āđāļāļāļēāļ throughput āļŠāļđāļ āđāļāļĒāļŠāļēāļĄāļēāļĢāļāļāļąāļāļāļēāļĢ batch āļāļāļēāļāđāļŦāļāđāđāļāđāļāļĒāđāļēāļāļĄāļĩāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļ āđāļĨāļ°āđāļāđ CPU āđāļāļĩāļĒāļāđāļĨāđāļāļāđāļāļĒāđāļāļāļēāļĢāļāļąāļāļāļīāļ§āļāļģāļŠāļąāđāļ
āļāļĨāļāļēāļĢāļāļāļŠāļāļāđāļŠāļāļāđāļŦāđāđāļŦāđāļāļ§āđāļē Megakernel āļŠāļēāļĄāļēāļĢāļāļāļĢāļ°āļĄāļ§āļĨāļāļĨāļāļģāļŠāļąāđāļāđāļāđāđāļĢāđāļ§āļāļ§āđāļē SGLang āļāļĒāđāļēāļāļāļąāļāđāļāļ āļāļąāđāļāđāļāļāđāļēāļ input, output āđāļĨāļ° throughput āļĢāļ§āļĄ āđāļāļĒāđāļāļāļēāļ°āđāļĄāļ·āđāļāđāļāđ batch āļāļāļēāļāđāļŦāļāđ āđāļāđāļ 8,192 prompt
â
āļāđāļāļĄāļđāļĨāļŠāļģāļāļąāļāļāļēāļāļāđāļēāļ§
âĄïļ Megakernel āļāļđāļāļāļāļāđāļāļāđāļāļ·āđāļ inference Llama-70B āļāļ GPU H100
âĄïļ āđāļāđāļĢāļ°āļāļ interpreter āļāļĩāđ pipeline āļāļģāļŠāļąāđāļāđāļāđāļāļąāđāļāđāļ SM, āļĢāļ°āļŦāļ§āđāļēāļ SM āđāļĨāļ° GPU
âĄïļ āļĨāļāļāđāļ§āļāđāļ§āļĨāļēāļāļĩāđ GPU āđāļĄāđāđāļāđāļāļģāļāļēāļ āļāđāļ§āļĒāļāļēāļĢ overlap āļāļēāļĢāđāļŦāļĨāļ, āļāļģāļāļ§āļ āđāļĨāļ°āļŠāļ·āđāļāļŠāļēāļĢ
âĄïļ āđāļāđ distributed transpose āđāļāļ reduce-scatter āđāļāļ·āđāļāļĨāļ network traffic
âĄïļ āđāļāļīāđāļĄāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļāļēāļĢāļāļģāļāļēāļāđāļāļ data-parallel āđāļāļĒ replicate O-projection matrix
âĄïļ Megakernel āļāļđāļāļāļģāđāļāđāļāđāđāļ Tokasaurus āļāļķāđāļāđāļāđāļ engine āļŠāļģāļŦāļĢāļąāļāļāļēāļ throughput āļŠāļđāļ
âĄïļ āļāļĨāļāļēāļĢāļāļāļŠāļāļāđāļŠāļāļāļ§āđāļē Megakernel āđāļāļ SGLang āđāļāļāļ§āđāļē 22% āđāļāļāļļāļāļāļģāļŠāļąāđāļ ShareGPT
âĄïļ āđāļāđ global work queue āđāļĨāļ° interleaving āđāļāļ·āđāļāļāļąāļāļāļēāļĢāļāļģāļŠāļąāđāļāđāļāļ dynamic
â
āļāđāļāļĄāļđāļĨāđāļŠāļĢāļīāļĄāļāļēāļāļ āļēāļĒāļāļāļ
âĄïļ SM (Streaming Multiprocessor) āļāļ·āļāļŦāļāđāļ§āļĒāļĒāđāļāļĒāļāļāļ GPU āļāļĩāđāļāļģāļāļēāļāđāļāļ parallel
âĄïļ NVLink āđāļāđāļāđāļāļāđāļāđāļĨāļĒāļĩāđāļāļ·āđāļāļĄāļāđāļāļĢāļ°āļŦāļ§āđāļēāļ GPU āļāļĩāđāļĄāļĩ bandwidth āļŠāļđāļ
âĄïļ Reduce-scatter āđāļāđāļāđāļāļāļāļīāļāļāļēāļĢāļĢāļ§āļĄāļāđāļāļĄāļđāļĨāļāļēāļāļŦāļĨāļēāļĒ GPU āđāļāđāļĄāļĩāļāđāļēāđāļāđāļāđāļēāļĒāļāđāļēāļ network
âĄïļ Distributed transpose āļāđāļ§āļĒāļĨāļāļāļēāļĢāļŠāļ·āđāļāļŠāļēāļĢāđāļāļĒāđāļāļĨāļĩāđāļĒāļāļĢāļđāļāđāļāļāļāļēāļĢāļāļąāļāļāđāļāļĄāļđāļĨ
âĄïļ Tokasaurus āļĢāļāļāļĢāļąāļāļāļēāļĢāļāļģāļāļēāļāđāļāļ tensor-parallel āđāļĨāļ° pipeline-parallel
https://hazyresearch.stanford.edu/blog/2025-09-28-tp-llama-main
0 Comments
0 Shares
94 Views
0 Reviews