“Stanford เปิดตัว Megakernel สำหรับ Llama-70B — ใช้ GPU เต็มประสิทธิภาพ แซง SGLang ไปกว่า 22%”
ทีมนักวิจัยจาก Hazy Research แห่งมหาวิทยาลัย Stanford ได้เปิดตัว “Megakernel” สำหรับการ inference โมเดล Llama-70B โดยใช้ GPU H100 แบบเต็มประสิทธิภาพ ซึ่งสามารถแซงระบบยอดนิยมอย่าง SGLang ได้ถึง 22% ในการทดสอบชุดคำสั่งจาก ShareGPT
แนวคิดหลักคือการรวมการประมวลผลทั้งหมดของโมเดลไว้ใน “megakernel” เดียว แทนที่จะใช้หลาย kernel แบบเดิม ซึ่งมักมีช่วงเวลาที่ GPU ว่างเปล่าและไม่ได้ทำงาน ทีมงานจึงออกแบบระบบ interpreter ที่สามารถ pipeline คำสั่งต่าง ๆ ได้อย่างต่อเนื่อง ทั้งในระดับ SM (Streaming Multiprocessor), ระหว่าง SM หลายตัว และระหว่าง GPU หลายตัว
การออกแบบนี้ช่วยให้สามารถ overlap การโหลดข้อมูล, การคำนวณ, และการสื่อสารระหว่าง GPU ได้พร้อมกัน ทำให้ใช้ทรัพยากรของ GPU ได้เต็มที่ ไม่ว่าจะเป็น tensor core, memory bandwidth หรือ NVLink
นอกจากนี้ยังมีการปรับโครงสร้างของ Llama-70B ให้เหมาะกับการทำงานแบบ parallel โดยใช้เทคนิค “distributed transpose” แทน reduce-scatter เพื่อลดการสื่อสารระหว่าง GPU ลงถึง 8 เท่า แม้จะแลกกับการใช้หน่วยความจำเพิ่มขึ้น 9GB ต่อ GPU
ระบบนี้ถูกนำไปใช้ใน Tokasaurus ซึ่งเป็น inference engine ที่ออกแบบมาเพื่องาน throughput สูง โดยสามารถจัดการ batch ขนาดใหญ่ได้อย่างมีประสิทธิภาพ และใช้ CPU เพียงเล็กน้อยในการจัดคิวคำสั่ง
ผลการทดสอบแสดงให้เห็นว่า Megakernel สามารถประมวลผลคำสั่งได้เร็วกว่า SGLang อย่างชัดเจน ทั้งในด้าน input, output และ throughput รวม โดยเฉพาะเมื่อใช้ batch ขนาดใหญ่ เช่น 8,192 prompt
ข้อมูลสำคัญจากข่าว
Megakernel ถูกออกแบบเพื่อ inference Llama-70B บน GPU H100
ใช้ระบบ interpreter ที่ pipeline คำสั่งได้ทั้งใน SM, ระหว่าง SM และ GPU
ลดช่วงเวลาที่ GPU ไม่ได้ทำงาน ด้วยการ overlap การโหลด, คำนวณ และสื่อสาร
ใช้ distributed transpose แทน reduce-scatter เพื่อลด network traffic
เพิ่มประสิทธิภาพการทำงานแบบ data-parallel โดย replicate O-projection matrix
Megakernel ถูกนำไปใช้ใน Tokasaurus ซึ่งเป็น engine สำหรับงาน throughput สูง
ผลการทดสอบแสดงว่า Megakernel แซง SGLang ไปกว่า 22% ในชุดคำสั่ง ShareGPT
ใช้ global work queue และ interleaving เพื่อจัดการคำสั่งแบบ dynamic
ข้อมูลเสริมจากภายนอก
SM (Streaming Multiprocessor) คือหน่วยย่อยของ GPU ที่ทำงานแบบ parallel
NVLink เป็นเทคโนโลยีเชื่อมต่อระหว่าง GPU ที่มี bandwidth สูง
Reduce-scatter เป็นเทคนิคการรวมข้อมูลจากหลาย GPU แต่มีค่าใช้จ่ายด้าน network
Distributed transpose ช่วยลดการสื่อสารโดยเปลี่ยนรูปแบบการจัดข้อมูล
Tokasaurus รองรับการทำงานแบบ tensor-parallel และ pipeline-parallel
https://hazyresearch.stanford.edu/blog/2025-09-28-tp-llama-main
ทีมนักวิจัยจาก Hazy Research แห่งมหาวิทยาลัย Stanford ได้เปิดตัว “Megakernel” สำหรับการ inference โมเดล Llama-70B โดยใช้ GPU H100 แบบเต็มประสิทธิภาพ ซึ่งสามารถแซงระบบยอดนิยมอย่าง SGLang ได้ถึง 22% ในการทดสอบชุดคำสั่งจาก ShareGPT
แนวคิดหลักคือการรวมการประมวลผลทั้งหมดของโมเดลไว้ใน “megakernel” เดียว แทนที่จะใช้หลาย kernel แบบเดิม ซึ่งมักมีช่วงเวลาที่ GPU ว่างเปล่าและไม่ได้ทำงาน ทีมงานจึงออกแบบระบบ interpreter ที่สามารถ pipeline คำสั่งต่าง ๆ ได้อย่างต่อเนื่อง ทั้งในระดับ SM (Streaming Multiprocessor), ระหว่าง SM หลายตัว และระหว่าง GPU หลายตัว
การออกแบบนี้ช่วยให้สามารถ overlap การโหลดข้อมูล, การคำนวณ, และการสื่อสารระหว่าง GPU ได้พร้อมกัน ทำให้ใช้ทรัพยากรของ GPU ได้เต็มที่ ไม่ว่าจะเป็น tensor core, memory bandwidth หรือ NVLink
นอกจากนี้ยังมีการปรับโครงสร้างของ Llama-70B ให้เหมาะกับการทำงานแบบ parallel โดยใช้เทคนิค “distributed transpose” แทน reduce-scatter เพื่อลดการสื่อสารระหว่าง GPU ลงถึง 8 เท่า แม้จะแลกกับการใช้หน่วยความจำเพิ่มขึ้น 9GB ต่อ GPU
ระบบนี้ถูกนำไปใช้ใน Tokasaurus ซึ่งเป็น inference engine ที่ออกแบบมาเพื่องาน throughput สูง โดยสามารถจัดการ batch ขนาดใหญ่ได้อย่างมีประสิทธิภาพ และใช้ CPU เพียงเล็กน้อยในการจัดคิวคำสั่ง
ผลการทดสอบแสดงให้เห็นว่า Megakernel สามารถประมวลผลคำสั่งได้เร็วกว่า SGLang อย่างชัดเจน ทั้งในด้าน input, output และ throughput รวม โดยเฉพาะเมื่อใช้ batch ขนาดใหญ่ เช่น 8,192 prompt
ข้อมูลสำคัญจากข่าว
Megakernel ถูกออกแบบเพื่อ inference Llama-70B บน GPU H100
ใช้ระบบ interpreter ที่ pipeline คำสั่งได้ทั้งใน SM, ระหว่าง SM และ GPU
ลดช่วงเวลาที่ GPU ไม่ได้ทำงาน ด้วยการ overlap การโหลด, คำนวณ และสื่อสาร
ใช้ distributed transpose แทน reduce-scatter เพื่อลด network traffic
เพิ่มประสิทธิภาพการทำงานแบบ data-parallel โดย replicate O-projection matrix
Megakernel ถูกนำไปใช้ใน Tokasaurus ซึ่งเป็น engine สำหรับงาน throughput สูง
ผลการทดสอบแสดงว่า Megakernel แซง SGLang ไปกว่า 22% ในชุดคำสั่ง ShareGPT
ใช้ global work queue และ interleaving เพื่อจัดการคำสั่งแบบ dynamic
ข้อมูลเสริมจากภายนอก
SM (Streaming Multiprocessor) คือหน่วยย่อยของ GPU ที่ทำงานแบบ parallel
NVLink เป็นเทคโนโลยีเชื่อมต่อระหว่าง GPU ที่มี bandwidth สูง
Reduce-scatter เป็นเทคนิคการรวมข้อมูลจากหลาย GPU แต่มีค่าใช้จ่ายด้าน network
Distributed transpose ช่วยลดการสื่อสารโดยเปลี่ยนรูปแบบการจัดข้อมูล
Tokasaurus รองรับการทำงานแบบ tensor-parallel และ pipeline-parallel
https://hazyresearch.stanford.edu/blog/2025-09-28-tp-llama-main
⚙️ “Stanford เปิดตัว Megakernel สำหรับ Llama-70B — ใช้ GPU เต็มประสิทธิภาพ แซง SGLang ไปกว่า 22%”
ทีมนักวิจัยจาก Hazy Research แห่งมหาวิทยาลัย Stanford ได้เปิดตัว “Megakernel” สำหรับการ inference โมเดล Llama-70B โดยใช้ GPU H100 แบบเต็มประสิทธิภาพ ซึ่งสามารถแซงระบบยอดนิยมอย่าง SGLang ได้ถึง 22% ในการทดสอบชุดคำสั่งจาก ShareGPT
แนวคิดหลักคือการรวมการประมวลผลทั้งหมดของโมเดลไว้ใน “megakernel” เดียว แทนที่จะใช้หลาย kernel แบบเดิม ซึ่งมักมีช่วงเวลาที่ GPU ว่างเปล่าและไม่ได้ทำงาน ทีมงานจึงออกแบบระบบ interpreter ที่สามารถ pipeline คำสั่งต่าง ๆ ได้อย่างต่อเนื่อง ทั้งในระดับ SM (Streaming Multiprocessor), ระหว่าง SM หลายตัว และระหว่าง GPU หลายตัว
การออกแบบนี้ช่วยให้สามารถ overlap การโหลดข้อมูล, การคำนวณ, และการสื่อสารระหว่าง GPU ได้พร้อมกัน ทำให้ใช้ทรัพยากรของ GPU ได้เต็มที่ ไม่ว่าจะเป็น tensor core, memory bandwidth หรือ NVLink
นอกจากนี้ยังมีการปรับโครงสร้างของ Llama-70B ให้เหมาะกับการทำงานแบบ parallel โดยใช้เทคนิค “distributed transpose” แทน reduce-scatter เพื่อลดการสื่อสารระหว่าง GPU ลงถึง 8 เท่า แม้จะแลกกับการใช้หน่วยความจำเพิ่มขึ้น 9GB ต่อ GPU
ระบบนี้ถูกนำไปใช้ใน Tokasaurus ซึ่งเป็น inference engine ที่ออกแบบมาเพื่องาน throughput สูง โดยสามารถจัดการ batch ขนาดใหญ่ได้อย่างมีประสิทธิภาพ และใช้ CPU เพียงเล็กน้อยในการจัดคิวคำสั่ง
ผลการทดสอบแสดงให้เห็นว่า Megakernel สามารถประมวลผลคำสั่งได้เร็วกว่า SGLang อย่างชัดเจน ทั้งในด้าน input, output และ throughput รวม โดยเฉพาะเมื่อใช้ batch ขนาดใหญ่ เช่น 8,192 prompt
✅ ข้อมูลสำคัญจากข่าว
➡️ Megakernel ถูกออกแบบเพื่อ inference Llama-70B บน GPU H100
➡️ ใช้ระบบ interpreter ที่ pipeline คำสั่งได้ทั้งใน SM, ระหว่าง SM และ GPU
➡️ ลดช่วงเวลาที่ GPU ไม่ได้ทำงาน ด้วยการ overlap การโหลด, คำนวณ และสื่อสาร
➡️ ใช้ distributed transpose แทน reduce-scatter เพื่อลด network traffic
➡️ เพิ่มประสิทธิภาพการทำงานแบบ data-parallel โดย replicate O-projection matrix
➡️ Megakernel ถูกนำไปใช้ใน Tokasaurus ซึ่งเป็น engine สำหรับงาน throughput สูง
➡️ ผลการทดสอบแสดงว่า Megakernel แซง SGLang ไปกว่า 22% ในชุดคำสั่ง ShareGPT
➡️ ใช้ global work queue และ interleaving เพื่อจัดการคำสั่งแบบ dynamic
✅ ข้อมูลเสริมจากภายนอก
➡️ SM (Streaming Multiprocessor) คือหน่วยย่อยของ GPU ที่ทำงานแบบ parallel
➡️ NVLink เป็นเทคโนโลยีเชื่อมต่อระหว่าง GPU ที่มี bandwidth สูง
➡️ Reduce-scatter เป็นเทคนิคการรวมข้อมูลจากหลาย GPU แต่มีค่าใช้จ่ายด้าน network
➡️ Distributed transpose ช่วยลดการสื่อสารโดยเปลี่ยนรูปแบบการจัดข้อมูล
➡️ Tokasaurus รองรับการทำงานแบบ tensor-parallel และ pipeline-parallel
https://hazyresearch.stanford.edu/blog/2025-09-28-tp-llama-main
0 ความคิดเห็น
0 การแบ่งปัน
92 มุมมอง
0 รีวิว