เรื่องเล่าจาก Qwen3 สู่ Qwen3-Next: เมื่อโมเดล 80B ทำงานได้เท่ากับ 235B โดยใช้พลังแค่ 3B

ในเดือนกันยายน 2025 ทีม Qwen จาก Alibaba ได้เปิดตัวสถาปัตยกรรมใหม่ชื่อว่า Qwen3-Next ซึ่งเป็นการพัฒนาโมเดลขนาดใหญ่ที่เน้น “ประสิทธิภาพต่อพารามิเตอร์” และ “ความเร็วในการประมวลผลข้อความยาว” โดยใช้แนวคิดใหม่ทั้งในด้าน attention, sparsity และการพยากรณ์หลาย token พร้อมกัน

Qwen3-Next มีพารามิเตอร์รวม 80 พันล้าน แต่เปิดใช้งานจริงเพียง 3 พันล้านระหว่างการ inference ซึ่งทำให้สามารถเทียบเคียงกับ Qwen3-235B ได้ในหลายงาน โดยใช้ต้นทุนการฝึกเพียง 9.3% ของ Qwen3-32B2

หัวใจของ Qwen3-Next คือการผสมผสานระหว่าง Gated DeltaNet (linear attention ที่เร็วแต่แม่น) กับ standard attention (ที่แม่นแต่ช้า) ในอัตราส่วน 3:1 พร้อมเพิ่ม gating, rotary encoding แบบบางส่วน และการขยายขนาด head dimension เพื่อรองรับข้อความยาวถึง 256K tokens ได้อย่างเสถียร

ในส่วนของ MoE (Mixture-of-Experts) Qwen3-Next ใช้โครงสร้าง ultra-sparse โดยมี 512 experts แต่เปิดใช้งานเพียง 10 + 1 shared expert ต่อ step ซึ่งทำให้ลดการใช้พลังงานและเพิ่ม throughput ได้มากกว่า 10 เท่าเมื่อเทียบกับรุ่นก่อน

นอกจากนี้ยังมีการออกแบบเพื่อความเสถียร เช่น Zero-Centered RMSNorm, weight decay เฉพาะ norm weights และการ normalize router parameters ตั้งแต่เริ่มต้น เพื่อให้การฝึกมีความนิ่งและไม่เกิดปัญหา activation ผิดปกติ

Qwen3-Next ยังมาพร้อม Multi-Token Prediction (MTP) ที่ช่วยให้การ inference แบบ speculative decoding มีความแม่นยำและเร็วขึ้น โดยสามารถใช้งานผ่าน Hugging Face, ModelScope, SGLang และ vLLM ได้ทันที

สถาปัตยกรรมใหม่ของ Qwen3-Next
ใช้ hybrid attention: Gated DeltaNet + standard attention (อัตราส่วน 3:1)
เพิ่ม gating, rotary encoding เฉพาะ 25% ของ position dimension
ขยาย head dimension จาก 128 เป็น 256 เพื่อรองรับข้อความยาว

โครงสร้าง MoE แบบ ultra-sparse
มี 512 experts แต่เปิดใช้งานเพียง 10 + 1 shared expert ต่อ step
ลดการใช้พลังงานและเพิ่ม throughput ได้มากกว่า 10 เท่า
ใช้ global load balancing เพื่อเพิ่มประสิทธิภาพการฝึก

การออกแบบเพื่อความเสถียรในการฝึก
ใช้ Zero-Centered RMSNorm แทน QK-Norm
เพิ่ม weight decay เฉพาะ norm weights เพื่อป้องกันการโตผิดปกติ
normalize router parameters ตั้งแต่เริ่มต้นเพื่อความนิ่ง

ประสิทธิภาพของโมเดล
Qwen3-Next-80B-A3B-Base เทียบเท่าหรือดีกว่า Qwen3-32B โดยใช้พลังแค่ 10%
Qwen3-Next-Instruct เทียบเคียง Qwen3-235B-A22B-Instruct-2507 ในงาน context ยาว
Qwen3-Next-Thinking ชนะ Gemini-2.5-Flash-Thinking ในหลาย benchmark

การใช้งานและ deployment
รองรับ context สูงสุด 256K tokens และสามารถขยายถึง 1M ด้วยเทคนิค YaRN
ใช้งานผ่าน Hugging Face, ModelScope, SGLang, vLLM ได้ทันที
รองรับ speculative decoding ผ่าน MTP module

https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list
🎙️ เรื่องเล่าจาก Qwen3 สู่ Qwen3-Next: เมื่อโมเดล 80B ทำงานได้เท่ากับ 235B โดยใช้พลังแค่ 3B ในเดือนกันยายน 2025 ทีม Qwen จาก Alibaba ได้เปิดตัวสถาปัตยกรรมใหม่ชื่อว่า Qwen3-Next ซึ่งเป็นการพัฒนาโมเดลขนาดใหญ่ที่เน้น “ประสิทธิภาพต่อพารามิเตอร์” และ “ความเร็วในการประมวลผลข้อความยาว” โดยใช้แนวคิดใหม่ทั้งในด้าน attention, sparsity และการพยากรณ์หลาย token พร้อมกัน Qwen3-Next มีพารามิเตอร์รวม 80 พันล้าน แต่เปิดใช้งานจริงเพียง 3 พันล้านระหว่างการ inference ซึ่งทำให้สามารถเทียบเคียงกับ Qwen3-235B ได้ในหลายงาน โดยใช้ต้นทุนการฝึกเพียง 9.3% ของ Qwen3-32B2 หัวใจของ Qwen3-Next คือการผสมผสานระหว่าง Gated DeltaNet (linear attention ที่เร็วแต่แม่น) กับ standard attention (ที่แม่นแต่ช้า) ในอัตราส่วน 3:1 พร้อมเพิ่ม gating, rotary encoding แบบบางส่วน และการขยายขนาด head dimension เพื่อรองรับข้อความยาวถึง 256K tokens ได้อย่างเสถียร ในส่วนของ MoE (Mixture-of-Experts) Qwen3-Next ใช้โครงสร้าง ultra-sparse โดยมี 512 experts แต่เปิดใช้งานเพียง 10 + 1 shared expert ต่อ step ซึ่งทำให้ลดการใช้พลังงานและเพิ่ม throughput ได้มากกว่า 10 เท่าเมื่อเทียบกับรุ่นก่อน นอกจากนี้ยังมีการออกแบบเพื่อความเสถียร เช่น Zero-Centered RMSNorm, weight decay เฉพาะ norm weights และการ normalize router parameters ตั้งแต่เริ่มต้น เพื่อให้การฝึกมีความนิ่งและไม่เกิดปัญหา activation ผิดปกติ Qwen3-Next ยังมาพร้อม Multi-Token Prediction (MTP) ที่ช่วยให้การ inference แบบ speculative decoding มีความแม่นยำและเร็วขึ้น โดยสามารถใช้งานผ่าน Hugging Face, ModelScope, SGLang และ vLLM ได้ทันที ✅ สถาปัตยกรรมใหม่ของ Qwen3-Next ➡️ ใช้ hybrid attention: Gated DeltaNet + standard attention (อัตราส่วน 3:1) ➡️ เพิ่ม gating, rotary encoding เฉพาะ 25% ของ position dimension ➡️ ขยาย head dimension จาก 128 เป็น 256 เพื่อรองรับข้อความยาว ✅ โครงสร้าง MoE แบบ ultra-sparse ➡️ มี 512 experts แต่เปิดใช้งานเพียง 10 + 1 shared expert ต่อ step ➡️ ลดการใช้พลังงานและเพิ่ม throughput ได้มากกว่า 10 เท่า ➡️ ใช้ global load balancing เพื่อเพิ่มประสิทธิภาพการฝึก ✅ การออกแบบเพื่อความเสถียรในการฝึก ➡️ ใช้ Zero-Centered RMSNorm แทน QK-Norm ➡️ เพิ่ม weight decay เฉพาะ norm weights เพื่อป้องกันการโตผิดปกติ ➡️ normalize router parameters ตั้งแต่เริ่มต้นเพื่อความนิ่ง ✅ ประสิทธิภาพของโมเดล ➡️ Qwen3-Next-80B-A3B-Base เทียบเท่าหรือดีกว่า Qwen3-32B โดยใช้พลังแค่ 10% ➡️ Qwen3-Next-Instruct เทียบเคียง Qwen3-235B-A22B-Instruct-2507 ในงาน context ยาว ➡️ Qwen3-Next-Thinking ชนะ Gemini-2.5-Flash-Thinking ในหลาย benchmark ✅ การใช้งานและ deployment ➡️ รองรับ context สูงสุด 256K tokens และสามารถขยายถึง 1M ด้วยเทคนิค YaRN ➡️ ใช้งานผ่าน Hugging Face, ModelScope, SGLang, vLLM ได้ทันที ➡️ รองรับ speculative decoding ผ่าน MTP module https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list
0 Comments 0 Shares 32 Views 0 Reviews