เรื่องเล่าจาก Qwen3 สู่ Qwen3-Next: เมื่อโมเดล 80B ทำงานได้เท่ากับ 235B โดยใช้พลังแค่ 3B
ในเดือนกันยายน 2025 ทีม Qwen จาก Alibaba ได้เปิดตัวสถาปัตยกรรมใหม่ชื่อว่า Qwen3-Next ซึ่งเป็นการพัฒนาโมเดลขนาดใหญ่ที่เน้น “ประสิทธิภาพต่อพารามิเตอร์” และ “ความเร็วในการประมวลผลข้อความยาว” โดยใช้แนวคิดใหม่ทั้งในด้าน attention, sparsity และการพยากรณ์หลาย token พร้อมกัน
Qwen3-Next มีพารามิเตอร์รวม 80 พันล้าน แต่เปิดใช้งานจริงเพียง 3 พันล้านระหว่างการ inference ซึ่งทำให้สามารถเทียบเคียงกับ Qwen3-235B ได้ในหลายงาน โดยใช้ต้นทุนการฝึกเพียง 9.3% ของ Qwen3-32B2
หัวใจของ Qwen3-Next คือการผสมผสานระหว่าง Gated DeltaNet (linear attention ที่เร็วแต่แม่น) กับ standard attention (ที่แม่นแต่ช้า) ในอัตราส่วน 3:1 พร้อมเพิ่ม gating, rotary encoding แบบบางส่วน และการขยายขนาด head dimension เพื่อรองรับข้อความยาวถึง 256K tokens ได้อย่างเสถียร
ในส่วนของ MoE (Mixture-of-Experts) Qwen3-Next ใช้โครงสร้าง ultra-sparse โดยมี 512 experts แต่เปิดใช้งานเพียง 10 + 1 shared expert ต่อ step ซึ่งทำให้ลดการใช้พลังงานและเพิ่ม throughput ได้มากกว่า 10 เท่าเมื่อเทียบกับรุ่นก่อน
นอกจากนี้ยังมีการออกแบบเพื่อความเสถียร เช่น Zero-Centered RMSNorm, weight decay เฉพาะ norm weights และการ normalize router parameters ตั้งแต่เริ่มต้น เพื่อให้การฝึกมีความนิ่งและไม่เกิดปัญหา activation ผิดปกติ
Qwen3-Next ยังมาพร้อม Multi-Token Prediction (MTP) ที่ช่วยให้การ inference แบบ speculative decoding มีความแม่นยำและเร็วขึ้น โดยสามารถใช้งานผ่าน Hugging Face, ModelScope, SGLang และ vLLM ได้ทันที
สถาปัตยกรรมใหม่ของ Qwen3-Next
ใช้ hybrid attention: Gated DeltaNet + standard attention (อัตราส่วน 3:1)
เพิ่ม gating, rotary encoding เฉพาะ 25% ของ position dimension
ขยาย head dimension จาก 128 เป็น 256 เพื่อรองรับข้อความยาว
โครงสร้าง MoE แบบ ultra-sparse
มี 512 experts แต่เปิดใช้งานเพียง 10 + 1 shared expert ต่อ step
ลดการใช้พลังงานและเพิ่ม throughput ได้มากกว่า 10 เท่า
ใช้ global load balancing เพื่อเพิ่มประสิทธิภาพการฝึก
การออกแบบเพื่อความเสถียรในการฝึก
ใช้ Zero-Centered RMSNorm แทน QK-Norm
เพิ่ม weight decay เฉพาะ norm weights เพื่อป้องกันการโตผิดปกติ
normalize router parameters ตั้งแต่เริ่มต้นเพื่อความนิ่ง
ประสิทธิภาพของโมเดล
Qwen3-Next-80B-A3B-Base เทียบเท่าหรือดีกว่า Qwen3-32B โดยใช้พลังแค่ 10%
Qwen3-Next-Instruct เทียบเคียง Qwen3-235B-A22B-Instruct-2507 ในงาน context ยาว
Qwen3-Next-Thinking ชนะ Gemini-2.5-Flash-Thinking ในหลาย benchmark
การใช้งานและ deployment
รองรับ context สูงสุด 256K tokens และสามารถขยายถึง 1M ด้วยเทคนิค YaRN
ใช้งานผ่าน Hugging Face, ModelScope, SGLang, vLLM ได้ทันที
รองรับ speculative decoding ผ่าน MTP module
https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list
ในเดือนกันยายน 2025 ทีม Qwen จาก Alibaba ได้เปิดตัวสถาปัตยกรรมใหม่ชื่อว่า Qwen3-Next ซึ่งเป็นการพัฒนาโมเดลขนาดใหญ่ที่เน้น “ประสิทธิภาพต่อพารามิเตอร์” และ “ความเร็วในการประมวลผลข้อความยาว” โดยใช้แนวคิดใหม่ทั้งในด้าน attention, sparsity และการพยากรณ์หลาย token พร้อมกัน
Qwen3-Next มีพารามิเตอร์รวม 80 พันล้าน แต่เปิดใช้งานจริงเพียง 3 พันล้านระหว่างการ inference ซึ่งทำให้สามารถเทียบเคียงกับ Qwen3-235B ได้ในหลายงาน โดยใช้ต้นทุนการฝึกเพียง 9.3% ของ Qwen3-32B2
หัวใจของ Qwen3-Next คือการผสมผสานระหว่าง Gated DeltaNet (linear attention ที่เร็วแต่แม่น) กับ standard attention (ที่แม่นแต่ช้า) ในอัตราส่วน 3:1 พร้อมเพิ่ม gating, rotary encoding แบบบางส่วน และการขยายขนาด head dimension เพื่อรองรับข้อความยาวถึง 256K tokens ได้อย่างเสถียร
ในส่วนของ MoE (Mixture-of-Experts) Qwen3-Next ใช้โครงสร้าง ultra-sparse โดยมี 512 experts แต่เปิดใช้งานเพียง 10 + 1 shared expert ต่อ step ซึ่งทำให้ลดการใช้พลังงานและเพิ่ม throughput ได้มากกว่า 10 เท่าเมื่อเทียบกับรุ่นก่อน
นอกจากนี้ยังมีการออกแบบเพื่อความเสถียร เช่น Zero-Centered RMSNorm, weight decay เฉพาะ norm weights และการ normalize router parameters ตั้งแต่เริ่มต้น เพื่อให้การฝึกมีความนิ่งและไม่เกิดปัญหา activation ผิดปกติ
Qwen3-Next ยังมาพร้อม Multi-Token Prediction (MTP) ที่ช่วยให้การ inference แบบ speculative decoding มีความแม่นยำและเร็วขึ้น โดยสามารถใช้งานผ่าน Hugging Face, ModelScope, SGLang และ vLLM ได้ทันที
สถาปัตยกรรมใหม่ของ Qwen3-Next
ใช้ hybrid attention: Gated DeltaNet + standard attention (อัตราส่วน 3:1)
เพิ่ม gating, rotary encoding เฉพาะ 25% ของ position dimension
ขยาย head dimension จาก 128 เป็น 256 เพื่อรองรับข้อความยาว
โครงสร้าง MoE แบบ ultra-sparse
มี 512 experts แต่เปิดใช้งานเพียง 10 + 1 shared expert ต่อ step
ลดการใช้พลังงานและเพิ่ม throughput ได้มากกว่า 10 เท่า
ใช้ global load balancing เพื่อเพิ่มประสิทธิภาพการฝึก
การออกแบบเพื่อความเสถียรในการฝึก
ใช้ Zero-Centered RMSNorm แทน QK-Norm
เพิ่ม weight decay เฉพาะ norm weights เพื่อป้องกันการโตผิดปกติ
normalize router parameters ตั้งแต่เริ่มต้นเพื่อความนิ่ง
ประสิทธิภาพของโมเดล
Qwen3-Next-80B-A3B-Base เทียบเท่าหรือดีกว่า Qwen3-32B โดยใช้พลังแค่ 10%
Qwen3-Next-Instruct เทียบเคียง Qwen3-235B-A22B-Instruct-2507 ในงาน context ยาว
Qwen3-Next-Thinking ชนะ Gemini-2.5-Flash-Thinking ในหลาย benchmark
การใช้งานและ deployment
รองรับ context สูงสุด 256K tokens และสามารถขยายถึง 1M ด้วยเทคนิค YaRN
ใช้งานผ่าน Hugging Face, ModelScope, SGLang, vLLM ได้ทันที
รองรับ speculative decoding ผ่าน MTP module
https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list
🎙️ เรื่องเล่าจาก Qwen3 สู่ Qwen3-Next: เมื่อโมเดล 80B ทำงานได้เท่ากับ 235B โดยใช้พลังแค่ 3B
ในเดือนกันยายน 2025 ทีม Qwen จาก Alibaba ได้เปิดตัวสถาปัตยกรรมใหม่ชื่อว่า Qwen3-Next ซึ่งเป็นการพัฒนาโมเดลขนาดใหญ่ที่เน้น “ประสิทธิภาพต่อพารามิเตอร์” และ “ความเร็วในการประมวลผลข้อความยาว” โดยใช้แนวคิดใหม่ทั้งในด้าน attention, sparsity และการพยากรณ์หลาย token พร้อมกัน
Qwen3-Next มีพารามิเตอร์รวม 80 พันล้าน แต่เปิดใช้งานจริงเพียง 3 พันล้านระหว่างการ inference ซึ่งทำให้สามารถเทียบเคียงกับ Qwen3-235B ได้ในหลายงาน โดยใช้ต้นทุนการฝึกเพียง 9.3% ของ Qwen3-32B2
หัวใจของ Qwen3-Next คือการผสมผสานระหว่าง Gated DeltaNet (linear attention ที่เร็วแต่แม่น) กับ standard attention (ที่แม่นแต่ช้า) ในอัตราส่วน 3:1 พร้อมเพิ่ม gating, rotary encoding แบบบางส่วน และการขยายขนาด head dimension เพื่อรองรับข้อความยาวถึง 256K tokens ได้อย่างเสถียร
ในส่วนของ MoE (Mixture-of-Experts) Qwen3-Next ใช้โครงสร้าง ultra-sparse โดยมี 512 experts แต่เปิดใช้งานเพียง 10 + 1 shared expert ต่อ step ซึ่งทำให้ลดการใช้พลังงานและเพิ่ม throughput ได้มากกว่า 10 เท่าเมื่อเทียบกับรุ่นก่อน
นอกจากนี้ยังมีการออกแบบเพื่อความเสถียร เช่น Zero-Centered RMSNorm, weight decay เฉพาะ norm weights และการ normalize router parameters ตั้งแต่เริ่มต้น เพื่อให้การฝึกมีความนิ่งและไม่เกิดปัญหา activation ผิดปกติ
Qwen3-Next ยังมาพร้อม Multi-Token Prediction (MTP) ที่ช่วยให้การ inference แบบ speculative decoding มีความแม่นยำและเร็วขึ้น โดยสามารถใช้งานผ่าน Hugging Face, ModelScope, SGLang และ vLLM ได้ทันที
✅ สถาปัตยกรรมใหม่ของ Qwen3-Next
➡️ ใช้ hybrid attention: Gated DeltaNet + standard attention (อัตราส่วน 3:1)
➡️ เพิ่ม gating, rotary encoding เฉพาะ 25% ของ position dimension
➡️ ขยาย head dimension จาก 128 เป็น 256 เพื่อรองรับข้อความยาว
✅ โครงสร้าง MoE แบบ ultra-sparse
➡️ มี 512 experts แต่เปิดใช้งานเพียง 10 + 1 shared expert ต่อ step
➡️ ลดการใช้พลังงานและเพิ่ม throughput ได้มากกว่า 10 เท่า
➡️ ใช้ global load balancing เพื่อเพิ่มประสิทธิภาพการฝึก
✅ การออกแบบเพื่อความเสถียรในการฝึก
➡️ ใช้ Zero-Centered RMSNorm แทน QK-Norm
➡️ เพิ่ม weight decay เฉพาะ norm weights เพื่อป้องกันการโตผิดปกติ
➡️ normalize router parameters ตั้งแต่เริ่มต้นเพื่อความนิ่ง
✅ ประสิทธิภาพของโมเดล
➡️ Qwen3-Next-80B-A3B-Base เทียบเท่าหรือดีกว่า Qwen3-32B โดยใช้พลังแค่ 10%
➡️ Qwen3-Next-Instruct เทียบเคียง Qwen3-235B-A22B-Instruct-2507 ในงาน context ยาว
➡️ Qwen3-Next-Thinking ชนะ Gemini-2.5-Flash-Thinking ในหลาย benchmark
✅ การใช้งานและ deployment
➡️ รองรับ context สูงสุด 256K tokens และสามารถขยายถึง 1M ด้วยเทคนิค YaRN
➡️ ใช้งานผ่าน Hugging Face, ModelScope, SGLang, vLLM ได้ทันที
➡️ รองรับ speculative decoding ผ่าน MTP module
https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list
0 Comments
0 Shares
40 Views
0 Reviews