DeepSeek releases model it calls 'intermediate step'...

ได้ทำการแชร์ลิงก์

2025-09-30 02:38:24 -

“DeepSeek-V3.2-Exp เปิดตัวแล้ว — โมเดล AI จีนที่ท้าชน OpenAI ด้วยประสิทธิภาพสูงและต้นทุนต่ำ”

DeepSeek บริษัท AI จากเมืองหางโจว ประเทศจีน ได้เปิดตัวโมเดลใหม่ชื่อว่า DeepSeek-V3.2-Exp ซึ่งถูกระบุว่าเป็น “ขั้นกลาง” ก่อนเข้าสู่สถาปัตยกรรมรุ่นถัดไปที่บริษัทกำลังพัฒนาอยู่ โมเดลนี้ถูกปล่อยผ่านแพลตฟอร์ม Hugging Face และถือเป็นการทดลองเชิงเทคนิคที่มุ่งเน้นการเพิ่มประสิทธิภาพในการฝึกและการประมวลผลข้อความยาว โดยไม่เน้นการไล่คะแนนบน leaderboard แบบเดิม

จุดเด่นของ V3.2-Exp คือการใช้กลไกใหม่ที่เรียกว่า DeepSeek Sparse Attention (DSA) ซึ่งช่วยลดต้นทุนการคำนวณอย่างมาก และยังคงคุณภาพของผลลัพธ์ไว้ใกล้เคียงกับรุ่นก่อนหน้าอย่าง V3.1-Terminus โดยทีมงานได้ตั้งค่าการฝึกให้เหมือนกันทุกประการ เพื่อพิสูจน์ว่า “ความเร็วและประสิทธิภาพ” คือสิ่งที่พัฒนาได้จริง โดยไม่ต้องแลกกับคุณภาพ

นอกจากนี้ DeepSeek ยังประกาศลดราคาการใช้งาน API ลงกว่า 50% เพื่อแข่งขันกับคู่แข่งทั้งในประเทศ เช่น Alibaba Qwen และระดับโลกอย่าง OpenAI ซึ่งถือเป็นการเปิดศึกด้านราคาในตลาดโมเดลภาษาอย่างชัดเจน

แม้โมเดลนี้จะยังไม่ใช่รุ่น “next-gen” ที่หลายคนรอคอย แต่ก็ถือเป็นการกลับมาอย่างมั่นใจของ DeepSeek หลังจากโมเดล R2 ถูกเลื่อนออกไปอย่างไม่มีกำหนด เนื่องจากปัญหาด้านฮาร์ดแวร์ โดยเฉพาะการฝึกบนชิป Ascend ของ Huawei ที่ไม่สามารถทำงานได้ตามเป้า ทำให้ต้องกลับมาใช้ Nvidia อีกครั้ง

ข้อมูลสำคัญจากข่าว
DeepSeek เปิดตัวโมเดลใหม่ชื่อ DeepSeek-V3.2-Exp บน Hugging Face
เป็นการทดลองเพื่อเตรียมเข้าสู่สถาปัตยกรรมรุ่นถัดไปของบริษัท
ใช้กลไก DeepSeek Sparse Attention (DSA) เพื่อเพิ่มประสิทธิภาพการประมวลผลข้อความยาว
ตั้งค่าการฝึกเหมือนกับ V3.1-Terminus เพื่อพิสูจน์ว่า DSA ให้ผลลัพธ์เทียบเท่าแต่เร็วกว่า
ลดราคาการใช้งาน API ลงกว่า 50% เพื่อแข่งขันกับ Alibaba และ OpenAI
ไม่เน้นการไล่คะแนน benchmark แต่เน้นการพิสูจน์ประสิทธิภาพจริง
โมเดลเปิดให้ใช้งานแบบ open-source ภายใต้ MIT License
มีการปล่อย kernel สำหรับงานวิจัยและการใช้งานประสิทธิภาพสูง
เป็นการกลับมาอีกครั้งหลังจากโมเดล R2 ถูกเลื่อนออกไปอย่างไม่มีกำหนด

ข้อมูลเสริมจากภายนอก
Sparse Attention เป็นเทคนิคที่ช่วยลดการคำนวณในโมเดล Transformer โดยเลือกเฉพาะข้อมูลสำคัญ
Hugging Face เป็นแพลตฟอร์มที่นักพัฒนา AI ทั่วโลกใช้ในการเผยแพร่และทดลองโมเดล
การลดราคาการใช้งาน API เป็นกลยุทธ์ที่ใช้บ่อยในการเปิดตลาดใหม่หรือแย่งส่วนแบ่งจากคู่แข่ง
DeepSeek เคยสร้างความฮือฮาใน Silicon Valley ด้วยโมเดล V3 และ R1 ที่มีประสิทธิภาพสูง
ปัญหาการฝึกบนชิป Ascend ของ Huawei สะท้อนความท้าทายของจีนในการพึ่งพาฮาร์ดแวร์ภายในประเทศ

https://www.thestar.com.my/tech/tech-news/2025/09/29/deepseek-releases-model-it-calls-039intermediate-step039-towards-039next-generation-architecture039

🧠 “DeepSeek-V3.2-Exp เปิดตัวแล้ว — โมเดล AI จีนที่ท้าชน OpenAI ด้วยประสิทธิภาพสูงและต้นทุนต่ำ” DeepSeek บริษัท AI จากเมืองหางโจว ประเทศจีน ได้เปิดตัวโมเดลใหม่ชื่อว่า DeepSeek-V3.2-Exp ซึ่งถูกระบุว่าเป็น “ขั้นกลาง” ก่อนเข้าสู่สถาปัตยกรรมรุ่นถัดไปที่บริษัทกำลังพัฒนาอยู่ โมเดลนี้ถูกปล่อยผ่านแพลตฟอร์ม Hugging Face และถือเป็นการทดลองเชิงเทคนิคที่มุ่งเน้นการเพิ่มประสิทธิภาพในการฝึกและการประมวลผลข้อความยาว โดยไม่เน้นการไล่คะแนนบน leaderboard แบบเดิม จุดเด่นของ V3.2-Exp คือการใช้กลไกใหม่ที่เรียกว่า DeepSeek Sparse Attention (DSA) ซึ่งช่วยลดต้นทุนการคำนวณอย่างมาก และยังคงคุณภาพของผลลัพธ์ไว้ใกล้เคียงกับรุ่นก่อนหน้าอย่าง V3.1-Terminus โดยทีมงานได้ตั้งค่าการฝึกให้เหมือนกันทุกประการ เพื่อพิสูจน์ว่า “ความเร็วและประสิทธิภาพ” คือสิ่งที่พัฒนาได้จริง โดยไม่ต้องแลกกับคุณภาพ นอกจากนี้ DeepSeek ยังประกาศลดราคาการใช้งาน API ลงกว่า 50% เพื่อแข่งขันกับคู่แข่งทั้งในประเทศ เช่น Alibaba Qwen และระดับโลกอย่าง OpenAI ซึ่งถือเป็นการเปิดศึกด้านราคาในตลาดโมเดลภาษาอย่างชัดเจน แม้โมเดลนี้จะยังไม่ใช่รุ่น “next-gen” ที่หลายคนรอคอย แต่ก็ถือเป็นการกลับมาอย่างมั่นใจของ DeepSeek หลังจากโมเดล R2 ถูกเลื่อนออกไปอย่างไม่มีกำหนด เนื่องจากปัญหาด้านฮาร์ดแวร์ โดยเฉพาะการฝึกบนชิป Ascend ของ Huawei ที่ไม่สามารถทำงานได้ตามเป้า ทำให้ต้องกลับมาใช้ Nvidia อีกครั้ง ✅ ข้อมูลสำคัญจากข่าว ➡️ DeepSeek เปิดตัวโมเดลใหม่ชื่อ DeepSeek-V3.2-Exp บน Hugging Face ➡️ เป็นการทดลองเพื่อเตรียมเข้าสู่สถาปัตยกรรมรุ่นถัดไปของบริษัท ➡️ ใช้กลไก DeepSeek Sparse Attention (DSA) เพื่อเพิ่มประสิทธิภาพการประมวลผลข้อความยาว ➡️ ตั้งค่าการฝึกเหมือนกับ V3.1-Terminus เพื่อพิสูจน์ว่า DSA ให้ผลลัพธ์เทียบเท่าแต่เร็วกว่า ➡️ ลดราคาการใช้งาน API ลงกว่า 50% เพื่อแข่งขันกับ Alibaba และ OpenAI ➡️ ไม่เน้นการไล่คะแนน benchmark แต่เน้นการพิสูจน์ประสิทธิภาพจริง ➡️ โมเดลเปิดให้ใช้งานแบบ open-source ภายใต้ MIT License ➡️ มีการปล่อย kernel สำหรับงานวิจัยและการใช้งานประสิทธิภาพสูง ➡️ เป็นการกลับมาอีกครั้งหลังจากโมเดล R2 ถูกเลื่อนออกไปอย่างไม่มีกำหนด ✅ ข้อมูลเสริมจากภายนอก ➡️ Sparse Attention เป็นเทคนิคที่ช่วยลดการคำนวณในโมเดล Transformer โดยเลือกเฉพาะข้อมูลสำคัญ ➡️ Hugging Face เป็นแพลตฟอร์มที่นักพัฒนา AI ทั่วโลกใช้ในการเผยแพร่และทดลองโมเดล ➡️ การลดราคาการใช้งาน API เป็นกลยุทธ์ที่ใช้บ่อยในการเปิดตลาดใหม่หรือแย่งส่วนแบ่งจากคู่แข่ง ➡️ DeepSeek เคยสร้างความฮือฮาใน Silicon Valley ด้วยโมเดล V3 และ R1 ที่มีประสิทธิภาพสูง ➡️ ปัญหาการฝึกบนชิป Ascend ของ Huawei สะท้อนความท้าทายของจีนในการพึ่งพาฮาร์ดแวร์ภายในประเทศ https://www.thestar.com.my/tech/tech-news/2025/09/29/deepseek-releases-model-it-calls-039intermediate-step039-towards-039next-generation-architecture039

WWW.THESTAR.COM.MY

DeepSeek releases model it calls 'intermediate step' towards 'next-generation architecture'

BEIJING (Reuters) -Chinese AI developer DeepSeek has released its latest model which it said was an "experimental release" that was more efficient to train and better at processing long sequences of text than previous iterations.

0 ความคิดเห็น 0 การแบ่งปัน 434 มุมมอง 0 รีวิว