บทความนี้กล่าวถึงความสำเร็จของ DeepSeek ในการฝึกโมเดลภาษา Mixture-of-Experts (MoE) ที่มีพารามิเตอร์ถึง 671 พันล้านตัว โดยใช้คลัสเตอร์ที่มี 2,048 Nvidia H800 GPUs ในเวลาประมาณสองเดือน ซึ่งมีประสิทธิภาพสูงกว่า AI ชั้นนำในอุตสาหกรรมเช่น Meta ถึง 10 เท่า
DeepSeek ประสบความสำเร็จนี้โดยการใช้การปรับแต่งที่ละเอียดอ่อนและการใช้โปรแกรม PTX (Parallel Thread Execution) ของ Nvidia แทนการใช้ CUDA PTX เป็นชุดคำสั่งระดับกลางที่ออกแบบโดย Nvidia สำหรับ GPUs ของตน ซึ่งช่วยให้สามารถปรับแต่งการทำงานของ GPU ได้อย่างละเอียด เช่น การจัดสรรรีจิสเตอร์และการปรับแต่งระดับเธรด/วาร์ป
ตัวอย่างเช่น ในการฝึกโมเดล V3 ของ DeepSeek ได้ทำการปรับแต่ง Nvidia H800 GPUs โดยจัดสรร 20 จาก 132 streaming multiprocessors สำหรับการสื่อสารระหว่างเซิร์ฟเวอร์ เพื่อเพิ่มประสิทธิภาพในการบีบอัดและคลายบีบอัดข้อมูล การปรับแต่งเหล่านี้เกินกว่าการพัฒนาระดับ CUDA มาตรฐาน แต่ก็ยากที่จะรักษาไว้ เนื่องจากต้องใช้ทักษะและความรู้เฉพาะทางในการปรับแต่งและดูแลรักษา การปรับแต่งเหล่านี้สะท้อนถึงทักษะพิเศษของวิศวกรของ DeepSeek ที่สามารถทำให้ GPU ทำงานได้อย่างมีประสิทธิภาพสูงสุด แม้ว่าจะต้องเผชิญกับความท้าทายในการรักษาการปรับแต่งเหล่านี้ให้คงอยู่
ความสำเร็จนี้ทำให้ตลาดเกิดความผันผวน เนื่องจากนักลงทุนบางคนเชื่อว่าความต้องการฮาร์ดแวร์ประสิทธิภาพสูงสำหรับโมเดล AI ใหม่จะลดลง ซึ่งส่งผลกระทบต่อยอดขายของบริษัทเช่น Nvidia อย่างไรก็ตาม ผู้เชี่ยวชาญในอุตสาหกรรมเช่น Pat Gelsinger อดีตซีอีโอของ Intel เชื่อว่า AI สามารถใช้ประโยชน์จากพลังการประมวลผลทั้งหมดที่สามารถเข้าถึงได้
https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead
DeepSeek ประสบความสำเร็จนี้โดยการใช้การปรับแต่งที่ละเอียดอ่อนและการใช้โปรแกรม PTX (Parallel Thread Execution) ของ Nvidia แทนการใช้ CUDA PTX เป็นชุดคำสั่งระดับกลางที่ออกแบบโดย Nvidia สำหรับ GPUs ของตน ซึ่งช่วยให้สามารถปรับแต่งการทำงานของ GPU ได้อย่างละเอียด เช่น การจัดสรรรีจิสเตอร์และการปรับแต่งระดับเธรด/วาร์ป
ตัวอย่างเช่น ในการฝึกโมเดล V3 ของ DeepSeek ได้ทำการปรับแต่ง Nvidia H800 GPUs โดยจัดสรร 20 จาก 132 streaming multiprocessors สำหรับการสื่อสารระหว่างเซิร์ฟเวอร์ เพื่อเพิ่มประสิทธิภาพในการบีบอัดและคลายบีบอัดข้อมูล การปรับแต่งเหล่านี้เกินกว่าการพัฒนาระดับ CUDA มาตรฐาน แต่ก็ยากที่จะรักษาไว้ เนื่องจากต้องใช้ทักษะและความรู้เฉพาะทางในการปรับแต่งและดูแลรักษา การปรับแต่งเหล่านี้สะท้อนถึงทักษะพิเศษของวิศวกรของ DeepSeek ที่สามารถทำให้ GPU ทำงานได้อย่างมีประสิทธิภาพสูงสุด แม้ว่าจะต้องเผชิญกับความท้าทายในการรักษาการปรับแต่งเหล่านี้ให้คงอยู่
ความสำเร็จนี้ทำให้ตลาดเกิดความผันผวน เนื่องจากนักลงทุนบางคนเชื่อว่าความต้องการฮาร์ดแวร์ประสิทธิภาพสูงสำหรับโมเดล AI ใหม่จะลดลง ซึ่งส่งผลกระทบต่อยอดขายของบริษัทเช่น Nvidia อย่างไรก็ตาม ผู้เชี่ยวชาญในอุตสาหกรรมเช่น Pat Gelsinger อดีตซีอีโอของ Intel เชื่อว่า AI สามารถใช้ประโยชน์จากพลังการประมวลผลทั้งหมดที่สามารถเข้าถึงได้
https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead
บทความนี้กล่าวถึงความสำเร็จของ DeepSeek ในการฝึกโมเดลภาษา Mixture-of-Experts (MoE) ที่มีพารามิเตอร์ถึง 671 พันล้านตัว โดยใช้คลัสเตอร์ที่มี 2,048 Nvidia H800 GPUs ในเวลาประมาณสองเดือน ซึ่งมีประสิทธิภาพสูงกว่า AI ชั้นนำในอุตสาหกรรมเช่น Meta ถึง 10 เท่า
DeepSeek ประสบความสำเร็จนี้โดยการใช้การปรับแต่งที่ละเอียดอ่อนและการใช้โปรแกรม PTX (Parallel Thread Execution) ของ Nvidia แทนการใช้ CUDA PTX เป็นชุดคำสั่งระดับกลางที่ออกแบบโดย Nvidia สำหรับ GPUs ของตน ซึ่งช่วยให้สามารถปรับแต่งการทำงานของ GPU ได้อย่างละเอียด เช่น การจัดสรรรีจิสเตอร์และการปรับแต่งระดับเธรด/วาร์ป
ตัวอย่างเช่น ในการฝึกโมเดล V3 ของ DeepSeek ได้ทำการปรับแต่ง Nvidia H800 GPUs โดยจัดสรร 20 จาก 132 streaming multiprocessors สำหรับการสื่อสารระหว่างเซิร์ฟเวอร์ เพื่อเพิ่มประสิทธิภาพในการบีบอัดและคลายบีบอัดข้อมูล การปรับแต่งเหล่านี้เกินกว่าการพัฒนาระดับ CUDA มาตรฐาน แต่ก็ยากที่จะรักษาไว้ เนื่องจากต้องใช้ทักษะและความรู้เฉพาะทางในการปรับแต่งและดูแลรักษา การปรับแต่งเหล่านี้สะท้อนถึงทักษะพิเศษของวิศวกรของ DeepSeek ที่สามารถทำให้ GPU ทำงานได้อย่างมีประสิทธิภาพสูงสุด แม้ว่าจะต้องเผชิญกับความท้าทายในการรักษาการปรับแต่งเหล่านี้ให้คงอยู่
ความสำเร็จนี้ทำให้ตลาดเกิดความผันผวน เนื่องจากนักลงทุนบางคนเชื่อว่าความต้องการฮาร์ดแวร์ประสิทธิภาพสูงสำหรับโมเดล AI ใหม่จะลดลง ซึ่งส่งผลกระทบต่อยอดขายของบริษัทเช่น Nvidia อย่างไรก็ตาม ผู้เชี่ยวชาญในอุตสาหกรรมเช่น Pat Gelsinger อดีตซีอีโอของ Intel เชื่อว่า AI สามารถใช้ประโยชน์จากพลังการประมวลผลทั้งหมดที่สามารถเข้าถึงได้
https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead
0 ความคิดเห็น
0 การแบ่งปัน
84 มุมมอง
0 รีวิว