• “Fenghua No.3 GPU จากจีนเปิดตัวแรง — เคลมรองรับ CUDA, Ray Tracing, และมี HBM กว่า 112GB สำหรับ AI ขนาดใหญ่”

    Innosilicon บริษัทผู้ผลิตชิปจากจีนเปิดตัวกราฟิกการ์ดรุ่นใหม่ “Fenghua No.3” ซึ่งถือเป็นก้าวกระโดดครั้งสำคัญของอุตสาหกรรม GPU ในประเทศ โดยชูจุดเด่นว่าเป็น GPU แบบ “all-function” ที่รองรับทั้งงาน AI, การประมวลผลทางวิทยาศาสตร์, CAD, การแพทย์ และเกม พร้อมเคลมว่า “รองรับ CUDA” ซึ่งเป็นแพลตฟอร์มเฉพาะของ Nvidia — หากเป็นจริง จะถือเป็นครั้งแรกที่ GPU จากจีนสามารถใช้งานซอฟต์แวร์ที่พัฒนาบน CUDA ได้โดยตรง

    Fenghua No.3 ใช้สถาปัตยกรรม RISC-V แบบ open-source แทน PowerVR ที่เคยใช้ในรุ่นก่อนหน้า และมีการออกแบบใหม่ทั้งหมดจากภายในประเทศ โดยอ้างว่าใช้เทคโนโลยีจากโครงการ Nanhu V3 ของ OpenCore Institute

    ด้านการเล่นเกม Fenghua No.3 รองรับ API สมัยใหม่อย่าง DirectX 12, Vulkan 1.2 และ OpenGL 4.6 พร้อมฟีเจอร์ Ray Tracing และสามารถรันเกมอย่าง Tomb Raider, Delta Force และ Valorant ได้อย่างลื่นไหลในการสาธิต แม้จะไม่มีข้อมูลเฟรมเรตหรือความละเอียดที่ใช้ในการทดสอบ

    สำหรับงาน AI Fenghua No.3 มาพร้อมหน่วยความจำ HBM มากกว่า 112GB ซึ่งสามารถรันโมเดลขนาด 32B และ 72B ได้ด้วยการ์ดเดียว และสามารถรันโมเดลขนาด 671B และ 685B ได้เมื่อใช้การ์ด 8 ใบร่วมกัน โดยรองรับโมเดล DeepSeek V3, R1, V3.1 และ Qwen 2.5, Qwen 3 อย่างเต็มรูปแบบ

    นอกจากนี้ยังเป็น GPU ตัวแรกของจีนที่รองรับฟอร์แมต YUV444 สำหรับงานภาพละเอียดสูง และสามารถแสดงผลบนจอ 8K ได้พร้อมกันถึง 6 จอที่ 30Hz อีกทั้งยังรองรับ DICOM สำหรับการแสดงผลภาพทางการแพทย์ เช่น MRI และ CT scan โดยไม่ต้องใช้จอ grayscale เฉพาะทาง

    ข้อมูลสำคัญจากข่าว
    Fenghua No.3 เป็น GPU รุ่นใหม่จาก Innosilicon ประเทศจีน
    ใช้สถาปัตยกรรม RISC-V และออกแบบใหม่ทั้งหมดภายในประเทศ
    เคลมว่ารองรับ CUDA ซึ่งเป็นแพลตฟอร์มเฉพาะของ Nvidia
    รองรับ DirectX 12, Vulkan 1.2, OpenGL 4.6 และ Ray Tracing
    รันเกม Tomb Raider, Delta Force, Valorant ได้ในการสาธิต
    มาพร้อม HBM มากกว่า 112GB สำหรับงาน AI ขนาดใหญ่
    รองรับโมเดล DeepSeek และ Qwen หลายเวอร์ชัน
    รองรับ YUV444 สำหรับงาน CAD และวิดีโอ
    แสดงผล 8K ได้พร้อมกัน 6 จอที่ 30Hz
    รองรับ DICOM สำหรับภาพทางการแพทย์โดยไม่ต้องใช้จอเฉพาะ

    ข้อมูลเสริมจากภายนอก
    CUDA เป็นแพลตฟอร์มที่ Nvidia ใช้สำหรับงาน AI และ HPC โดยทั่วไปไม่เปิดให้ GPU อื่นใช้งาน
    RISC-V เป็นสถาปัตยกรรมแบบเปิดที่กำลังได้รับความนิยมในจีนเพื่อหลีกเลี่ยงการพึ่งพา IP จากตะวันตก
    HBM (High Bandwidth Memory) เป็นหน่วยความจำที่เร็วและเหมาะกับงาน AI มากกว่า GDDR
    YUV444 ให้ความละเอียดสีสูงกว่าฟอร์แมตทั่วไป เช่น YUV420 ซึ่งใช้ในวิดีโอสตรีมมิ่ง
    DICOM เป็นมาตรฐานภาพทางการแพทย์ที่ใช้ในโรงพยาบาลทั่วโลก

    https://www.tomshardware.com/pc-components/gpus/chinas-latest-gpu-arrives-with-claims-of-cuda-compatibility-and-rt-support-fenghua-no-3-also-boasts-112gb-of-hbm-memory-for-ai
    🚀 “Fenghua No.3 GPU จากจีนเปิดตัวแรง — เคลมรองรับ CUDA, Ray Tracing, และมี HBM กว่า 112GB สำหรับ AI ขนาดใหญ่” Innosilicon บริษัทผู้ผลิตชิปจากจีนเปิดตัวกราฟิกการ์ดรุ่นใหม่ “Fenghua No.3” ซึ่งถือเป็นก้าวกระโดดครั้งสำคัญของอุตสาหกรรม GPU ในประเทศ โดยชูจุดเด่นว่าเป็น GPU แบบ “all-function” ที่รองรับทั้งงาน AI, การประมวลผลทางวิทยาศาสตร์, CAD, การแพทย์ และเกม พร้อมเคลมว่า “รองรับ CUDA” ซึ่งเป็นแพลตฟอร์มเฉพาะของ Nvidia — หากเป็นจริง จะถือเป็นครั้งแรกที่ GPU จากจีนสามารถใช้งานซอฟต์แวร์ที่พัฒนาบน CUDA ได้โดยตรง Fenghua No.3 ใช้สถาปัตยกรรม RISC-V แบบ open-source แทน PowerVR ที่เคยใช้ในรุ่นก่อนหน้า และมีการออกแบบใหม่ทั้งหมดจากภายในประเทศ โดยอ้างว่าใช้เทคโนโลยีจากโครงการ Nanhu V3 ของ OpenCore Institute ด้านการเล่นเกม Fenghua No.3 รองรับ API สมัยใหม่อย่าง DirectX 12, Vulkan 1.2 และ OpenGL 4.6 พร้อมฟีเจอร์ Ray Tracing และสามารถรันเกมอย่าง Tomb Raider, Delta Force และ Valorant ได้อย่างลื่นไหลในการสาธิต แม้จะไม่มีข้อมูลเฟรมเรตหรือความละเอียดที่ใช้ในการทดสอบ สำหรับงาน AI Fenghua No.3 มาพร้อมหน่วยความจำ HBM มากกว่า 112GB ซึ่งสามารถรันโมเดลขนาด 32B และ 72B ได้ด้วยการ์ดเดียว และสามารถรันโมเดลขนาด 671B และ 685B ได้เมื่อใช้การ์ด 8 ใบร่วมกัน โดยรองรับโมเดล DeepSeek V3, R1, V3.1 และ Qwen 2.5, Qwen 3 อย่างเต็มรูปแบบ นอกจากนี้ยังเป็น GPU ตัวแรกของจีนที่รองรับฟอร์แมต YUV444 สำหรับงานภาพละเอียดสูง และสามารถแสดงผลบนจอ 8K ได้พร้อมกันถึง 6 จอที่ 30Hz อีกทั้งยังรองรับ DICOM สำหรับการแสดงผลภาพทางการแพทย์ เช่น MRI และ CT scan โดยไม่ต้องใช้จอ grayscale เฉพาะทาง ✅ ข้อมูลสำคัญจากข่าว ➡️ Fenghua No.3 เป็น GPU รุ่นใหม่จาก Innosilicon ประเทศจีน ➡️ ใช้สถาปัตยกรรม RISC-V และออกแบบใหม่ทั้งหมดภายในประเทศ ➡️ เคลมว่ารองรับ CUDA ซึ่งเป็นแพลตฟอร์มเฉพาะของ Nvidia ➡️ รองรับ DirectX 12, Vulkan 1.2, OpenGL 4.6 และ Ray Tracing ➡️ รันเกม Tomb Raider, Delta Force, Valorant ได้ในการสาธิต ➡️ มาพร้อม HBM มากกว่า 112GB สำหรับงาน AI ขนาดใหญ่ ➡️ รองรับโมเดล DeepSeek และ Qwen หลายเวอร์ชัน ➡️ รองรับ YUV444 สำหรับงาน CAD และวิดีโอ ➡️ แสดงผล 8K ได้พร้อมกัน 6 จอที่ 30Hz ➡️ รองรับ DICOM สำหรับภาพทางการแพทย์โดยไม่ต้องใช้จอเฉพาะ ✅ ข้อมูลเสริมจากภายนอก ➡️ CUDA เป็นแพลตฟอร์มที่ Nvidia ใช้สำหรับงาน AI และ HPC โดยทั่วไปไม่เปิดให้ GPU อื่นใช้งาน ➡️ RISC-V เป็นสถาปัตยกรรมแบบเปิดที่กำลังได้รับความนิยมในจีนเพื่อหลีกเลี่ยงการพึ่งพา IP จากตะวันตก ➡️ HBM (High Bandwidth Memory) เป็นหน่วยความจำที่เร็วและเหมาะกับงาน AI มากกว่า GDDR ➡️ YUV444 ให้ความละเอียดสีสูงกว่าฟอร์แมตทั่วไป เช่น YUV420 ซึ่งใช้ในวิดีโอสตรีมมิ่ง ➡️ DICOM เป็นมาตรฐานภาพทางการแพทย์ที่ใช้ในโรงพยาบาลทั่วโลก https://www.tomshardware.com/pc-components/gpus/chinas-latest-gpu-arrives-with-claims-of-cuda-compatibility-and-rt-support-fenghua-no-3-also-boasts-112gb-of-hbm-memory-for-ai
    0 ความคิดเห็น 0 การแบ่งปัน 98 มุมมอง 0 รีวิว
  • Intel Gaudi 3 ฝ่าด่านตลาด AI ด้วยการจับมือ Dell — เปิดตัวในเซิร์ฟเวอร์ PowerEdge XE7740 พร้อมความหวังใหม่ในยุคที่ NVIDIA ครองเกม

    หลังจากที่ Intel พยายามผลักดันไลน์ผลิตภัณฑ์ด้าน AI มาหลายปีโดยไม่ประสบความสำเร็จเท่าที่ควร ล่าสุด Gaudi 3 ซึ่งเป็นชิปเร่งความเร็ว AI รุ่นใหม่ของ Intel ได้รับการบรรจุในเซิร์ฟเวอร์ Dell PowerEdge XE7740 อย่างเป็นทางการ ถือเป็นหนึ่งใน “ชัยชนะเล็ก ๆ” ที่อาจพลิกเกมให้ Intel กลับมาแข่งขันกับ NVIDIA และ AMD ได้อีกครั้ง

    PowerEdge XE7740 เป็นเซิร์ฟเวอร์ระดับองค์กรที่ออกแบบมาเพื่อรองรับงาน AI โดยเฉพาะ รองรับ Gaudi 3 ได้สูงสุด 8 ตัวในระบบเดียว พร้อมระบบเครือข่ายแบบ 1:1 ระหว่าง accelerator และ NIC เพื่อเพิ่มประสิทธิภาพการประมวลผลและการเชื่อมต่อ นอกจากนี้ยังรองรับโมเดล AI ยอดนิยม เช่น Llama4, Deepseek, Phi4 และ Falcon3

    Dell ชูจุดเด่นของ Gaudi 3 ว่า “คุ้มค่า” และ “ปรับขนาดได้ง่าย” โดยเฉพาะในองค์กรที่มีข้อจำกัดด้านพลังงานและระบบระบายความร้อน ซึ่ง Gaudi 3 ถูกออกแบบมาให้ทำงานได้ดีในแร็คขนาด ~10kW ที่พบได้ทั่วไปในดาต้าเซ็นเตอร์

    แม้ Dell ยังไม่เปิดเผยตัวเลขประสิทธิภาพอย่างเป็นทางการ แต่จากการทดสอบก่อนหน้านี้ Gaudi 3 เคยแสดงผลลัพธ์ที่เร็วกว่า NVIDIA H100 และ H200 ในบางงาน inferencing ซึ่งหากเป็นจริง ก็อาจเป็นจุดเปลี่ยนสำคัญของ Intel ในตลาด AI ที่เคยถูกมองว่า “ช้าเกินไป”

    Intel Gaudi 3 ได้รับการบรรจุในเซิร์ฟเวอร์ Dell PowerEdge XE7740
    ถือเป็นการบุกตลาดองค์กรครั้งสำคัญของ Intel
    Dell เป็นหนึ่งในผู้ผลิตรายแรกที่นำ Gaudi 3 มาใช้ในระบบจริง

    PowerEdge XE7740 รองรับงาน AI เต็มรูปแบบ
    รองรับ Gaudi 3 ได้สูงสุด 8 ตัวในระบบเดียว
    มีระบบเครือข่ายแบบ 1:1 ระหว่าง accelerator และ NIC
    รองรับโมเดล AI ยอดนิยม เช่น Llama4, Phi4, Falcon3

    จุดเด่นของ Gaudi 3 คือความคุ้มค่าและความยืดหยุ่น
    เหมาะกับองค์กรที่มีข้อจำกัดด้านพลังงานและระบบระบายความร้อน
    รองรับการเชื่อมต่อแบบ RoCE v2 สำหรับงานขนาดใหญ่

    Dell ชูจุดเด่นด้านการปรับขนาดและการติดตั้งง่าย
    ใช้แชสซีแบบ 4U ที่ระบายความร้อนได้ดี
    รองรับการติดตั้งในแร็คมาตรฐาน ~10kW โดยไม่ต้องปรับโครงสร้าง

    Gaudi 3 เคยแสดงผลลัพธ์ดีกว่า NVIDIA H100/H200 ในบางงาน
    โดยเฉพาะงาน inferencing ที่เน้นประสิทธิภาพต่อวัตต์
    ยังต้องรอผลการทดสอบจาก Dell เพื่อยืนยัน

    https://wccftech.com/intel-gaudi-3-ai-chips-secure-rare-integration-in-dell-poweredge-servers/
    📰 Intel Gaudi 3 ฝ่าด่านตลาด AI ด้วยการจับมือ Dell — เปิดตัวในเซิร์ฟเวอร์ PowerEdge XE7740 พร้อมความหวังใหม่ในยุคที่ NVIDIA ครองเกม หลังจากที่ Intel พยายามผลักดันไลน์ผลิตภัณฑ์ด้าน AI มาหลายปีโดยไม่ประสบความสำเร็จเท่าที่ควร ล่าสุด Gaudi 3 ซึ่งเป็นชิปเร่งความเร็ว AI รุ่นใหม่ของ Intel ได้รับการบรรจุในเซิร์ฟเวอร์ Dell PowerEdge XE7740 อย่างเป็นทางการ ถือเป็นหนึ่งใน “ชัยชนะเล็ก ๆ” ที่อาจพลิกเกมให้ Intel กลับมาแข่งขันกับ NVIDIA และ AMD ได้อีกครั้ง PowerEdge XE7740 เป็นเซิร์ฟเวอร์ระดับองค์กรที่ออกแบบมาเพื่อรองรับงาน AI โดยเฉพาะ รองรับ Gaudi 3 ได้สูงสุด 8 ตัวในระบบเดียว พร้อมระบบเครือข่ายแบบ 1:1 ระหว่าง accelerator และ NIC เพื่อเพิ่มประสิทธิภาพการประมวลผลและการเชื่อมต่อ นอกจากนี้ยังรองรับโมเดล AI ยอดนิยม เช่น Llama4, Deepseek, Phi4 และ Falcon3 Dell ชูจุดเด่นของ Gaudi 3 ว่า “คุ้มค่า” และ “ปรับขนาดได้ง่าย” โดยเฉพาะในองค์กรที่มีข้อจำกัดด้านพลังงานและระบบระบายความร้อน ซึ่ง Gaudi 3 ถูกออกแบบมาให้ทำงานได้ดีในแร็คขนาด ~10kW ที่พบได้ทั่วไปในดาต้าเซ็นเตอร์ แม้ Dell ยังไม่เปิดเผยตัวเลขประสิทธิภาพอย่างเป็นทางการ แต่จากการทดสอบก่อนหน้านี้ Gaudi 3 เคยแสดงผลลัพธ์ที่เร็วกว่า NVIDIA H100 และ H200 ในบางงาน inferencing ซึ่งหากเป็นจริง ก็อาจเป็นจุดเปลี่ยนสำคัญของ Intel ในตลาด AI ที่เคยถูกมองว่า “ช้าเกินไป” ✅ Intel Gaudi 3 ได้รับการบรรจุในเซิร์ฟเวอร์ Dell PowerEdge XE7740 ➡️ ถือเป็นการบุกตลาดองค์กรครั้งสำคัญของ Intel ➡️ Dell เป็นหนึ่งในผู้ผลิตรายแรกที่นำ Gaudi 3 มาใช้ในระบบจริง ✅ PowerEdge XE7740 รองรับงาน AI เต็มรูปแบบ ➡️ รองรับ Gaudi 3 ได้สูงสุด 8 ตัวในระบบเดียว ➡️ มีระบบเครือข่ายแบบ 1:1 ระหว่าง accelerator และ NIC ➡️ รองรับโมเดล AI ยอดนิยม เช่น Llama4, Phi4, Falcon3 ✅ จุดเด่นของ Gaudi 3 คือความคุ้มค่าและความยืดหยุ่น ➡️ เหมาะกับองค์กรที่มีข้อจำกัดด้านพลังงานและระบบระบายความร้อน ➡️ รองรับการเชื่อมต่อแบบ RoCE v2 สำหรับงานขนาดใหญ่ ✅ Dell ชูจุดเด่นด้านการปรับขนาดและการติดตั้งง่าย ➡️ ใช้แชสซีแบบ 4U ที่ระบายความร้อนได้ดี ➡️ รองรับการติดตั้งในแร็คมาตรฐาน ~10kW โดยไม่ต้องปรับโครงสร้าง ✅ Gaudi 3 เคยแสดงผลลัพธ์ดีกว่า NVIDIA H100/H200 ในบางงาน ➡️ โดยเฉพาะงาน inferencing ที่เน้นประสิทธิภาพต่อวัตต์ ➡️ ยังต้องรอผลการทดสอบจาก Dell เพื่อยืนยัน https://wccftech.com/intel-gaudi-3-ai-chips-secure-rare-integration-in-dell-poweredge-servers/
    WCCFTECH.COM
    Intel’s Gaudi 3 AI Chips Secure Integration in Dell’s PowerEdge Servers, Marking One of the Few Wins for the Struggling Lineup
    Intel's Gaudi 3 AI chips have seen a rather 'rare' feature from Dell's AI servers, which are claimed to be cost-efficient and scalable.
    0 ความคิดเห็น 0 การแบ่งปัน 156 มุมมอง 0 รีวิว
  • “AMD เตรียมปล่อย ROCm 7.0 — ซอฟต์แวร์ AI ที่หวังโค่น CUDA ด้วยประสิทธิภาพทะลุ Blackwell”

    AMD กำลังเตรียมเปิดตัว ROCm 7.0 ซึ่งเป็นเวอร์ชันใหม่ของชุดซอฟต์แวร์สำหรับการประมวลผล AI และ HPC โดยมีเป้าหมายชัดเจน: สร้างทางเลือกที่แท้จริงให้กับนักพัฒนาแทนการพึ่งพา CUDA ของ NVIDIA ที่ครองตลาดมายาวนาน ROCm 7.0 ถูกเพิ่มเข้าใน GitHub แล้ว และคาดว่าจะเปิดตัวภายในไม่กี่สัปดาห์ข้างหน้า

    ในงาน Advancing AI ล่าสุด AMD ได้เผยว่า ROCm 7.0 จะมาพร้อมการปรับปรุงครั้งใหญ่ โดยเฉพาะด้าน inferencing และ training ซึ่งสามารถเพิ่มประสิทธิภาพได้ถึง 3.5 เท่าเมื่อเทียบกับ ROCm 6 และที่น่าตื่นเต้นที่สุดคือ Instinct MI355X สามารถทำ FP8 throughput ได้สูงกว่า Blackwell B200 ของ NVIDIA ถึง 30% ในโมเดล DeepSeek R1

    ROCm 7.0 ยังรองรับฟีเจอร์ใหม่ เช่น HIP 7.0, การจัดการคลัสเตอร์, และเครื่องมือสำหรับองค์กร พร้อม Docker image ที่ปรับแต่งมาแล้วสำหรับ MI355, MI350, MI325 และ MI300 โดยสามารถใช้งานร่วมกับโมเดลขนาดใหญ่ที่ถูก quantize ด้วย AMD Quark เช่น Llama 3.3 70B และ gpt-oss-120B

    เมื่อเปรียบเทียบกับ CUDA ล่าสุด พบว่า ROCm บน MI325X มีข้อได้เปรียบในหลายด้าน เช่น VRAM ขนาด 256GB ต่อ GPU ที่ช่วยลดความซับซ้อนของ pipeline และรองรับ batch ใหญ่ ๆ ได้ดี รวมถึงการทำงานร่วมกับ Hugging Face และ DeepSpeed ได้แบบ native โดยไม่ต้อง patch เพิ่ม

    แม้ ROCm จะยังตามหลัง CUDA ในบางด้าน เช่น ecosystem ที่ยังไม่สมบูรณ์ และ library เฉพาะบางตัวที่ต้องปรับแต่งเอง แต่ก็ถือว่าเป็นทางเลือกที่จริงจังสำหรับองค์กรที่ต้องการลดต้นทุนและหลีกเลี่ยงการผูกขาดด้านฮาร์ดแวร์

    ข้อมูลสำคัญจากข่าว
    AMD เตรียมเปิดตัว ROCm 7.0 เพื่อเป็นทางเลือกแทน CUDA
    เพิ่มประสิทธิภาพ inferencing และ training สูงถึง 3.5 เท่าเมื่อเทียบกับ ROCm 6
    MI355X ทำ FP8 throughput ได้สูงกว่า Blackwell B200 ถึง 30%
    มี Docker image สำหรับ MI355, MI350, MI325 และ MI300 พร้อมใช้งาน

    ฟีเจอร์ใหม่และการรองรับ
    รองรับ HIP 7.0, การจัดการคลัสเตอร์ และเครื่องมือสำหรับองค์กร
    ใช้งานร่วมกับโมเดล MXFP4 และ FP8 ที่ถูก quantize ด้วย AMD Quark
    รองรับ DeepSeek R1, Llama 3.3 70B, gpt-oss-120B และอื่น ๆ
    ทำงานร่วมกับ Hugging Face และ DeepSpeed ได้แบบ native

    ข้อมูลเสริมจากภายนอก
    MI325X มี VRAM 256GB ต่อ GPU — เหนือกว่า H100 ที่ต้องแบ่งโมเดล
    ROCm ไม่ล็อกผู้ใช้กับฮาร์ดแวร์เฉพาะเหมือน CUDA
    TensorWave และ Scimus เริ่มให้บริการคลัสเตอร์ ROCm สำหรับองค์กร
    ROCm เหมาะกับงาน inference ขนาดใหญ่และ training ที่เน้นต้นทุนต่อ TFLOP

    https://wccftech.com/amd-initiates-work-on-rocm-7-compute-stack/
    🚀 “AMD เตรียมปล่อย ROCm 7.0 — ซอฟต์แวร์ AI ที่หวังโค่น CUDA ด้วยประสิทธิภาพทะลุ Blackwell” AMD กำลังเตรียมเปิดตัว ROCm 7.0 ซึ่งเป็นเวอร์ชันใหม่ของชุดซอฟต์แวร์สำหรับการประมวลผล AI และ HPC โดยมีเป้าหมายชัดเจน: สร้างทางเลือกที่แท้จริงให้กับนักพัฒนาแทนการพึ่งพา CUDA ของ NVIDIA ที่ครองตลาดมายาวนาน ROCm 7.0 ถูกเพิ่มเข้าใน GitHub แล้ว และคาดว่าจะเปิดตัวภายในไม่กี่สัปดาห์ข้างหน้า ในงาน Advancing AI ล่าสุด AMD ได้เผยว่า ROCm 7.0 จะมาพร้อมการปรับปรุงครั้งใหญ่ โดยเฉพาะด้าน inferencing และ training ซึ่งสามารถเพิ่มประสิทธิภาพได้ถึง 3.5 เท่าเมื่อเทียบกับ ROCm 6 และที่น่าตื่นเต้นที่สุดคือ Instinct MI355X สามารถทำ FP8 throughput ได้สูงกว่า Blackwell B200 ของ NVIDIA ถึง 30% ในโมเดล DeepSeek R1 ROCm 7.0 ยังรองรับฟีเจอร์ใหม่ เช่น HIP 7.0, การจัดการคลัสเตอร์, และเครื่องมือสำหรับองค์กร พร้อม Docker image ที่ปรับแต่งมาแล้วสำหรับ MI355, MI350, MI325 และ MI300 โดยสามารถใช้งานร่วมกับโมเดลขนาดใหญ่ที่ถูก quantize ด้วย AMD Quark เช่น Llama 3.3 70B และ gpt-oss-120B เมื่อเปรียบเทียบกับ CUDA ล่าสุด พบว่า ROCm บน MI325X มีข้อได้เปรียบในหลายด้าน เช่น VRAM ขนาด 256GB ต่อ GPU ที่ช่วยลดความซับซ้อนของ pipeline และรองรับ batch ใหญ่ ๆ ได้ดี รวมถึงการทำงานร่วมกับ Hugging Face และ DeepSpeed ได้แบบ native โดยไม่ต้อง patch เพิ่ม แม้ ROCm จะยังตามหลัง CUDA ในบางด้าน เช่น ecosystem ที่ยังไม่สมบูรณ์ และ library เฉพาะบางตัวที่ต้องปรับแต่งเอง แต่ก็ถือว่าเป็นทางเลือกที่จริงจังสำหรับองค์กรที่ต้องการลดต้นทุนและหลีกเลี่ยงการผูกขาดด้านฮาร์ดแวร์ ✅ ข้อมูลสำคัญจากข่าว ➡️ AMD เตรียมเปิดตัว ROCm 7.0 เพื่อเป็นทางเลือกแทน CUDA ➡️ เพิ่มประสิทธิภาพ inferencing และ training สูงถึง 3.5 เท่าเมื่อเทียบกับ ROCm 6 ➡️ MI355X ทำ FP8 throughput ได้สูงกว่า Blackwell B200 ถึง 30% ➡️ มี Docker image สำหรับ MI355, MI350, MI325 และ MI300 พร้อมใช้งาน ✅ ฟีเจอร์ใหม่และการรองรับ ➡️ รองรับ HIP 7.0, การจัดการคลัสเตอร์ และเครื่องมือสำหรับองค์กร ➡️ ใช้งานร่วมกับโมเดล MXFP4 และ FP8 ที่ถูก quantize ด้วย AMD Quark ➡️ รองรับ DeepSeek R1, Llama 3.3 70B, gpt-oss-120B และอื่น ๆ ➡️ ทำงานร่วมกับ Hugging Face และ DeepSpeed ได้แบบ native ✅ ข้อมูลเสริมจากภายนอก ➡️ MI325X มี VRAM 256GB ต่อ GPU — เหนือกว่า H100 ที่ต้องแบ่งโมเดล ➡️ ROCm ไม่ล็อกผู้ใช้กับฮาร์ดแวร์เฉพาะเหมือน CUDA ➡️ TensorWave และ Scimus เริ่มให้บริการคลัสเตอร์ ROCm สำหรับองค์กร ➡️ ROCm เหมาะกับงาน inference ขนาดใหญ่และ training ที่เน้นต้นทุนต่อ TFLOP https://wccftech.com/amd-initiates-work-on-rocm-7-compute-stack/
    WCCFTECH.COM
    AMD Preps To Release the ROCm 7.0 Compute Stack, Aiming to Position It as a Viable Alternative to NVIDIA's CUDA Ecosystem
    AMD has started working on releasing the ROCm 7 software stack, which was being hyped up as a way to break NVIDIA's CUDA 'lock-in' ecosystem.
    0 ความคิดเห็น 0 การแบ่งปัน 142 มุมมอง 0 รีวิว
  • “Tencent หันหลังให้ Nvidia — ปรับโครงสร้าง AI สู่ชิปจีนเต็มรูปแบบ ท่ามกลางแรงกดดันจากสงครามเทคโนโลยี”

    Tencent บริษัทเทคโนโลยียักษ์ใหญ่ของจีน ประกาศอย่างเป็นทางการในงาน Global Digital Ecosystem Summit เมื่อวันที่ 16 กันยายน 2025 ว่าได้ “ปรับโครงสร้างระบบประมวลผล AI ทั้งหมด” เพื่อรองรับชิปที่ออกแบบโดยบริษัทจีน โดยไม่พึ่งพา Nvidia อีกต่อไป ถือเป็นการเปลี่ยนแปลงครั้งใหญ่ในยุทธศาสตร์ด้านฮาร์ดแวร์ของบริษัท และสะท้อนแนวโน้มการพึ่งพาตนเองของจีนในยุคที่การส่งออกเทคโนโลยีจากสหรัฐฯ ถูกจำกัดอย่างเข้มงวด

    Qiu Yuepeng ประธาน Tencent Cloud ยืนยันว่าบริษัทได้ใช้ “ชิปจีนกระแสหลัก” ในการผลิตจริง ไม่ใช่แค่ทดลอง และกำลังร่วมมือกับผู้ผลิตชิปหลายรายเพื่อเลือกฮาร์ดแวร์ที่เหมาะสมกับแต่ละงาน พร้อมลงทุนระยะยาวเพื่อพัฒนาโครงสร้างร่วมระหว่างฮาร์ดแวร์และซอฟต์แวร์ เพื่อลดต้นทุนการประมวลผล

    การประกาศนี้เกิดขึ้นเพียงหนึ่งวันหลังจากหน่วยงานกำกับดูแลของจีนเปิดเผยว่า Nvidia ละเมิดกฎการควบรวมกิจการจากการซื้อ Mellanox ในปี 2019 ซึ่งเพิ่มแรงกดดันให้บริษัทจีนต้องเร่งพัฒนาเทคโนโลยีของตนเอง

    แม้ Tencent จะไม่เปิดเผยชื่อชิปที่ใช้งานจริง แต่หลายฝ่ายคาดว่าเป็น Huawei Ascend ซึ่งมีการใช้งานแล้วใน ByteDance และได้รับการสนับสนุนจากเฟรมเวิร์ก MindSpore ที่พัฒนาอย่างต่อเนื่อง อย่างไรก็ตาม ยังมีข้อสงสัยว่าชิปเหล่านี้จะสามารถรองรับการฝึกโมเดลขนาดใหญ่ได้จริงหรือไม่ เนื่องจาก Huawei ถูกคาดว่าจะผลิตได้เพียง 200,000 ชิป AI ในปีหน้า

    Tencent ยังระบุว่ามีชิปสำหรับการฝึกโมเดลเพียงพอในคลัง และมี “หลายทางเลือก” สำหรับ inference ซึ่งสะท้อนถึงการกระจายความเสี่ยงด้านซัพพลายเชนอย่างชัดเจน

    ข้อมูลสำคัญจากข่าว
    Tencent ประกาศปรับโครงสร้างระบบ AI เพื่อรองรับชิปจีนเต็มรูปแบบ
    ใช้ชิปจีนกระแสหลักในระดับการผลิตจริง ไม่ใช่แค่ทดลอง
    ร่วมมือกับผู้ผลิตหลายรายเพื่อเลือกฮาร์ดแวร์ที่เหมาะสมกับแต่ละงาน
    ลงทุนระยะยาวเพื่อพัฒนาโครงสร้างร่วมระหว่างฮาร์ดแวร์และซอฟต์แวร์

    ความเคลื่อนไหวที่เกี่ยวข้อง
    Nvidia ถูกกล่าวหาว่าละเมิดกฎการควบรวมกิจการในจีนจากดีล Mellanox
    Tencent มีชิปสำหรับการฝึกโมเดลเพียงพอ และมีหลายทางเลือกสำหรับ inference
    DeepSeek AI ประกาศว่าโมเดล V3.1 ถูกออกแบบมาเพื่อรองรับชิปจีนรุ่นใหม่
    Huawei Ascend ถูกใช้งานใน ByteDance และมีเฟรมเวิร์ก MindSpore รองรับ

    ข้อมูลเสริมจากภายนอก
    จีนตั้งเป้าให้บริษัทในประเทศใช้ชิปจีนอย่างน้อย 50% ภายในปี 2026
    กลุ่ม Model-Chips Ecosystem Innovation Alliance ก่อตั้งขึ้นเพื่อผลักดันการใช้ชิปจีนในงาน AI
    การเปลี่ยนจาก Nvidia ไปยังชิปจีนต้องใช้เวลาและต้นทุนสูงในการปรับซอฟต์แวร์
    Huawei Ascend ยังมีข้อจำกัดด้านปริมาณการผลิตและการเข้าถึง HBM

    https://www.tomshardware.com/tech-industry/semiconductors/tencent-goes-public-with-pivot-to-chinese-chips
    🇨🇳 “Tencent หันหลังให้ Nvidia — ปรับโครงสร้าง AI สู่ชิปจีนเต็มรูปแบบ ท่ามกลางแรงกดดันจากสงครามเทคโนโลยี” Tencent บริษัทเทคโนโลยียักษ์ใหญ่ของจีน ประกาศอย่างเป็นทางการในงาน Global Digital Ecosystem Summit เมื่อวันที่ 16 กันยายน 2025 ว่าได้ “ปรับโครงสร้างระบบประมวลผล AI ทั้งหมด” เพื่อรองรับชิปที่ออกแบบโดยบริษัทจีน โดยไม่พึ่งพา Nvidia อีกต่อไป ถือเป็นการเปลี่ยนแปลงครั้งใหญ่ในยุทธศาสตร์ด้านฮาร์ดแวร์ของบริษัท และสะท้อนแนวโน้มการพึ่งพาตนเองของจีนในยุคที่การส่งออกเทคโนโลยีจากสหรัฐฯ ถูกจำกัดอย่างเข้มงวด Qiu Yuepeng ประธาน Tencent Cloud ยืนยันว่าบริษัทได้ใช้ “ชิปจีนกระแสหลัก” ในการผลิตจริง ไม่ใช่แค่ทดลอง และกำลังร่วมมือกับผู้ผลิตชิปหลายรายเพื่อเลือกฮาร์ดแวร์ที่เหมาะสมกับแต่ละงาน พร้อมลงทุนระยะยาวเพื่อพัฒนาโครงสร้างร่วมระหว่างฮาร์ดแวร์และซอฟต์แวร์ เพื่อลดต้นทุนการประมวลผล การประกาศนี้เกิดขึ้นเพียงหนึ่งวันหลังจากหน่วยงานกำกับดูแลของจีนเปิดเผยว่า Nvidia ละเมิดกฎการควบรวมกิจการจากการซื้อ Mellanox ในปี 2019 ซึ่งเพิ่มแรงกดดันให้บริษัทจีนต้องเร่งพัฒนาเทคโนโลยีของตนเอง แม้ Tencent จะไม่เปิดเผยชื่อชิปที่ใช้งานจริง แต่หลายฝ่ายคาดว่าเป็น Huawei Ascend ซึ่งมีการใช้งานแล้วใน ByteDance และได้รับการสนับสนุนจากเฟรมเวิร์ก MindSpore ที่พัฒนาอย่างต่อเนื่อง อย่างไรก็ตาม ยังมีข้อสงสัยว่าชิปเหล่านี้จะสามารถรองรับการฝึกโมเดลขนาดใหญ่ได้จริงหรือไม่ เนื่องจาก Huawei ถูกคาดว่าจะผลิตได้เพียง 200,000 ชิป AI ในปีหน้า Tencent ยังระบุว่ามีชิปสำหรับการฝึกโมเดลเพียงพอในคลัง และมี “หลายทางเลือก” สำหรับ inference ซึ่งสะท้อนถึงการกระจายความเสี่ยงด้านซัพพลายเชนอย่างชัดเจน ✅ ข้อมูลสำคัญจากข่าว ➡️ Tencent ประกาศปรับโครงสร้างระบบ AI เพื่อรองรับชิปจีนเต็มรูปแบบ ➡️ ใช้ชิปจีนกระแสหลักในระดับการผลิตจริง ไม่ใช่แค่ทดลอง ➡️ ร่วมมือกับผู้ผลิตหลายรายเพื่อเลือกฮาร์ดแวร์ที่เหมาะสมกับแต่ละงาน ➡️ ลงทุนระยะยาวเพื่อพัฒนาโครงสร้างร่วมระหว่างฮาร์ดแวร์และซอฟต์แวร์ ✅ ความเคลื่อนไหวที่เกี่ยวข้อง ➡️ Nvidia ถูกกล่าวหาว่าละเมิดกฎการควบรวมกิจการในจีนจากดีล Mellanox ➡️ Tencent มีชิปสำหรับการฝึกโมเดลเพียงพอ และมีหลายทางเลือกสำหรับ inference ➡️ DeepSeek AI ประกาศว่าโมเดล V3.1 ถูกออกแบบมาเพื่อรองรับชิปจีนรุ่นใหม่ ➡️ Huawei Ascend ถูกใช้งานใน ByteDance และมีเฟรมเวิร์ก MindSpore รองรับ ✅ ข้อมูลเสริมจากภายนอก ➡️ จีนตั้งเป้าให้บริษัทในประเทศใช้ชิปจีนอย่างน้อย 50% ภายในปี 2026 ➡️ กลุ่ม Model-Chips Ecosystem Innovation Alliance ก่อตั้งขึ้นเพื่อผลักดันการใช้ชิปจีนในงาน AI ➡️ การเปลี่ยนจาก Nvidia ไปยังชิปจีนต้องใช้เวลาและต้นทุนสูงในการปรับซอฟต์แวร์ ➡️ Huawei Ascend ยังมีข้อจำกัดด้านปริมาณการผลิตและการเข้าถึง HBM https://www.tomshardware.com/tech-industry/semiconductors/tencent-goes-public-with-pivot-to-chinese-chips
    WWW.TOMSHARDWARE.COM
    Chinese giant Tencent announces domestic AI chip push — says it has fully adapted infrastructure to support homegrown silicon in blow to Nvidia
    Tencent goes public with its pivot to Chinese accelerators, highlighting a deeper break from Nvidia as domestic AI hardware matures.
    0 ความคิดเห็น 0 การแบ่งปัน 203 มุมมอง 0 รีวิว
  • “Villager: เครื่องมือเจาะระบบจากจีนที่ใช้ AI สั่งงานด้วยภาษาคน — ดาวน์โหลดทะลุหมื่นครั้งใน 2 เดือน สะเทือนวงการไซเบอร์”

    Villager คือเครื่องมือเจาะระบบ (pentest tool) ที่ถูกเผยแพร่บน PyPI โดยผู้ใช้ชื่อ “stupidfish001” ซึ่งมีความเชื่อมโยงกับกลุ่มแข่งขัน CTF จากจีนชื่อ HSCSEC และบริษัท Cyberspike ที่จดทะเบียนในชื่อ Changchun Anshanyuan Technology Co., Ltd. แม้จะถูกนำเสนอว่าเป็นเครื่องมือสำหรับทีม red team แต่ผู้เชี่ยวชาญด้านความปลอดภัยเตือนว่า Villager อาจกลายเป็น “Cobalt Strike ยุคใหม่” — เครื่องมือที่เริ่มจากการใช้งานอย่างถูกต้อง แต่ถูกนำไปใช้โดยกลุ่มแฮกเกอร์และรัฐชาติในที่สุด

    สิ่งที่ทำให้ Villager น่ากังวลคือความสามารถในการใช้ AI สั่งงานผ่านภาษาธรรมชาติ เช่น “สแกนและเจาะระบบ example.com” แล้วระบบจะจัดการทุกขั้นตอนโดยอัตโนมัติ ตั้งแต่การสร้าง container Kali Linux ไปจนถึงการเลือกเครื่องมือเจาะระบบที่เหมาะสม และปรับเปลี่ยนตามสภาพแวดล้อมที่ตรวจพบ เช่น WordPress หรือ API ที่เปิดอยู่

    Villager ยังมีฟีเจอร์หลบเลี่ยงการตรวจสอบ เช่น การสร้าง container ชั่วคราวที่ลบตัวเองภายใน 24 ชั่วโมง การสุ่มพอร์ต SSH และการวางแผนงานแบบไม่ทิ้งร่องรอย นอกจากนี้ยังมีการฝังฟีเจอร์จาก AsyncRAT เช่น keylogging, webcam hijacking และการขโมย token Discord ซึ่งเคยปรากฏในเครื่องมือเก่าของ Cyberspike

    Villager ใช้โมเดล AI ชื่อ al-1s-20250421 และเชื่อมต่อกับ DeepSeek ผ่าน API ที่ออกแบบให้เหมือน OpenAI โดยมีการควบคุมผ่าน FastAPI และ GitLab ส่วนตัวของ Cyberspike ซึ่งทำให้สามารถรันคำสั่งใน workflow จริงได้ทันที ปัจจุบันมีการดาวน์โหลดมากกว่า 10,000 ครั้ง และยังคงเพิ่มขึ้นอย่างต่อเนื่อง

    ข้อมูลสำคัญจากข่าว
    Villager เป็นเครื่องมือเจาะระบบที่ใช้ AI สั่งงานผ่านภาษาธรรมชาติ
    เผยแพร่บน PyPI โดยผู้ใช้ที่เชื่อมโยงกับกลุ่ม CTF จากจีนและบริษัท Cyberspike
    ดาวน์โหลดมากกว่า 10,000 ครั้งภายใน 2 เดือน — รองรับ Linux, macOS และ Windows
    ใช้ container Kali Linux, DeepSeek AI, LangChain และโมเดล al-1s-20250421

    ความสามารถและฟีเจอร์ของ Villager
    สั่งงานด้วยข้อความธรรมดา เช่น “เจาะระบบ example.com” แล้ว AI จัดการทุกขั้นตอน
    สร้าง container ที่ลบตัวเองภายใน 24 ชั่วโมง — ลดร่องรอยการโจมตี
    ใช้พอร์ต SSH แบบสุ่มและวางแผนงานเพื่อหลบเลี่ยงการตรวจจับ
    ฝังฟีเจอร์จาก AsyncRAT เช่น keylogging, webcam hijacking และ token theft

    ข้อมูลเสริมจากภายนอก
    Cobalt Strike เคยเป็นเครื่องมือเจาะระบบที่ถูกนำไปใช้โดยกลุ่ม ransomware และรัฐชาติ
    การเผยแพร่ผ่าน PyPI ทำให้ Villager เข้าถึงง่ายและดูน่าเชื่อถือ
    AI ลดความซับซ้อนของการโจมตี — ผู้ใช้ทั่วไปสามารถรันคำสั่งระดับสูงได้
    การใช้ container และ API ทำให้ Villager รันใน workflow จริงได้ทันที

    https://hackread.com/china-ai-pentest-tool-villager-10k-downloads/
    🧠 “Villager: เครื่องมือเจาะระบบจากจีนที่ใช้ AI สั่งงานด้วยภาษาคน — ดาวน์โหลดทะลุหมื่นครั้งใน 2 เดือน สะเทือนวงการไซเบอร์” Villager คือเครื่องมือเจาะระบบ (pentest tool) ที่ถูกเผยแพร่บน PyPI โดยผู้ใช้ชื่อ “stupidfish001” ซึ่งมีความเชื่อมโยงกับกลุ่มแข่งขัน CTF จากจีนชื่อ HSCSEC และบริษัท Cyberspike ที่จดทะเบียนในชื่อ Changchun Anshanyuan Technology Co., Ltd. แม้จะถูกนำเสนอว่าเป็นเครื่องมือสำหรับทีม red team แต่ผู้เชี่ยวชาญด้านความปลอดภัยเตือนว่า Villager อาจกลายเป็น “Cobalt Strike ยุคใหม่” — เครื่องมือที่เริ่มจากการใช้งานอย่างถูกต้อง แต่ถูกนำไปใช้โดยกลุ่มแฮกเกอร์และรัฐชาติในที่สุด สิ่งที่ทำให้ Villager น่ากังวลคือความสามารถในการใช้ AI สั่งงานผ่านภาษาธรรมชาติ เช่น “สแกนและเจาะระบบ example.com” แล้วระบบจะจัดการทุกขั้นตอนโดยอัตโนมัติ ตั้งแต่การสร้าง container Kali Linux ไปจนถึงการเลือกเครื่องมือเจาะระบบที่เหมาะสม และปรับเปลี่ยนตามสภาพแวดล้อมที่ตรวจพบ เช่น WordPress หรือ API ที่เปิดอยู่ Villager ยังมีฟีเจอร์หลบเลี่ยงการตรวจสอบ เช่น การสร้าง container ชั่วคราวที่ลบตัวเองภายใน 24 ชั่วโมง การสุ่มพอร์ต SSH และการวางแผนงานแบบไม่ทิ้งร่องรอย นอกจากนี้ยังมีการฝังฟีเจอร์จาก AsyncRAT เช่น keylogging, webcam hijacking และการขโมย token Discord ซึ่งเคยปรากฏในเครื่องมือเก่าของ Cyberspike Villager ใช้โมเดล AI ชื่อ al-1s-20250421 และเชื่อมต่อกับ DeepSeek ผ่าน API ที่ออกแบบให้เหมือน OpenAI โดยมีการควบคุมผ่าน FastAPI และ GitLab ส่วนตัวของ Cyberspike ซึ่งทำให้สามารถรันคำสั่งใน workflow จริงได้ทันที ปัจจุบันมีการดาวน์โหลดมากกว่า 10,000 ครั้ง และยังคงเพิ่มขึ้นอย่างต่อเนื่อง ✅ ข้อมูลสำคัญจากข่าว ➡️ Villager เป็นเครื่องมือเจาะระบบที่ใช้ AI สั่งงานผ่านภาษาธรรมชาติ ➡️ เผยแพร่บน PyPI โดยผู้ใช้ที่เชื่อมโยงกับกลุ่ม CTF จากจีนและบริษัท Cyberspike ➡️ ดาวน์โหลดมากกว่า 10,000 ครั้งภายใน 2 เดือน — รองรับ Linux, macOS และ Windows ➡️ ใช้ container Kali Linux, DeepSeek AI, LangChain และโมเดล al-1s-20250421 ✅ ความสามารถและฟีเจอร์ของ Villager ➡️ สั่งงานด้วยข้อความธรรมดา เช่น “เจาะระบบ example.com” แล้ว AI จัดการทุกขั้นตอน ➡️ สร้าง container ที่ลบตัวเองภายใน 24 ชั่วโมง — ลดร่องรอยการโจมตี ➡️ ใช้พอร์ต SSH แบบสุ่มและวางแผนงานเพื่อหลบเลี่ยงการตรวจจับ ➡️ ฝังฟีเจอร์จาก AsyncRAT เช่น keylogging, webcam hijacking และ token theft ✅ ข้อมูลเสริมจากภายนอก ➡️ Cobalt Strike เคยเป็นเครื่องมือเจาะระบบที่ถูกนำไปใช้โดยกลุ่ม ransomware และรัฐชาติ ➡️ การเผยแพร่ผ่าน PyPI ทำให้ Villager เข้าถึงง่ายและดูน่าเชื่อถือ ➡️ AI ลดความซับซ้อนของการโจมตี — ผู้ใช้ทั่วไปสามารถรันคำสั่งระดับสูงได้ ➡️ การใช้ container และ API ทำให้ Villager รันใน workflow จริงได้ทันที https://hackread.com/china-ai-pentest-tool-villager-10k-downloads/
    HACKREAD.COM
    China-Linked AI Pentest Tool ‘Villager’ Raises Concern After 10K Downloads
    Follow us on Bluesky, Twitter (X), Mastodon and Facebook at @Hackread
    0 ความคิดเห็น 0 การแบ่งปัน 176 มุมมอง 0 รีวิว
  • เรื่องเล่าจาก CUDA ถึง ROCm: เมื่อ Elon Musk บอกว่า “AMD ก็ทำงานได้ดี”

    Elon Musk ได้โพสต์ข้อความบน X (Twitter เดิม) ว่า AMD Instinct ทำงาน “ค่อนข้างดี” สำหรับโมเดล AI ขนาดเล็กถึงกลาง เช่น inference, fine-tuning และ foundation model ที่ไม่ใหญ่มาก แม้ว่า NVIDIA จะยังคงเป็นตัวเลือกหลักสำหรับงาน training ขนาดใหญ่ แต่คำชมจาก Elon ก็ถือเป็นสัญญาณว่า AMD กำลังไล่ทัน

    ที่ผ่านมา NVIDIA ครองตลาดด้วย CUDA ซึ่งเป็น ecosystem แบบ lock-in ที่ทำให้ผู้พัฒนาไม่สามารถเปลี่ยนไปใช้แพลตฟอร์มอื่นได้ง่าย ๆ แต่ AMD กำลังตอบโต้ด้วย ROCm ที่เปิดกว้างและพัฒนาอย่างรวดเร็ว โดยเฉพาะในรุ่น MI300 และ MI355X ที่ xAI ของ Elon ก็ใช้งานอยู่

    แม้ AMD จะยังไม่ได้รับความนิยมจาก Big Tech เท่ากับ NVIDIA แต่ก็เริ่มมีการใช้งานใน hyperscaler และ cloud provider มากขึ้น เช่น Oracle Cloud และ Dell ที่เริ่มนำ MI350 Series ไปใช้ใน rack-scale AI infrastructure

    AMD ยังเตรียมเปิดตัว MI450 และ Helios rack ที่จะใช้ HBM4 และ EPYC Venice CPU เพื่อเร่งงาน training ขนาดใหญ่ โดยตั้งเป้าให้ลูกค้า “ไม่มีข้ออ้าง” ที่จะไม่เลือก AMD อีกต่อไป

    Elon Musk สนับสนุน AMD สำหรับโมเดล AI ขนาดเล็กถึงกลาง
    กล่าวว่า AMD ทำงานได้ดีสำหรับ inference และ fine-tuning
    xAI ของ Elon ใช้ AMD Instinct MI300/MI355X ในบาง workload
    Tesla ก็เคยร่วมมือกับ AMD ในด้าน hardware

    จุดแข็งของ AMD ในตลาด AI
    MI355X ใช้สถาปัตยกรรม CDNA 4 และ ROCm 7
    มี HBM3E สูงสุด 288 GB และ bandwidth สูงถึง 8 TB/s
    ประสิทธิภาพ inference สูงขึ้นถึง 35 เท่าเมื่อเทียบกับรุ่นก่อน

    การขยาย ecosystem ของ AMD
    ROCm รองรับโมเดลใหญ่ เช่น LLaMA และ DeepSeek ตั้งแต่วันแรก
    มี developer cloud สำหรับนักพัฒนา AI โดยเฉพาะ
    OEM อย่าง Dell, HPE, Supermicro เริ่มนำ MI350 Series ไปใช้ในระบบ on-prem และ hybrid

    แผนการเปิดตัว MI450 และ Helios rack
    ใช้ HBM4 และ EPYC Venice CPU พร้อม NIC Vulcano 800G
    รองรับ 72 GPU ต่อ rack และให้ bandwidth สูงถึง 1.4 PBps
    ตั้งเป้าให้ประสิทธิภาพสูงกว่า NVIDIA Vera Rubin ถึง 50% ในด้าน memory และ throughput

    https://wccftech.com/elon-musk-endorses-amd-for-small-to-medium-ai-models/
    🎙️ เรื่องเล่าจาก CUDA ถึง ROCm: เมื่อ Elon Musk บอกว่า “AMD ก็ทำงานได้ดี” Elon Musk ได้โพสต์ข้อความบน X (Twitter เดิม) ว่า AMD Instinct ทำงาน “ค่อนข้างดี” สำหรับโมเดล AI ขนาดเล็กถึงกลาง เช่น inference, fine-tuning และ foundation model ที่ไม่ใหญ่มาก แม้ว่า NVIDIA จะยังคงเป็นตัวเลือกหลักสำหรับงาน training ขนาดใหญ่ แต่คำชมจาก Elon ก็ถือเป็นสัญญาณว่า AMD กำลังไล่ทัน ที่ผ่านมา NVIDIA ครองตลาดด้วย CUDA ซึ่งเป็น ecosystem แบบ lock-in ที่ทำให้ผู้พัฒนาไม่สามารถเปลี่ยนไปใช้แพลตฟอร์มอื่นได้ง่าย ๆ แต่ AMD กำลังตอบโต้ด้วย ROCm ที่เปิดกว้างและพัฒนาอย่างรวดเร็ว โดยเฉพาะในรุ่น MI300 และ MI355X ที่ xAI ของ Elon ก็ใช้งานอยู่ แม้ AMD จะยังไม่ได้รับความนิยมจาก Big Tech เท่ากับ NVIDIA แต่ก็เริ่มมีการใช้งานใน hyperscaler และ cloud provider มากขึ้น เช่น Oracle Cloud และ Dell ที่เริ่มนำ MI350 Series ไปใช้ใน rack-scale AI infrastructure AMD ยังเตรียมเปิดตัว MI450 และ Helios rack ที่จะใช้ HBM4 และ EPYC Venice CPU เพื่อเร่งงาน training ขนาดใหญ่ โดยตั้งเป้าให้ลูกค้า “ไม่มีข้ออ้าง” ที่จะไม่เลือก AMD อีกต่อไป ✅ Elon Musk สนับสนุน AMD สำหรับโมเดล AI ขนาดเล็กถึงกลาง ➡️ กล่าวว่า AMD ทำงานได้ดีสำหรับ inference และ fine-tuning ➡️ xAI ของ Elon ใช้ AMD Instinct MI300/MI355X ในบาง workload ➡️ Tesla ก็เคยร่วมมือกับ AMD ในด้าน hardware ✅ จุดแข็งของ AMD ในตลาด AI ➡️ MI355X ใช้สถาปัตยกรรม CDNA 4 และ ROCm 7 ➡️ มี HBM3E สูงสุด 288 GB และ bandwidth สูงถึง 8 TB/s ➡️ ประสิทธิภาพ inference สูงขึ้นถึง 35 เท่าเมื่อเทียบกับรุ่นก่อน ✅ การขยาย ecosystem ของ AMD ➡️ ROCm รองรับโมเดลใหญ่ เช่น LLaMA และ DeepSeek ตั้งแต่วันแรก ➡️ มี developer cloud สำหรับนักพัฒนา AI โดยเฉพาะ ➡️ OEM อย่าง Dell, HPE, Supermicro เริ่มนำ MI350 Series ไปใช้ในระบบ on-prem และ hybrid ✅ แผนการเปิดตัว MI450 และ Helios rack ➡️ ใช้ HBM4 และ EPYC Venice CPU พร้อม NIC Vulcano 800G ➡️ รองรับ 72 GPU ต่อ rack และให้ bandwidth สูงถึง 1.4 PBps ➡️ ตั้งเป้าให้ประสิทธิภาพสูงกว่า NVIDIA Vera Rubin ถึง 50% ในด้าน memory และ throughput https://wccftech.com/elon-musk-endorses-amd-for-small-to-medium-ai-models/
    WCCFTECH.COM
    Elon Musk ‘Endorses’ AMD's AI Hardware for Small to Medium AI Models, Implying That There's Potential to Ease Reliance on NVIDIA
    Billionaire Elon Musk has tweeted on the performance of AMD's AI hardware, claiming that it is sufficient for small and medium AI models.
    0 ความคิดเห็น 0 การแบ่งปัน 184 มุมมอง 0 รีวิว
  • “จีนควรเลิกใช้ GPU จากสหรัฐฯ — ผู้เชี่ยวชาญเตือนโมเดลพัฒนา AI ปัจจุบันอาจ ‘อันตรายถึงชีวิต’ หากไม่เปลี่ยนแนวทาง”

    Wei Shaojun รองประธานสมาคมอุตสาหกรรมเซมิคอนดักเตอร์จีน และที่ปรึกษาระดับสูงของรัฐบาลจีน ได้ออกมาเรียกร้องให้จีนและประเทศในเอเชียหยุดพึ่งพา GPU จาก Nvidia และ AMD ในการพัฒนา AI โดยเฉพาะการฝึกโมเดลภาษาใหญ่ (LLM) เช่น ChatGPT และ DeepSeek ซึ่งเขาเห็นว่าเป็นการเลียนแบบแนวทางของสหรัฐฯ ที่อาจนำไปสู่ความเสี่ยงระยะยาวทั้งด้านเทคโนโลยีและความมั่นคง

    Wei กล่าวในเวทีที่สิงคโปร์ว่า โมเดลการพัฒนา AI แบบอิง GPU นั้น “อาจถึงขั้นอันตราย” หากไม่เปลี่ยนแนวทาง เพราะมันทำให้ประเทศในเอเชียขาดอำนาจในการควบคุมโครงสร้างพื้นฐานของตนเอง และติดกับดักการพึ่งพาเทคโนโลยีจากต่างชาติ โดยเฉพาะในช่วงที่สหรัฐฯ จำกัดการส่งออกชิป AI ประสิทธิภาพสูงไปยังจีนตั้งแต่ปี 2023

    แม้จีนจะยังตามหลังสหรัฐฯ และไต้หวันในด้านการผลิตเซมิคอนดักเตอร์ แต่ Wei ยกตัวอย่าง DeepSeek ซึ่งสามารถพัฒนาโมเดล AI ที่แข่งขันกับ OpenAI ได้โดยไม่ต้องใช้ฮาร์ดแวร์ระดับสูงเป็นหลักฐานว่า “อัลกอริธึมที่ดี” สำคัญกว่าฮาร์ดแวร์ล้ำสมัย

    เขาเสนอให้จีนพัฒนาโปรเซสเซอร์เฉพาะทางสำหรับการฝึกโมเดล AI แทนการใช้ GPU ที่เดิมออกแบบมาเพื่อกราฟิก พร้อมย้ำว่าจีนมีเงินทุนและความมุ่งมั่นเพียงพอที่จะสร้างระบบนิเวศด้านเซมิคอนดักเตอร์ของตนเอง แม้จะเผชิญแรงกดดันจากการควบคุมการส่งออกของสหรัฐฯ มาหลายปี

    ข้อมูลสำคัญจากคำแถลงของ Wei Shaojun
    เรียกร้องให้จีนและเอเชียหยุดใช้ GPU จาก Nvidia และ AMD ในการพัฒนา AI
    วิจารณ์ว่าการเลียนแบบแนวทางสหรัฐฯ ทำให้ขาดอำนาจควบคุมเทคโนโลยี
    เสนอให้พัฒนาโปรเซสเซอร์เฉพาะทางสำหรับ LLM แทน GPU ที่ออกแบบเพื่อกราฟิก
    ยกตัวอย่าง DeepSeek เป็นหลักฐานว่าจีนสามารถพัฒนาอัลกอริธึมได้โดยไม่ต้องใช้ฮาร์ดแวร์ระดับสูง

    สถานการณ์ด้านฮาร์ดแวร์และการส่งออก
    สหรัฐฯ จำกัดการส่งออกชิป AI และ HPC ไปยังจีนตั้งแต่ปี 2023
    Nvidia H20 ถูกลดสเปกเพื่อให้ผ่านข้อจำกัด แต่จีนยังไม่ไว้วางใจ
    จีนมีความคืบหน้าในการผลิตชิป แต่ยังตามหลังสหรัฐฯ และไต้หวันหลายปี
    รัฐบาลจีนผลักดันให้บริษัทในประเทศหลีกเลี่ยงการใช้ GPU จากสหรัฐฯ

    ข้อมูลเสริมจากภายนอก
    Nvidia ครองตลาด AI ด้วย CUDA และ Tensor Core ที่ออกแบบมาเพื่อ deep learning
    GPU ของ Nvidia กลายเป็นมาตรฐานในวงการ AI เพราะประสิทธิภาพสูงและ ecosystem ครบ
    ASIC เฉพาะทางสำหรับ AI ยังไม่แพร่หลาย แต่มีแนวโน้มเติบโตในอนาคต
    DeepSeek และ Meituan เป็นตัวอย่างของบริษัทจีนที่พัฒนาโมเดล AI โดยเน้นอัลกอริธึมมากกว่าฮาร์ดแวร์

    https://www.tomshardware.com/tech-industry/artificial-intelligence/top-china-silicon-figure-calls-on-country-to-stop-using-nvidia-gpus-for-ai-says-current-ai-development-model-could-become-lethal-if-not-addressed
    🇨🇳 “จีนควรเลิกใช้ GPU จากสหรัฐฯ — ผู้เชี่ยวชาญเตือนโมเดลพัฒนา AI ปัจจุบันอาจ ‘อันตรายถึงชีวิต’ หากไม่เปลี่ยนแนวทาง” Wei Shaojun รองประธานสมาคมอุตสาหกรรมเซมิคอนดักเตอร์จีน และที่ปรึกษาระดับสูงของรัฐบาลจีน ได้ออกมาเรียกร้องให้จีนและประเทศในเอเชียหยุดพึ่งพา GPU จาก Nvidia และ AMD ในการพัฒนา AI โดยเฉพาะการฝึกโมเดลภาษาใหญ่ (LLM) เช่น ChatGPT และ DeepSeek ซึ่งเขาเห็นว่าเป็นการเลียนแบบแนวทางของสหรัฐฯ ที่อาจนำไปสู่ความเสี่ยงระยะยาวทั้งด้านเทคโนโลยีและความมั่นคง Wei กล่าวในเวทีที่สิงคโปร์ว่า โมเดลการพัฒนา AI แบบอิง GPU นั้น “อาจถึงขั้นอันตราย” หากไม่เปลี่ยนแนวทาง เพราะมันทำให้ประเทศในเอเชียขาดอำนาจในการควบคุมโครงสร้างพื้นฐานของตนเอง และติดกับดักการพึ่งพาเทคโนโลยีจากต่างชาติ โดยเฉพาะในช่วงที่สหรัฐฯ จำกัดการส่งออกชิป AI ประสิทธิภาพสูงไปยังจีนตั้งแต่ปี 2023 แม้จีนจะยังตามหลังสหรัฐฯ และไต้หวันในด้านการผลิตเซมิคอนดักเตอร์ แต่ Wei ยกตัวอย่าง DeepSeek ซึ่งสามารถพัฒนาโมเดล AI ที่แข่งขันกับ OpenAI ได้โดยไม่ต้องใช้ฮาร์ดแวร์ระดับสูงเป็นหลักฐานว่า “อัลกอริธึมที่ดี” สำคัญกว่าฮาร์ดแวร์ล้ำสมัย เขาเสนอให้จีนพัฒนาโปรเซสเซอร์เฉพาะทางสำหรับการฝึกโมเดล AI แทนการใช้ GPU ที่เดิมออกแบบมาเพื่อกราฟิก พร้อมย้ำว่าจีนมีเงินทุนและความมุ่งมั่นเพียงพอที่จะสร้างระบบนิเวศด้านเซมิคอนดักเตอร์ของตนเอง แม้จะเผชิญแรงกดดันจากการควบคุมการส่งออกของสหรัฐฯ มาหลายปี ✅ ข้อมูลสำคัญจากคำแถลงของ Wei Shaojun ➡️ เรียกร้องให้จีนและเอเชียหยุดใช้ GPU จาก Nvidia และ AMD ในการพัฒนา AI ➡️ วิจารณ์ว่าการเลียนแบบแนวทางสหรัฐฯ ทำให้ขาดอำนาจควบคุมเทคโนโลยี ➡️ เสนอให้พัฒนาโปรเซสเซอร์เฉพาะทางสำหรับ LLM แทน GPU ที่ออกแบบเพื่อกราฟิก ➡️ ยกตัวอย่าง DeepSeek เป็นหลักฐานว่าจีนสามารถพัฒนาอัลกอริธึมได้โดยไม่ต้องใช้ฮาร์ดแวร์ระดับสูง ✅ สถานการณ์ด้านฮาร์ดแวร์และการส่งออก ➡️ สหรัฐฯ จำกัดการส่งออกชิป AI และ HPC ไปยังจีนตั้งแต่ปี 2023 ➡️ Nvidia H20 ถูกลดสเปกเพื่อให้ผ่านข้อจำกัด แต่จีนยังไม่ไว้วางใจ ➡️ จีนมีความคืบหน้าในการผลิตชิป แต่ยังตามหลังสหรัฐฯ และไต้หวันหลายปี ➡️ รัฐบาลจีนผลักดันให้บริษัทในประเทศหลีกเลี่ยงการใช้ GPU จากสหรัฐฯ ✅ ข้อมูลเสริมจากภายนอก ➡️ Nvidia ครองตลาด AI ด้วย CUDA และ Tensor Core ที่ออกแบบมาเพื่อ deep learning ➡️ GPU ของ Nvidia กลายเป็นมาตรฐานในวงการ AI เพราะประสิทธิภาพสูงและ ecosystem ครบ ➡️ ASIC เฉพาะทางสำหรับ AI ยังไม่แพร่หลาย แต่มีแนวโน้มเติบโตในอนาคต ➡️ DeepSeek และ Meituan เป็นตัวอย่างของบริษัทจีนที่พัฒนาโมเดล AI โดยเน้นอัลกอริธึมมากกว่าฮาร์ดแวร์ https://www.tomshardware.com/tech-industry/artificial-intelligence/top-china-silicon-figure-calls-on-country-to-stop-using-nvidia-gpus-for-ai-says-current-ai-development-model-could-become-lethal-if-not-addressed
    0 ความคิดเห็น 0 การแบ่งปัน 264 มุมมอง 0 รีวิว
  • “NVIDIA Blackwell Ultra GB300 ทำลายสถิติ MLPerf — เร็วขึ้น 45% ใน DeepSeek R1 พร้อมเทคนิคใหม่ที่เปลี่ยนเกม AI inference”

    NVIDIA ประกาศความสำเร็จครั้งใหญ่ในการทดสอบ MLPerf v5.1 โดยชิป Blackwell Ultra GB300 NVL72 rack-scale system สามารถทำความเร็วในการประมวลผล inference ได้สูงกว่ารุ่นก่อนหน้า GB200 ถึง 45% ในโมเดล DeepSeek R1 ซึ่งเป็นหนึ่งในโมเดล AI ขนาดใหญ่ที่ซับซ้อนที่สุดในปัจจุบัน

    ความสำเร็จนี้เกิดจากการผสานระหว่างฮาร์ดแวร์ที่ทรงพลังและการปรับแต่งซอฟต์แวร์อย่างลึกซึ้ง โดย GB300 ใช้ tensor core ที่มีประสิทธิภาพสูงขึ้นถึง 2 เท่าในส่วน attention-layer และเพิ่ม FLOPS ด้าน AI compute อีก 1.5 เท่า พร้อมหน่วยความจำ HBM3e สูงสุด 288GB ต่อ GPU

    ในด้านซอฟต์แวร์ NVIDIA ใช้ฟอร์แมต NVFP4 ซึ่งเป็น floating point แบบ 4-bit ที่ออกแบบมาเฉพาะสำหรับงาน AI reasoning โดยสามารถลดขนาดโมเดลและเพิ่ม throughput ได้โดยไม่เสียความแม่นยำ นอกจากนี้ยังใช้เทคนิคการ “shard” โมเดล Llama 3.1 405B ข้ามหลาย GPU เพื่อเพิ่มประสิทธิภาพโดยไม่เพิ่ม latency

    ระบบ GB300 NVL72 ยังมีแบนด์วิดท์รวมถึง 130 TBps ด้วย NVLink fabric ความเร็ว 1.8 TBps ระหว่าง GPU แต่ละตัว ทำให้สามารถสื่อสารกันได้อย่างรวดเร็วและไม่มีคอขวด

    ทั้งหมดนี้เป็นส่วนหนึ่งของแนวคิด “AI Factory” ที่ NVIDIA ผลักดัน โดยเชื่อว่าการเพิ่ม throughput ในการประมวลผล AI จะช่วยเพิ่มรายได้ ลดต้นทุน และทำให้ระบบมีประสิทธิภาพสูงสุดในยุคที่ข้อมูลกลายเป็นสินทรัพย์หลัก

    ความสามารถของ Blackwell Ultra GB300
    เพิ่มความเร็ว inference ใน DeepSeek R1 ได้ถึง 45% เมื่อเทียบกับ GB200
    เร็วกว่า Hopper GPU รุ่นก่อนหน้าถึง 5 เท่า
    ใช้ tensor core ที่มี 2X attention-layer acceleration และ 1.5X AI compute FLOPS
    หน่วยความจำ HBM3e สูงสุด 288GB ต่อ GPU

    เทคนิคซอฟต์แวร์ที่ใช้
    ใช้ NVFP4 format เพื่อลดขนาดโมเดลและเพิ่ม throughput
    ใช้ TensorRT Model Optimizer และ TensorRT-LLM library เพื่อปรับแต่งโมเดล
    shard โมเดล Llama 3.1 405B ข้ามหลาย GPU เพื่อเพิ่มประสิทธิภาพ
    ใช้ NVLink fabric ความเร็ว 1.8 TBps ระหว่าง GPU รวมเป็น 130 TBps

    ผลการทดสอบ MLPerf v5.1
    GB300 NVL72 ทำลายสถิติใน DeepSeek R1, Llama 3.1 405B, Llama 3.1 8B และ Whisper
    เพิ่ม throughput ต่อ GPU ได้เกือบ 50% ด้วยเทคนิค disaggregated serving
    ลด latency และเพิ่มประสิทธิภาพในงาน interactive AI
    เหมาะกับการใช้งานในระบบ AI Factory ที่ต้องการประมวลผลจำนวนมาก

    ข้อมูลเสริมจากภายนอก
    DeepSeek R1 เป็นโมเดล MoE ขนาด 671B parameter ที่ต้องใช้ compute สูงมาก
    Whisper กลายเป็นโมเดลแปลงเสียงยอดนิยมบน HuggingFace ด้วยยอดดาวน์โหลดเกือบ 5 ล้านครั้ง
    Llama 3.1 405B มีความต้องการด้าน latency และ throughput สูงกว่ารุ่นก่อน
    Hopper GPU เริ่มล้าสมัยเมื่อเทียบกับ Blackwell Ultra ในงาน inference

    https://www.tomshardware.com/pc-components/gpus/nvidia-claims-software-and-hardware-upgrades-allow-blackwell-ultra-gb300-to-dominate-mlperf-benchmarks-touts-45-percent-deepseek-r-1-inference-throughput-increase-over-gb200
    🚀 “NVIDIA Blackwell Ultra GB300 ทำลายสถิติ MLPerf — เร็วขึ้น 45% ใน DeepSeek R1 พร้อมเทคนิคใหม่ที่เปลี่ยนเกม AI inference” NVIDIA ประกาศความสำเร็จครั้งใหญ่ในการทดสอบ MLPerf v5.1 โดยชิป Blackwell Ultra GB300 NVL72 rack-scale system สามารถทำความเร็วในการประมวลผล inference ได้สูงกว่ารุ่นก่อนหน้า GB200 ถึง 45% ในโมเดล DeepSeek R1 ซึ่งเป็นหนึ่งในโมเดล AI ขนาดใหญ่ที่ซับซ้อนที่สุดในปัจจุบัน ความสำเร็จนี้เกิดจากการผสานระหว่างฮาร์ดแวร์ที่ทรงพลังและการปรับแต่งซอฟต์แวร์อย่างลึกซึ้ง โดย GB300 ใช้ tensor core ที่มีประสิทธิภาพสูงขึ้นถึง 2 เท่าในส่วน attention-layer และเพิ่ม FLOPS ด้าน AI compute อีก 1.5 เท่า พร้อมหน่วยความจำ HBM3e สูงสุด 288GB ต่อ GPU ในด้านซอฟต์แวร์ NVIDIA ใช้ฟอร์แมต NVFP4 ซึ่งเป็น floating point แบบ 4-bit ที่ออกแบบมาเฉพาะสำหรับงาน AI reasoning โดยสามารถลดขนาดโมเดลและเพิ่ม throughput ได้โดยไม่เสียความแม่นยำ นอกจากนี้ยังใช้เทคนิคการ “shard” โมเดล Llama 3.1 405B ข้ามหลาย GPU เพื่อเพิ่มประสิทธิภาพโดยไม่เพิ่ม latency ระบบ GB300 NVL72 ยังมีแบนด์วิดท์รวมถึง 130 TBps ด้วย NVLink fabric ความเร็ว 1.8 TBps ระหว่าง GPU แต่ละตัว ทำให้สามารถสื่อสารกันได้อย่างรวดเร็วและไม่มีคอขวด ทั้งหมดนี้เป็นส่วนหนึ่งของแนวคิด “AI Factory” ที่ NVIDIA ผลักดัน โดยเชื่อว่าการเพิ่ม throughput ในการประมวลผล AI จะช่วยเพิ่มรายได้ ลดต้นทุน และทำให้ระบบมีประสิทธิภาพสูงสุดในยุคที่ข้อมูลกลายเป็นสินทรัพย์หลัก ✅ ความสามารถของ Blackwell Ultra GB300 ➡️ เพิ่มความเร็ว inference ใน DeepSeek R1 ได้ถึง 45% เมื่อเทียบกับ GB200 ➡️ เร็วกว่า Hopper GPU รุ่นก่อนหน้าถึง 5 เท่า ➡️ ใช้ tensor core ที่มี 2X attention-layer acceleration และ 1.5X AI compute FLOPS ➡️ หน่วยความจำ HBM3e สูงสุด 288GB ต่อ GPU ✅ เทคนิคซอฟต์แวร์ที่ใช้ ➡️ ใช้ NVFP4 format เพื่อลดขนาดโมเดลและเพิ่ม throughput ➡️ ใช้ TensorRT Model Optimizer และ TensorRT-LLM library เพื่อปรับแต่งโมเดล ➡️ shard โมเดล Llama 3.1 405B ข้ามหลาย GPU เพื่อเพิ่มประสิทธิภาพ ➡️ ใช้ NVLink fabric ความเร็ว 1.8 TBps ระหว่าง GPU รวมเป็น 130 TBps ✅ ผลการทดสอบ MLPerf v5.1 ➡️ GB300 NVL72 ทำลายสถิติใน DeepSeek R1, Llama 3.1 405B, Llama 3.1 8B และ Whisper ➡️ เพิ่ม throughput ต่อ GPU ได้เกือบ 50% ด้วยเทคนิค disaggregated serving ➡️ ลด latency และเพิ่มประสิทธิภาพในงาน interactive AI ➡️ เหมาะกับการใช้งานในระบบ AI Factory ที่ต้องการประมวลผลจำนวนมาก ✅ ข้อมูลเสริมจากภายนอก ➡️ DeepSeek R1 เป็นโมเดล MoE ขนาด 671B parameter ที่ต้องใช้ compute สูงมาก ➡️ Whisper กลายเป็นโมเดลแปลงเสียงยอดนิยมบน HuggingFace ด้วยยอดดาวน์โหลดเกือบ 5 ล้านครั้ง ➡️ Llama 3.1 405B มีความต้องการด้าน latency และ throughput สูงกว่ารุ่นก่อน ➡️ Hopper GPU เริ่มล้าสมัยเมื่อเทียบกับ Blackwell Ultra ในงาน inference https://www.tomshardware.com/pc-components/gpus/nvidia-claims-software-and-hardware-upgrades-allow-blackwell-ultra-gb300-to-dominate-mlperf-benchmarks-touts-45-percent-deepseek-r-1-inference-throughput-increase-over-gb200
    0 ความคิดเห็น 0 การแบ่งปัน 189 มุมมอง 0 รีวิว
  • “ศึกชิป AI ระดับโลก! NVIDIA Blackwell Ultra GB300 ปะทะ AMD Instinct MI355X ใน MLPerf v5.1 — เร็วขึ้น ฉลาดขึ้น และร้อนแรงกว่าเดิม”

    ในโลกของ AI ที่แข่งขันกันด้วยความเร็วและประสิทธิภาพ ชิปประมวลผลคือหัวใจของทุกระบบ และในรอบล่าสุดของการทดสอบ MLPerf v5.1 ซึ่งเป็นมาตรฐานระดับโลกสำหรับการวัดประสิทธิภาพการประมวลผล AI — NVIDIA และ AMD ต่างก็ส่งชิปเรือธงของตนเข้าประลองกันแบบไม่มีใครยอมใคร

    NVIDIA เปิดตัว Blackwell Ultra GB300 ซึ่งเป็นรุ่นอัปเกรดจาก GB200 โดยสามารถทำความเร็วได้สูงขึ้นถึง 45% ในงาน DeepSeek R1 (Offline) เมื่อใช้ 72 GPU และ 44% เมื่อใช้ 8 GPU ส่วนในโหมด Server ก็ยังเร็วขึ้นถึง 25% และ 21% ตามลำดับ1 ถือเป็นการทำตามสัญญาที่เคยประกาศไว้ว่า Blackwell Ultra จะเร็วขึ้นประมาณ 50%

    ฝั่ง AMD ก็ไม่น้อยหน้า ส่ง Instinct MI355X เข้าร่วมการทดสอบ โดยในงาน Llama 3.1 405B (Offline) พบว่าทำความเร็วได้สูงกว่า GB200 ถึง 27% และในงาน Llama 2 70B (Offline) MI355X สามารถสร้าง token ได้ถึง 648,248 ต่อวินาทีในระบบ 64 ชิป และ 93,045 ในระบบ 8 ชิป — เร็วกว่า GB200 ถึง 2 เท่า

    NVIDIA ยังโชว์พลังของ GB300 ด้วยการทำลายสถิติในหลายหมวด เช่น Stable Diffusion XL, Whisper, Mixtral และ DLRMv2 โดยใช้เทคนิคใหม่อย่าง NVFP4 ซึ่งเป็นฟอร์แมต 4-bit floating point ที่ออกแบบมาเฉพาะสำหรับงาน AI reasoning พร้อมระบบเสิร์ฟแบบแยก context และ generation เพื่อเพิ่ม throughput สูงสุด

    การทดสอบครั้งนี้ยังมี Intel Arc Pro B60 เข้าร่วมด้วย แม้จะไม่เร็วเท่าชิประดับ datacenter แต่ก็มีจุดเด่นด้านความคุ้มค่าและการใช้งานในระบบขนาดเล็ก — สะท้อนว่าการแข่งขันไม่ได้มีแค่เรื่องความเร็ว แต่ยังรวมถึงการออกแบบที่ตอบโจทย์การใช้งานจริง

    ผลการทดสอบ MLPerf v5.1
    GB300 เร็วกว่า GB200 ถึง 45% ใน DeepSeek R1 (Offline) และ 25% ใน Server
    MI355X เร็วกว่า GB200 ถึง 27% ใน Llama 3.1 405B และ 2.09x ใน Llama 2 70B
    GB300 ทำลายสถิติในหลายหมวด เช่น Whisper, Mixtral, DLRMv2 และ Stable Diffusion XL
    ใช้เทคนิค NVFP4 และระบบเสิร์ฟแบบแยก context/generation เพื่อเพิ่ม throughput

    จุดเด่นของ Blackwell Ultra GB300
    มี 1.5x NVFP4 compute และ 2x attention-layer acceleration เมื่อเทียบกับ Blackwell รุ่นก่อน
    ใช้ HBM3e สูงสุด 288GB ต่อ GPU
    ทำความเร็ว reasoning ได้สูงกว่า Hopper ถึง 4.7x ใน Offline และ 5.2x ใน Server1
    ถือครองสถิติ per-GPU ในทุกหมวดของ MLPerf datacenter benchmark

    จุดเด่นของ AMD Instinct MI355X
    ทำ token generation ได้สูงสุด 648,248 ต่อวินาทีในระบบ 64 ชิป
    เร็วกว่า GB200 ถึง 2 เท่าในระบบ 8 ชิป
    เหมาะกับงาน LLM ขนาดใหญ่ เช่น Llama 2 และ Llama 3.1
    มีการปรับปรุงด้าน memory bandwidth และการจัดการพลังงาน

    ข้อมูลเสริมจากภายนอก
    MLPerf v5.1 มีผู้เข้าร่วมมากถึง 27 ราย และเพิ่ม benchmark ใหม่ 3 รายการ ได้แก่ DeepSeek-R1, Llama 3.1 8B และ Whisper Large V3
    NVIDIA ใช้ TensorRT-LLM และ Model Optimizer เพื่อปรับแต่งโมเดลให้ทำงานกับ NVFP4 ได้อย่างแม่นยำ2 การเสิร์ฟแบบแยก context/generation ช่วยเพิ่มประสิทธิภาพในงาน LLM แบบ interactive
    Intel Arc Pro B60 แม้จะช้ากว่า แต่มีจุดเด่นด้านความคุ้มค่าและการใช้งานในระบบขนาดเล็ก

    https://wccftech.com/mlperf-v5-1-ai-inference-benchmark-showdown-nvidia-blackwell-ultra-gb300-amd-instinct-mi355x/
    ⚙️ “ศึกชิป AI ระดับโลก! NVIDIA Blackwell Ultra GB300 ปะทะ AMD Instinct MI355X ใน MLPerf v5.1 — เร็วขึ้น ฉลาดขึ้น และร้อนแรงกว่าเดิม” ในโลกของ AI ที่แข่งขันกันด้วยความเร็วและประสิทธิภาพ ชิปประมวลผลคือหัวใจของทุกระบบ และในรอบล่าสุดของการทดสอบ MLPerf v5.1 ซึ่งเป็นมาตรฐานระดับโลกสำหรับการวัดประสิทธิภาพการประมวลผล AI — NVIDIA และ AMD ต่างก็ส่งชิปเรือธงของตนเข้าประลองกันแบบไม่มีใครยอมใคร NVIDIA เปิดตัว Blackwell Ultra GB300 ซึ่งเป็นรุ่นอัปเกรดจาก GB200 โดยสามารถทำความเร็วได้สูงขึ้นถึง 45% ในงาน DeepSeek R1 (Offline) เมื่อใช้ 72 GPU และ 44% เมื่อใช้ 8 GPU ส่วนในโหมด Server ก็ยังเร็วขึ้นถึง 25% และ 21% ตามลำดับ1 ถือเป็นการทำตามสัญญาที่เคยประกาศไว้ว่า Blackwell Ultra จะเร็วขึ้นประมาณ 50% ฝั่ง AMD ก็ไม่น้อยหน้า ส่ง Instinct MI355X เข้าร่วมการทดสอบ โดยในงาน Llama 3.1 405B (Offline) พบว่าทำความเร็วได้สูงกว่า GB200 ถึง 27% และในงาน Llama 2 70B (Offline) MI355X สามารถสร้าง token ได้ถึง 648,248 ต่อวินาทีในระบบ 64 ชิป และ 93,045 ในระบบ 8 ชิป — เร็วกว่า GB200 ถึง 2 เท่า NVIDIA ยังโชว์พลังของ GB300 ด้วยการทำลายสถิติในหลายหมวด เช่น Stable Diffusion XL, Whisper, Mixtral และ DLRMv2 โดยใช้เทคนิคใหม่อย่าง NVFP4 ซึ่งเป็นฟอร์แมต 4-bit floating point ที่ออกแบบมาเฉพาะสำหรับงาน AI reasoning พร้อมระบบเสิร์ฟแบบแยก context และ generation เพื่อเพิ่ม throughput สูงสุด การทดสอบครั้งนี้ยังมี Intel Arc Pro B60 เข้าร่วมด้วย แม้จะไม่เร็วเท่าชิประดับ datacenter แต่ก็มีจุดเด่นด้านความคุ้มค่าและการใช้งานในระบบขนาดเล็ก — สะท้อนว่าการแข่งขันไม่ได้มีแค่เรื่องความเร็ว แต่ยังรวมถึงการออกแบบที่ตอบโจทย์การใช้งานจริง ✅ ผลการทดสอบ MLPerf v5.1 ➡️ GB300 เร็วกว่า GB200 ถึง 45% ใน DeepSeek R1 (Offline) และ 25% ใน Server ➡️ MI355X เร็วกว่า GB200 ถึง 27% ใน Llama 3.1 405B และ 2.09x ใน Llama 2 70B ➡️ GB300 ทำลายสถิติในหลายหมวด เช่น Whisper, Mixtral, DLRMv2 และ Stable Diffusion XL ➡️ ใช้เทคนิค NVFP4 และระบบเสิร์ฟแบบแยก context/generation เพื่อเพิ่ม throughput ✅ จุดเด่นของ Blackwell Ultra GB300 ➡️ มี 1.5x NVFP4 compute และ 2x attention-layer acceleration เมื่อเทียบกับ Blackwell รุ่นก่อน ➡️ ใช้ HBM3e สูงสุด 288GB ต่อ GPU ➡️ ทำความเร็ว reasoning ได้สูงกว่า Hopper ถึง 4.7x ใน Offline และ 5.2x ใน Server1 ➡️ ถือครองสถิติ per-GPU ในทุกหมวดของ MLPerf datacenter benchmark ✅ จุดเด่นของ AMD Instinct MI355X ➡️ ทำ token generation ได้สูงสุด 648,248 ต่อวินาทีในระบบ 64 ชิป ➡️ เร็วกว่า GB200 ถึง 2 เท่าในระบบ 8 ชิป ➡️ เหมาะกับงาน LLM ขนาดใหญ่ เช่น Llama 2 และ Llama 3.1 ➡️ มีการปรับปรุงด้าน memory bandwidth และการจัดการพลังงาน ✅ ข้อมูลเสริมจากภายนอก ➡️ MLPerf v5.1 มีผู้เข้าร่วมมากถึง 27 ราย และเพิ่ม benchmark ใหม่ 3 รายการ ได้แก่ DeepSeek-R1, Llama 3.1 8B และ Whisper Large V3 ➡️ NVIDIA ใช้ TensorRT-LLM และ Model Optimizer เพื่อปรับแต่งโมเดลให้ทำงานกับ NVFP4 ได้อย่างแม่นยำ2 ➡️ การเสิร์ฟแบบแยก context/generation ช่วยเพิ่มประสิทธิภาพในงาน LLM แบบ interactive ➡️ Intel Arc Pro B60 แม้จะช้ากว่า แต่มีจุดเด่นด้านความคุ้มค่าและการใช้งานในระบบขนาดเล็ก https://wccftech.com/mlperf-v5-1-ai-inference-benchmark-showdown-nvidia-blackwell-ultra-gb300-amd-instinct-mi355x/
    WCCFTECH.COM
    MLPerf v5.1 AI Inference Benchmark Showdown: NVIDIA Blackwell Ultra GB300 & AMD Instinct MI355X In The Spotlight
    NVIDIA's Blackwell Ultra GB300 & AMD's Instinct MI355X have finally appeared in the latest MLPerf v3.1 AI inference benchmarks.
    0 ความคิดเห็น 0 การแบ่งปัน 172 มุมมอง 0 รีวิว
  • เรื่องเล่าจาก Youtu-Agent ถึง Coze Studio: เมื่อจีนไม่รอใคร และกำลังสร้างระบบนิเวศของ AI agentic tools

    ในช่วงครึ่งหลังของปี 2025 จีนเริ่มเปิดตัวชุดเครื่องมือสร้าง AI agent แบบโอเพ่นซอร์สอย่างต่อเนื่อง โดยมี Tencent, ByteDance และ Alibaba เป็นหัวหอกหลักในการผลักดัน “agentic frameworks”—ซอฟต์แวร์ที่ช่วยให้ผู้ใช้สามารถสร้างและจัดการ AI agents ที่ทำงานอัตโนมัติได้

    ล่าสุด Tencent เปิดตัว Youtu-Agent บน GitHub ซึ่งเป็นเฟรมเวิร์กที่พัฒนาโดย Youtu Labs และใช้โมเดล DeepSeek-V3.1 เป็นฐาน โดยสามารถทำคะแนนได้ถึง 71.47% บน WebWalkerQA ซึ่งเป็น benchmark สำหรับการเดินทางในเว็บแบบอัตโนมัติ

    ก่อนหน้านี้ ByteDance ได้เปิดตัว Coze Studio ในเดือนกรกฎาคม และ Alibaba เปิดตัว Qwen-Agent ในเดือนมีนาคม โดยทั้งสองเฟรมเวิร์กได้รับดาวบน GitHub มากกว่า 10,000 ดวงแล้ว ถือเป็นสัญญาณว่าเครื่องมือจากจีนเริ่มได้รับความนิยมในระดับโลก แม้จะยังตามหลัง LangChain ที่มีมากกว่า 115,000 ดาวอยู่มาก

    สิ่งที่ทำให้ Youtu-Agent น่าสนใจคือการใช้ YAML (Yet Another Markup Language) แทนการเขียนโค้ด เพื่อกำหนดพฤติกรรมของเอเจนต์ และมี “meta-agent” ที่สามารถพูดคุยกับผู้ใช้เพื่อสร้าง YAML ให้โดยอัตโนมัติ—ลดภาระของนักพัฒนา และเปิดโอกาสให้ผู้เริ่มต้นสามารถสร้างเอเจนต์ได้ง่ายขึ้น

    Tencent ยังเปิดตัวโมเดลแปลภาษาแบบโอเพ่นซอร์สที่ชนะการแข่งขันระดับโลก และปล่อยเวอร์ชันย่อยของโมเดล Hunyuan ที่สามารถรันบน GPU ระดับ consumer ได้ ซึ่งสะท้อนถึงแนวทาง “ประชาธิปไตยของ AI” ที่จีนกำลังผลักดัน

    การเปิดตัว agentic frameworks จากจีน
    Tencent เปิดตัว Youtu-Agent บน GitHub โดยใช้ DeepSeek-V3.1
    ByteDance เปิดตัว Coze Studio ในเดือนกรกฎาคม
    Alibaba เปิดตัว Qwen-Agent ในเดือนมีนาคม

    ความสามารถของ Youtu-Agent
    ทำคะแนน 71.47% บน WebWalkerQA benchmark
    ใช้ YAML ในการกำหนดพฤติกรรมของเอเจนต์
    มี meta-agent ที่ช่วยสร้าง YAML โดยอัตโนมัติ

    ความนิยมและการเปรียบเทียบ
    Coze Studio และ Qwen-Agent มีดาวบน GitHub มากกว่า 10,000 ดวง
    LangChain จากสหรัฐฯ มีมากกว่า 115,000 ดาว
    IBM จัดอันดับว่าเฟรมเวิร์กยอดนิยมยังเป็นของฝั่งสหรัฐฯ เช่น AutoGen, CrewAI

    การขยาย ecosystem ของ Tencent
    เปิดตัวโมเดลแปลภาษาที่ชนะการแข่งขันระดับโลก
    ปล่อยเวอร์ชันย่อยของ Hunyuan ที่รันบน GPU ระดับ consumer
    เปิดตัวเอเจนต์เฉพาะทางสำหรับงาน coding และ marketing ในงาน WAIC

    https://www.thestar.com.my/tech/tech-news/2025/09/05/china-advances-in-ai-agentic-tools-as-tencent-bytedance-weigh-in
    🎙️ เรื่องเล่าจาก Youtu-Agent ถึง Coze Studio: เมื่อจีนไม่รอใคร และกำลังสร้างระบบนิเวศของ AI agentic tools ในช่วงครึ่งหลังของปี 2025 จีนเริ่มเปิดตัวชุดเครื่องมือสร้าง AI agent แบบโอเพ่นซอร์สอย่างต่อเนื่อง โดยมี Tencent, ByteDance และ Alibaba เป็นหัวหอกหลักในการผลักดัน “agentic frameworks”—ซอฟต์แวร์ที่ช่วยให้ผู้ใช้สามารถสร้างและจัดการ AI agents ที่ทำงานอัตโนมัติได้ ล่าสุด Tencent เปิดตัว Youtu-Agent บน GitHub ซึ่งเป็นเฟรมเวิร์กที่พัฒนาโดย Youtu Labs และใช้โมเดล DeepSeek-V3.1 เป็นฐาน โดยสามารถทำคะแนนได้ถึง 71.47% บน WebWalkerQA ซึ่งเป็น benchmark สำหรับการเดินทางในเว็บแบบอัตโนมัติ ก่อนหน้านี้ ByteDance ได้เปิดตัว Coze Studio ในเดือนกรกฎาคม และ Alibaba เปิดตัว Qwen-Agent ในเดือนมีนาคม โดยทั้งสองเฟรมเวิร์กได้รับดาวบน GitHub มากกว่า 10,000 ดวงแล้ว ถือเป็นสัญญาณว่าเครื่องมือจากจีนเริ่มได้รับความนิยมในระดับโลก แม้จะยังตามหลัง LangChain ที่มีมากกว่า 115,000 ดาวอยู่มาก สิ่งที่ทำให้ Youtu-Agent น่าสนใจคือการใช้ YAML (Yet Another Markup Language) แทนการเขียนโค้ด เพื่อกำหนดพฤติกรรมของเอเจนต์ และมี “meta-agent” ที่สามารถพูดคุยกับผู้ใช้เพื่อสร้าง YAML ให้โดยอัตโนมัติ—ลดภาระของนักพัฒนา และเปิดโอกาสให้ผู้เริ่มต้นสามารถสร้างเอเจนต์ได้ง่ายขึ้น Tencent ยังเปิดตัวโมเดลแปลภาษาแบบโอเพ่นซอร์สที่ชนะการแข่งขันระดับโลก และปล่อยเวอร์ชันย่อยของโมเดล Hunyuan ที่สามารถรันบน GPU ระดับ consumer ได้ ซึ่งสะท้อนถึงแนวทาง “ประชาธิปไตยของ AI” ที่จีนกำลังผลักดัน ✅ การเปิดตัว agentic frameworks จากจีน ➡️ Tencent เปิดตัว Youtu-Agent บน GitHub โดยใช้ DeepSeek-V3.1 ➡️ ByteDance เปิดตัว Coze Studio ในเดือนกรกฎาคม ➡️ Alibaba เปิดตัว Qwen-Agent ในเดือนมีนาคม ✅ ความสามารถของ Youtu-Agent ➡️ ทำคะแนน 71.47% บน WebWalkerQA benchmark ➡️ ใช้ YAML ในการกำหนดพฤติกรรมของเอเจนต์ ➡️ มี meta-agent ที่ช่วยสร้าง YAML โดยอัตโนมัติ ✅ ความนิยมและการเปรียบเทียบ ➡️ Coze Studio และ Qwen-Agent มีดาวบน GitHub มากกว่า 10,000 ดวง ➡️ LangChain จากสหรัฐฯ มีมากกว่า 115,000 ดาว ➡️ IBM จัดอันดับว่าเฟรมเวิร์กยอดนิยมยังเป็นของฝั่งสหรัฐฯ เช่น AutoGen, CrewAI ✅ การขยาย ecosystem ของ Tencent ➡️ เปิดตัวโมเดลแปลภาษาที่ชนะการแข่งขันระดับโลก ➡️ ปล่อยเวอร์ชันย่อยของ Hunyuan ที่รันบน GPU ระดับ consumer ➡️ เปิดตัวเอเจนต์เฉพาะทางสำหรับงาน coding และ marketing ในงาน WAIC https://www.thestar.com.my/tech/tech-news/2025/09/05/china-advances-in-ai-agentic-tools-as-tencent-bytedance-weigh-in
    WWW.THESTAR.COM.MY
    China advances in AI agentic tools as Tencent, ByteDance weigh in
    Tencent is the latest to join the fray after the Shenzhen-based company open-sourced its new Youtu-Agent agentic framework on Tuesday.
    0 ความคิดเห็น 0 การแบ่งปัน 266 มุมมอง 0 รีวิว
  • เรื่องเล่าจากบัตรเครดิตที่พูดได้: เมื่อ Alibaba เปลี่ยนเครื่องบันทึกเสียงให้กลายเป็นผู้ช่วยอัจฉริยะ

    ในงานครบรอบ 10 ปีของ DingTalk เมื่อปลายเดือนสิงหาคม 2025 Alibaba เปิดตัว DingTalk A1 ซึ่งเป็นเครื่องบันทึกเสียงขนาดเท่าบัตรเครดิตที่อัดแน่นด้วยความสามารถด้าน AI โดยใช้โมเดลจาก Tongyi AI Lab ที่เทรนด้วยเสียงกว่า 100 ล้านชั่วโมง ทำให้สามารถเข้าใจได้มากกว่า 100 ภาษาและ 30 สำเนียงจีน รวมถึงศัพท์เฉพาะจากกว่า 200 อุตสาหกรรม

    A1 ไม่ได้แค่บันทึกเสียง แต่สามารถสรุปประชุม, แปลภาษาแบบเรียลไทม์, วิเคราะห์เนื้อหา และสร้างเอกสารในรูปแบบต่าง ๆ เช่น minutes, to-do list หรือแม้แต่ mindmap โดยไม่ต้องพึ่งมนุษย์เลยแม้แต่นิดเดียว

    เมื่อเปรียบเทียบกับคู่แข่งอย่าง Plaud Note Pro (US$179) และ Mobvoi TicNote (US$159.99) แล้ว DingTalk A1 มีราคาถูกกว่าอย่างเห็นได้ชัดที่ 499–799 หยวน (US$69.98–111.8) และยังมีฟีเจอร์ที่โดดเด่น เช่น OLED สี, USB-C, การเชื่อมต่อกับแอป DingTalk โดยตรง และการรองรับโมเดล AI ชั้นนำจากจีน เช่น Qwen3-235B, DeepSeek-V3

    ตลาด AI hardware ในจีนกำลังเติบโตอย่างรวดเร็ว โดยคาดว่าจะมีมูลค่าถึง 1.1 ล้านล้านหยวนในปีนี้ และเพิ่มเป็น 2.5 ล้านล้านภายในปี 2030 ซึ่งเป็นผลจากนโยบายสนับสนุนของรัฐบาล, การพึ่งพาเทคโนโลยีภายในประเทศ และการนำ AI ไปใช้ในอุตสาหกรรมแบบกว้างขวาง

    การเปิดตัว DingTalk A1
    เปิดตัวในงานครบรอบ 10 ปีของ DingTalk
    ขนาดเท่าบัตรเครดิต หนาเพียง 3.8 มม. น้ำหนัก ~40 กรัม
    มี OLED สี, USB-C, รองรับการสรุป, แปล, วิเคราะห์, สร้าง mindmap

    ความสามารถด้าน AI
    เทรนด้วยเสียงกว่า 100 ล้านชั่วโมงจาก Tongyi AI Lab
    รองรับมากกว่า 100 ภาษา, 30 สำเนียงจีน, และศัพท์เฉพาะจาก 200 อุตสาหกรรม
    ใช้โมเดล AI ชั้นนำ เช่น Qwen, DeepSeek, QwQ-plus

    การเปรียบเทียบกับคู่แข่ง
    Plaud Note Pro ราคา US$179, ใช้ GPT-4.1, Claude 4, Gemini 2.5
    TicNote ราคา US$159.99, ใช้ DeepSeek-V3, Kimi-k2, รองรับ mindmap และ insight
    DingTalk A1 ถูกกว่า, เชื่อมกับแอป DingTalk โดยตรง, ไม่ต้องติดตั้งแยก

    แนวโน้มตลาด AI hardware ในจีน
    มูลค่าตลาดปี 2025 อยู่ที่ 1.1 ล้านล้านหยวน
    คาดว่าจะเพิ่มเป็น 2.5 ล้านล้านหยวนภายในปี 2030
    การเติบโตมาจากนโยบายรัฐ, การพึ่งพาเทคโนโลยีในประเทศ, และการนำ AI ไปใช้ในอุตสาหกรรมต่าง ๆ

    https://www.thestar.com.my/tech/tech-news/2025/09/04/chinas-latest-ai-gadget-is-a-credit-card-sized-recorder-from-alibabas-dingtalk
    🎙️ เรื่องเล่าจากบัตรเครดิตที่พูดได้: เมื่อ Alibaba เปลี่ยนเครื่องบันทึกเสียงให้กลายเป็นผู้ช่วยอัจฉริยะ ในงานครบรอบ 10 ปีของ DingTalk เมื่อปลายเดือนสิงหาคม 2025 Alibaba เปิดตัว DingTalk A1 ซึ่งเป็นเครื่องบันทึกเสียงขนาดเท่าบัตรเครดิตที่อัดแน่นด้วยความสามารถด้าน AI โดยใช้โมเดลจาก Tongyi AI Lab ที่เทรนด้วยเสียงกว่า 100 ล้านชั่วโมง ทำให้สามารถเข้าใจได้มากกว่า 100 ภาษาและ 30 สำเนียงจีน รวมถึงศัพท์เฉพาะจากกว่า 200 อุตสาหกรรม A1 ไม่ได้แค่บันทึกเสียง แต่สามารถสรุปประชุม, แปลภาษาแบบเรียลไทม์, วิเคราะห์เนื้อหา และสร้างเอกสารในรูปแบบต่าง ๆ เช่น minutes, to-do list หรือแม้แต่ mindmap โดยไม่ต้องพึ่งมนุษย์เลยแม้แต่นิดเดียว เมื่อเปรียบเทียบกับคู่แข่งอย่าง Plaud Note Pro (US$179) และ Mobvoi TicNote (US$159.99) แล้ว DingTalk A1 มีราคาถูกกว่าอย่างเห็นได้ชัดที่ 499–799 หยวน (US$69.98–111.8) และยังมีฟีเจอร์ที่โดดเด่น เช่น OLED สี, USB-C, การเชื่อมต่อกับแอป DingTalk โดยตรง และการรองรับโมเดล AI ชั้นนำจากจีน เช่น Qwen3-235B, DeepSeek-V3 ตลาด AI hardware ในจีนกำลังเติบโตอย่างรวดเร็ว โดยคาดว่าจะมีมูลค่าถึง 1.1 ล้านล้านหยวนในปีนี้ และเพิ่มเป็น 2.5 ล้านล้านภายในปี 2030 ซึ่งเป็นผลจากนโยบายสนับสนุนของรัฐบาล, การพึ่งพาเทคโนโลยีภายในประเทศ และการนำ AI ไปใช้ในอุตสาหกรรมแบบกว้างขวาง ✅ การเปิดตัว DingTalk A1 ➡️ เปิดตัวในงานครบรอบ 10 ปีของ DingTalk ➡️ ขนาดเท่าบัตรเครดิต หนาเพียง 3.8 มม. น้ำหนัก ~40 กรัม ➡️ มี OLED สี, USB-C, รองรับการสรุป, แปล, วิเคราะห์, สร้าง mindmap ✅ ความสามารถด้าน AI ➡️ เทรนด้วยเสียงกว่า 100 ล้านชั่วโมงจาก Tongyi AI Lab ➡️ รองรับมากกว่า 100 ภาษา, 30 สำเนียงจีน, และศัพท์เฉพาะจาก 200 อุตสาหกรรม ➡️ ใช้โมเดล AI ชั้นนำ เช่น Qwen, DeepSeek, QwQ-plus ✅ การเปรียบเทียบกับคู่แข่ง ➡️ Plaud Note Pro ราคา US$179, ใช้ GPT-4.1, Claude 4, Gemini 2.5 ➡️ TicNote ราคา US$159.99, ใช้ DeepSeek-V3, Kimi-k2, รองรับ mindmap และ insight ➡️ DingTalk A1 ถูกกว่า, เชื่อมกับแอป DingTalk โดยตรง, ไม่ต้องติดตั้งแยก ✅ แนวโน้มตลาด AI hardware ในจีน ➡️ มูลค่าตลาดปี 2025 อยู่ที่ 1.1 ล้านล้านหยวน ➡️ คาดว่าจะเพิ่มเป็น 2.5 ล้านล้านหยวนภายในปี 2030 ➡️ การเติบโตมาจากนโยบายรัฐ, การพึ่งพาเทคโนโลยีในประเทศ, และการนำ AI ไปใช้ในอุตสาหกรรมต่าง ๆ https://www.thestar.com.my/tech/tech-news/2025/09/04/chinas-latest-ai-gadget-is-a-credit-card-sized-recorder-from-alibabas-dingtalk
    WWW.THESTAR.COM.MY
    China’s latest AI gadget is a credit card-sized recorder from Alibaba’s DingTalk
    Transcription capability developed with Alibaba's Tongyi AI lab, using over 100 million hours of audio content for training.
    0 ความคิดเห็น 0 การแบ่งปัน 235 มุมมอง 0 รีวิว
  • เรื่องเล่าจาก SGLang: เมื่อ DeepSeek ถูกเสิร์ฟด้วยศิลปะของการแยกงานและแบ่งผู้เชี่ยวชาญ

    DeepSeek เป็นโมเดล LLM ที่ทรงพลังและซับซ้อน ด้วยสถาปัตยกรรมที่ใช้ Multi-head Latent Attention (MLA) และ Mixture of Experts (MoE) ซึ่งทำให้การรัน inference แบบ real-time กลายเป็นความท้าทายระดับสูง แต่ทีม SGLang ได้โชว์ว่า ถ้าออกแบบระบบดีพอ ก็สามารถรัน DeepSeek-V3 บน 96 H100 GPUs ได้อย่างมีประสิทธิภาพสูงสุด

    หัวใจของความสำเร็จนี้คือการใช้เทคนิค PD Disaggregation (แยกงานระหว่าง prefill และ decode) ร่วมกับ Expert Parallelism (EP) ที่ปรับแต่งอย่างละเอียดผ่าน DeepEP, DeepGEMM และ EPLB เพื่อให้การจัดการ memory, communication และ workload balance เป็นไปอย่างไร้รอยต่อ

    ผลลัพธ์คือ throughput สูงถึง 52.3k input tokens/sec และ 22.3k output tokens/sec ต่อ node ซึ่งใกล้เคียงกับระบบ production ของ DeepSeek เอง แต่ใช้ต้นทุนเพียง 20% ของ API ทางการ

    สถาปัตยกรรมการรัน DeepSeek บน SGLang
    ใช้ 12 nodes × 8 H100 GPUs รวม 96 GPUs
    throughput สูงถึง 52.3k input และ 22.3k output tokens/sec ต่อ node
    ต้นทุน inference อยู่ที่ ~$0.20 ต่อ 1M output tokens

    เทคนิค Prefill-Decode Disaggregation (PD)
    แยกการรัน prefill และ decode ออกจากกันเพื่อเพิ่มประสิทธิภาพ
    ลดปัญหา prefill interrupt และ latency จากการจัด batch แบบรวม
    รองรับ dispatch mode ที่ต่างกันสำหรับแต่ละ phase

    Expert Parallelism (EP) ด้วย DeepEP
    ใช้ normal dispatch สำหรับ prefill และ low-latency dispatch สำหรับ decode
    รองรับ auto mode ที่เลือก dispatch ตาม workload
    ลด latency และเพิ่ม throughput โดยใช้ expert routing ที่ปรับแต่งได้

    DeepGEMM สำหรับ MoE computation
    ใช้ Grouped GEMMs แบบ contiguous และ masked layout
    รองรับ CUDA Graph สำหรับ decode phase
    ใช้ Triton kernel เพื่อจัดเรียงข้อมูลให้เหมาะกับ GEMM kernel

    Two-Batch Overlap (TBO)
    แบ่ง batch เป็นสองส่วนเพื่อให้ computation และ communication overlap
    เพิ่ม throughput ได้ถึง 35% และลด peak memory usage
    ใช้ abstraction layer เพื่อจัดการ micro-batch อย่างสะอาดและ maintainable

    Expert Parallelism Load Balancer (EPLB)
    ใช้ expert redundancy เพื่อจัดวาง expert ให้สมดุล
    รองรับ parallelism size ที่ไม่จำกัดแค่ power-of-two เช่น 12 หรือ 72
    เพิ่ม utilization rate และลดการรอ GPU ที่ช้า

    Toolkits เสริมใน SGLang
    DisposableTensor สำหรับจัดการ memory ใน PyTorch โดยตรง
    Expert workload simulator เพื่อประเมิน performance ก่อน deploy จริง
    รองรับการ rebalancing แบบ staged เพื่อไม่ให้รบกวนระบบขณะทำงาน

    https://lmsys.org/blog/2025-05-05-large-scale-ep/
    🎙️ เรื่องเล่าจาก SGLang: เมื่อ DeepSeek ถูกเสิร์ฟด้วยศิลปะของการแยกงานและแบ่งผู้เชี่ยวชาญ DeepSeek เป็นโมเดล LLM ที่ทรงพลังและซับซ้อน ด้วยสถาปัตยกรรมที่ใช้ Multi-head Latent Attention (MLA) และ Mixture of Experts (MoE) ซึ่งทำให้การรัน inference แบบ real-time กลายเป็นความท้าทายระดับสูง แต่ทีม SGLang ได้โชว์ว่า ถ้าออกแบบระบบดีพอ ก็สามารถรัน DeepSeek-V3 บน 96 H100 GPUs ได้อย่างมีประสิทธิภาพสูงสุด หัวใจของความสำเร็จนี้คือการใช้เทคนิค PD Disaggregation (แยกงานระหว่าง prefill และ decode) ร่วมกับ Expert Parallelism (EP) ที่ปรับแต่งอย่างละเอียดผ่าน DeepEP, DeepGEMM และ EPLB เพื่อให้การจัดการ memory, communication และ workload balance เป็นไปอย่างไร้รอยต่อ ผลลัพธ์คือ throughput สูงถึง 52.3k input tokens/sec และ 22.3k output tokens/sec ต่อ node ซึ่งใกล้เคียงกับระบบ production ของ DeepSeek เอง แต่ใช้ต้นทุนเพียง 20% ของ API ทางการ ✅ สถาปัตยกรรมการรัน DeepSeek บน SGLang ➡️ ใช้ 12 nodes × 8 H100 GPUs รวม 96 GPUs ➡️ throughput สูงถึง 52.3k input และ 22.3k output tokens/sec ต่อ node ➡️ ต้นทุน inference อยู่ที่ ~$0.20 ต่อ 1M output tokens ✅ เทคนิค Prefill-Decode Disaggregation (PD) ➡️ แยกการรัน prefill และ decode ออกจากกันเพื่อเพิ่มประสิทธิภาพ ➡️ ลดปัญหา prefill interrupt และ latency จากการจัด batch แบบรวม ➡️ รองรับ dispatch mode ที่ต่างกันสำหรับแต่ละ phase ✅ Expert Parallelism (EP) ด้วย DeepEP ➡️ ใช้ normal dispatch สำหรับ prefill และ low-latency dispatch สำหรับ decode ➡️ รองรับ auto mode ที่เลือก dispatch ตาม workload ➡️ ลด latency และเพิ่ม throughput โดยใช้ expert routing ที่ปรับแต่งได้ ✅ DeepGEMM สำหรับ MoE computation ➡️ ใช้ Grouped GEMMs แบบ contiguous และ masked layout ➡️ รองรับ CUDA Graph สำหรับ decode phase ➡️ ใช้ Triton kernel เพื่อจัดเรียงข้อมูลให้เหมาะกับ GEMM kernel ✅ Two-Batch Overlap (TBO) ➡️ แบ่ง batch เป็นสองส่วนเพื่อให้ computation และ communication overlap ➡️ เพิ่ม throughput ได้ถึง 35% และลด peak memory usage ➡️ ใช้ abstraction layer เพื่อจัดการ micro-batch อย่างสะอาดและ maintainable ✅ Expert Parallelism Load Balancer (EPLB) ➡️ ใช้ expert redundancy เพื่อจัดวาง expert ให้สมดุล ➡️ รองรับ parallelism size ที่ไม่จำกัดแค่ power-of-two เช่น 12 หรือ 72 ➡️ เพิ่ม utilization rate และลดการรอ GPU ที่ช้า ✅ Toolkits เสริมใน SGLang ➡️ DisposableTensor สำหรับจัดการ memory ใน PyTorch โดยตรง ➡️ Expert workload simulator เพื่อประเมิน performance ก่อน deploy จริง ➡️ รองรับการ rebalancing แบบ staged เพื่อไม่ให้รบกวนระบบขณะทำงาน https://lmsys.org/blog/2025-05-05-large-scale-ep/
    LMSYS.ORG
    Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs | LMSYS Org
    DeepSeek is a popular open-source large language model (LLM) praised for its strong performance. However, its large size and unique architecture, which us...
    0 ความคิดเห็น 0 การแบ่งปัน 215 มุมมอง 0 รีวิว
  • เรื่องเล่าจากเบื้องหลัง AI: ต้นทุนจริงของการรันโมเดลใหญ่

    ช่วงนี้มีเสียงลือกันหนาหูว่า AI โดยเฉพาะการ “รัน inference” คือเครื่องเผาเงินชั้นดี หลายคนเชื่อว่าบริษัทอย่าง OpenAI และ Anthropic กำลังขาดทุนยับเยินจากการให้บริการโมเดลขนาดใหญ่ แต่บทความนี้พาเราไปเจาะลึกแบบ “napkin math” หรือคำนวณคร่าว ๆ จากหลักการพื้นฐาน เพื่อหาคำตอบว่าเรื่องนี้จริงแค่ไหน

    ผู้เขียนใช้ DeepSeek R1 เป็นโมเดลตัวอย่าง ซึ่งมี 671 พารามิเตอร์ทั้งหมด แต่ใช้แค่ 37B ผ่านเทคนิค mixture of experts (MoE) ที่ช่วยลดต้นทุนได้มาก โดยใช้ GPU H100 จำนวน 72 ตัว คิดราคาที่ $2 ต่อชั่วโมงต่อ GPU ซึ่งสูงกว่าราคาจริงในตลาดเสียอีก

    สิ่งที่น่าสนใจคือ “ต้นทุนของ input tokens” กับ “output tokens” ต่างกันมหาศาล! การประมวลผล input tokens สามารถทำได้แบบขนานและเร็วมาก ในขณะที่การสร้าง output tokens ต้องทำแบบลำดับทีละตัว ทำให้ต้นทุนสูงกว่าเป็นพันเท่า

    ยิ่งไปกว่านั้น การใช้งานจริงของผู้ใช้ เช่น นักพัฒนา หรือ power users กลับอยู่ในรูปแบบที่ใช้ input เยอะมาก แต่ output น้อย เช่น การส่งโค้ดทั้งไฟล์เพื่อให้ AI วิเคราะห์ แล้วให้มันตอบกลับแค่ไม่กี่บรรทัด ซึ่งเป็นรูปแบบที่ “คุ้มค่ามาก” สำหรับผู้ให้บริการ

    ต้นทุนการรัน inference ของโมเดล AI
    ใช้ GPU H100 จำนวน 72 ตัว คิดต้นทุน $144/ชั่วโมง
    input tokens ประมวลผลได้เร็วมากถึง ~46.8 พันล้าน tokens/ชั่วโมง
    output tokens สร้างได้เพียง ~46.7 ล้าน tokens/ชั่วโมง
    ต้นทุนต่อ input token อยู่ที่ ~$0.003 ต่อ 1 ล้าน tokens
    ต้นทุนต่อ output token สูงถึง ~$3 ต่อ 1 ล้าน tokens

    ความแตกต่างระหว่าง input และ output
    input สามารถประมวลผลแบบขนานได้
    output ต้องสร้างทีละ token ทำให้ช้ากว่าและแพงกว่า
    ความไม่สมมาตรนี้ทำให้บาง use case คุ้มค่ามาก เช่น coding assistant

    ตัวอย่างการใช้งานจริง
    ผู้ใช้ระดับนักพัฒนาใช้ input เยอะมาก เช่น โค้ดหลายไฟล์
    แต่ต้องการ output น้อย เช่น คำอธิบายหรือโค้ดสั้น ๆ
    ทำให้ต้นทุนจริงต่ำมากเมื่อเทียบกับราคาที่เรียกเก็บ

    โมเดลธุรกิจของ API
    ราคาขายต่อ 1 ล้าน tokens อยู่ที่ ~$3 สำหรับ output
    แต่ต้นทุนจริงอยู่ที่ ~$0.01 สำหรับ input และ ~$3 สำหรับ output
    ทำให้มี margin สูงถึง 80–95%

    ความเข้าใจผิดเกี่ยวกับต้นทุน AI
    หลายคนเชื่อว่า inference ขาดทุนเสมอ ซึ่งไม่จริงในหลายกรณี
    การพูดถึงต้นทุนสูงอาจเป็นกลยุทธ์ของผู้เล่นรายใหญ่เพื่อกันคู่แข่ง

    ความเสี่ยงจาก context ยาว
    เมื่อ context ยาวเกิน 128k tokens จะเปลี่ยนจาก memory-bound เป็น compute-bound
    ทำให้ต้นทุนเพิ่มขึ้น 2–10 เท่า
    บางโมเดลจึงจำกัด context window เพื่อควบคุมต้นทุน

    การตั้งราคาที่ไม่สอดคล้องกับมูลค่าจริง
    การคิดราคาตาม input อาจทำให้ผู้ใช้ลดรายละเอียดใน prompt
    การคิดราคาตาม output อาจทำให้ผู้ใช้รู้สึกว่าไม่คุ้มถ้าได้คำตอบสั้น

    https://martinalderson.com/posts/are-openai-and-anthropic-really-losing-money-on-inference/
    🎙️ เรื่องเล่าจากเบื้องหลัง AI: ต้นทุนจริงของการรันโมเดลใหญ่ ช่วงนี้มีเสียงลือกันหนาหูว่า AI โดยเฉพาะการ “รัน inference” คือเครื่องเผาเงินชั้นดี หลายคนเชื่อว่าบริษัทอย่าง OpenAI และ Anthropic กำลังขาดทุนยับเยินจากการให้บริการโมเดลขนาดใหญ่ แต่บทความนี้พาเราไปเจาะลึกแบบ “napkin math” หรือคำนวณคร่าว ๆ จากหลักการพื้นฐาน เพื่อหาคำตอบว่าเรื่องนี้จริงแค่ไหน ผู้เขียนใช้ DeepSeek R1 เป็นโมเดลตัวอย่าง ซึ่งมี 671 พารามิเตอร์ทั้งหมด แต่ใช้แค่ 37B ผ่านเทคนิค mixture of experts (MoE) ที่ช่วยลดต้นทุนได้มาก โดยใช้ GPU H100 จำนวน 72 ตัว คิดราคาที่ $2 ต่อชั่วโมงต่อ GPU ซึ่งสูงกว่าราคาจริงในตลาดเสียอีก สิ่งที่น่าสนใจคือ “ต้นทุนของ input tokens” กับ “output tokens” ต่างกันมหาศาล! การประมวลผล input tokens สามารถทำได้แบบขนานและเร็วมาก ในขณะที่การสร้าง output tokens ต้องทำแบบลำดับทีละตัว ทำให้ต้นทุนสูงกว่าเป็นพันเท่า ยิ่งไปกว่านั้น การใช้งานจริงของผู้ใช้ เช่น นักพัฒนา หรือ power users กลับอยู่ในรูปแบบที่ใช้ input เยอะมาก แต่ output น้อย เช่น การส่งโค้ดทั้งไฟล์เพื่อให้ AI วิเคราะห์ แล้วให้มันตอบกลับแค่ไม่กี่บรรทัด ซึ่งเป็นรูปแบบที่ “คุ้มค่ามาก” สำหรับผู้ให้บริการ ✅ ต้นทุนการรัน inference ของโมเดล AI ➡️ ใช้ GPU H100 จำนวน 72 ตัว คิดต้นทุน $144/ชั่วโมง ➡️ input tokens ประมวลผลได้เร็วมากถึง ~46.8 พันล้าน tokens/ชั่วโมง ➡️ output tokens สร้างได้เพียง ~46.7 ล้าน tokens/ชั่วโมง ➡️ ต้นทุนต่อ input token อยู่ที่ ~$0.003 ต่อ 1 ล้าน tokens ➡️ ต้นทุนต่อ output token สูงถึง ~$3 ต่อ 1 ล้าน tokens ✅ ความแตกต่างระหว่าง input และ output ➡️ input สามารถประมวลผลแบบขนานได้ ➡️ output ต้องสร้างทีละ token ทำให้ช้ากว่าและแพงกว่า ➡️ ความไม่สมมาตรนี้ทำให้บาง use case คุ้มค่ามาก เช่น coding assistant ✅ ตัวอย่างการใช้งานจริง ➡️ ผู้ใช้ระดับนักพัฒนาใช้ input เยอะมาก เช่น โค้ดหลายไฟล์ ➡️ แต่ต้องการ output น้อย เช่น คำอธิบายหรือโค้ดสั้น ๆ ➡️ ทำให้ต้นทุนจริงต่ำมากเมื่อเทียบกับราคาที่เรียกเก็บ ✅ โมเดลธุรกิจของ API ➡️ ราคาขายต่อ 1 ล้าน tokens อยู่ที่ ~$3 สำหรับ output ➡️ แต่ต้นทุนจริงอยู่ที่ ~$0.01 สำหรับ input และ ~$3 สำหรับ output ➡️ ทำให้มี margin สูงถึง 80–95% ‼️ ความเข้าใจผิดเกี่ยวกับต้นทุน AI ⛔ หลายคนเชื่อว่า inference ขาดทุนเสมอ ซึ่งไม่จริงในหลายกรณี ⛔ การพูดถึงต้นทุนสูงอาจเป็นกลยุทธ์ของผู้เล่นรายใหญ่เพื่อกันคู่แข่ง ‼️ ความเสี่ยงจาก context ยาว ⛔ เมื่อ context ยาวเกิน 128k tokens จะเปลี่ยนจาก memory-bound เป็น compute-bound ⛔ ทำให้ต้นทุนเพิ่มขึ้น 2–10 เท่า ⛔ บางโมเดลจึงจำกัด context window เพื่อควบคุมต้นทุน ‼️ การตั้งราคาที่ไม่สอดคล้องกับมูลค่าจริง ⛔ การคิดราคาตาม input อาจทำให้ผู้ใช้ลดรายละเอียดใน prompt ⛔ การคิดราคาตาม output อาจทำให้ผู้ใช้รู้สึกว่าไม่คุ้มถ้าได้คำตอบสั้น https://martinalderson.com/posts/are-openai-and-anthropic-really-losing-money-on-inference/
    MARTINALDERSON.COM
    Are OpenAI and Anthropic Really Losing Money on Inference?
    Deconstructing the real costs of running AI inference at scale. My napkin math suggests the economics might be far more profitable than commonly claimed.
    0 ความคิดเห็น 0 การแบ่งปัน 154 มุมมอง 0 รีวิว
  • GB10 Superchip – สมองกลระดับซูเปอร์คอมพิวเตอร์ในร่าง Mini PC

    ลองนึกภาพว่าคุณสามารถฝึกโมเดล AI ขนาด 200 พันล้านพารามิเตอร์ได้จากโต๊ะทำงานของคุณเอง โดยไม่ต้องพึ่งคลาวด์หรือเซิร์ฟเวอร์ขนาดใหญ่ นั่นคือสิ่งที่ NVIDIA พยายามทำให้เป็นจริงผ่าน DGX Spark ที่ใช้ GB10 Superchip ซึ่งรวม CPU และ GPU ไว้ในแพ็กเกจเดียวกันด้วยเทคโนโลยี 2.5D packaging บนสถาปัตยกรรม 3nm

    GB10 ประกอบด้วย 20 คอร์ ARM v9.2 แบ่งเป็น 2 กลุ่ม พร้อมแคช L2 ส่วนตัวและ L3 ขนาด 32MB รวม GPU Blackwell รุ่นใหม่ที่ให้พลังประมวลผล AI สูงถึง 1000 TOPS (FP4) และรองรับ DLSS 4 กับ Ray Tracing ในตัว

    หน่วยความจำ LPDDR5x แบบ Unified Memory Architecture (UMA) ขนาด 128GB ทำให้ CPU และ GPU เข้าถึงข้อมูลร่วมกันได้อย่างรวดเร็ว โดยมีแบนด์วิดท์รวมสูงถึง 600 GB/s ผ่าน NVLINK C2C

    DGX Spark ยังรองรับการเชื่อมต่อหลายเครื่องผ่าน ConnectX-7 NIC เพื่อขยายการประมวลผล AI ไปถึงโมเดลขนาด 405 พันล้านพารามิเตอร์ และสามารถใช้งานร่วมกับซอฟต์แวร์ AI เต็มรูปแบบของ NVIDIA เช่น CUDA, TensorRT, vLLM และ GR00T N1.5

    สรุปเนื้อหาเป็นหัวข้อ
    NVIDIA เปิดตัว GB10 Superchip ในงาน Hot Chips 2025 สำหรับ DGX Spark – AI PC ขนาดเล็ก
    ใช้เทคโนโลยี 3nm จาก TSMC และ 2.5D packaging รวม CPU และ GPU ในแพ็กเกจเดียว
    CPU มี 20 คอร์ ARM v9.2 พร้อมแคช L2 และ L3 รวม 32MB
    GPU ใช้สถาปัตยกรรม Blackwell พร้อม Tensor Core Gen 5 และ Ray Tracing
    ให้พลังประมวลผล AI สูงถึง 1000 TOPS (FP4) และ 31 TFLOPs (FP32)
    รองรับ LPDDR5x ความเร็ว 9400 MT/s ความจุสูงสุด 128GB แบบ UMA
    แบนด์วิดท์รวมของระบบสูงถึง 600 GB/s ผ่าน NVLINK C2C
    มี System Level Cache ขนาด 16MB สำหรับการแชร์ข้อมูลระหว่าง CPU และ GPU
    รองรับการเชื่อมต่อ PCIe Gen5, USB, Ethernet และแสดงผล 4K/8K ได้หลายจอ
    ระบบความปลอดภัยมี Dual Secure Root, fTPM และ discrete TPM
    TDP ของชิปอยู่ที่ 140W เหมาะกับการใช้งานบนโต๊ะทำงานทั่วไป
    DGX Spark สามารถเชื่อมต่อหลายเครื่องผ่าน ConnectX-7 เพื่อรองรับโมเดล AI ขนาดใหญ่
    รองรับการใช้งานร่วมกับโมเดล AI จาก Meta, Google, DeepSeek และ NVIDIA Cosmos

    ข้อมูลเสริมจากภายนอก
    DGX Spark เป็นการต่อยอดจาก Project DIGITS และใช้แพลตฟอร์มเดียวกับ DGX Cloud
    ขนาดเครื่องเล็กเพียง 150 x 150 x 50.5 มม. เหมาะกับการวางบนโต๊ะทำงาน
    NVIDIA เตรียมขยาย GB10 ไปสู่แพลตฟอร์มผู้บริโภค เช่น N1X และ N1 SoC สำหรับโน้ตบุ๊ก
    DGX Spark รองรับการใช้งานกับแพลตฟอร์ม Isaac, Metropolis และ Holoscan
    ใช้ ConnectX NIC ผ่าน PCIe Gen5 x8 เพื่อเชื่อมต่อหลายระบบแบบ low-latency

    https://wccftech.com/nvidia-gb10-superchip-soc-3nm-20-arm-v9-2-cpu-cores-nvfp4-blackwell-gpu-lpddr5x-9400-memory-140w-tdp/
    🧠 GB10 Superchip – สมองกลระดับซูเปอร์คอมพิวเตอร์ในร่าง Mini PC ลองนึกภาพว่าคุณสามารถฝึกโมเดล AI ขนาด 200 พันล้านพารามิเตอร์ได้จากโต๊ะทำงานของคุณเอง โดยไม่ต้องพึ่งคลาวด์หรือเซิร์ฟเวอร์ขนาดใหญ่ นั่นคือสิ่งที่ NVIDIA พยายามทำให้เป็นจริงผ่าน DGX Spark ที่ใช้ GB10 Superchip ซึ่งรวม CPU และ GPU ไว้ในแพ็กเกจเดียวกันด้วยเทคโนโลยี 2.5D packaging บนสถาปัตยกรรม 3nm GB10 ประกอบด้วย 20 คอร์ ARM v9.2 แบ่งเป็น 2 กลุ่ม พร้อมแคช L2 ส่วนตัวและ L3 ขนาด 32MB รวม GPU Blackwell รุ่นใหม่ที่ให้พลังประมวลผล AI สูงถึง 1000 TOPS (FP4) และรองรับ DLSS 4 กับ Ray Tracing ในตัว หน่วยความจำ LPDDR5x แบบ Unified Memory Architecture (UMA) ขนาด 128GB ทำให้ CPU และ GPU เข้าถึงข้อมูลร่วมกันได้อย่างรวดเร็ว โดยมีแบนด์วิดท์รวมสูงถึง 600 GB/s ผ่าน NVLINK C2C DGX Spark ยังรองรับการเชื่อมต่อหลายเครื่องผ่าน ConnectX-7 NIC เพื่อขยายการประมวลผล AI ไปถึงโมเดลขนาด 405 พันล้านพารามิเตอร์ และสามารถใช้งานร่วมกับซอฟต์แวร์ AI เต็มรูปแบบของ NVIDIA เช่น CUDA, TensorRT, vLLM และ GR00T N1.5 📌 สรุปเนื้อหาเป็นหัวข้อ ➡️ NVIDIA เปิดตัว GB10 Superchip ในงาน Hot Chips 2025 สำหรับ DGX Spark – AI PC ขนาดเล็ก ➡️ ใช้เทคโนโลยี 3nm จาก TSMC และ 2.5D packaging รวม CPU และ GPU ในแพ็กเกจเดียว ➡️ CPU มี 20 คอร์ ARM v9.2 พร้อมแคช L2 และ L3 รวม 32MB ➡️ GPU ใช้สถาปัตยกรรม Blackwell พร้อม Tensor Core Gen 5 และ Ray Tracing ➡️ ให้พลังประมวลผล AI สูงถึง 1000 TOPS (FP4) และ 31 TFLOPs (FP32) ➡️ รองรับ LPDDR5x ความเร็ว 9400 MT/s ความจุสูงสุด 128GB แบบ UMA ➡️ แบนด์วิดท์รวมของระบบสูงถึง 600 GB/s ผ่าน NVLINK C2C ➡️ มี System Level Cache ขนาด 16MB สำหรับการแชร์ข้อมูลระหว่าง CPU และ GPU ➡️ รองรับการเชื่อมต่อ PCIe Gen5, USB, Ethernet และแสดงผล 4K/8K ได้หลายจอ ➡️ ระบบความปลอดภัยมี Dual Secure Root, fTPM และ discrete TPM ➡️ TDP ของชิปอยู่ที่ 140W เหมาะกับการใช้งานบนโต๊ะทำงานทั่วไป ➡️ DGX Spark สามารถเชื่อมต่อหลายเครื่องผ่าน ConnectX-7 เพื่อรองรับโมเดล AI ขนาดใหญ่ ➡️ รองรับการใช้งานร่วมกับโมเดล AI จาก Meta, Google, DeepSeek และ NVIDIA Cosmos ✅ ข้อมูลเสริมจากภายนอก ➡️ DGX Spark เป็นการต่อยอดจาก Project DIGITS และใช้แพลตฟอร์มเดียวกับ DGX Cloud ➡️ ขนาดเครื่องเล็กเพียง 150 x 150 x 50.5 มม. เหมาะกับการวางบนโต๊ะทำงาน ➡️ NVIDIA เตรียมขยาย GB10 ไปสู่แพลตฟอร์มผู้บริโภค เช่น N1X และ N1 SoC สำหรับโน้ตบุ๊ก ➡️ DGX Spark รองรับการใช้งานกับแพลตฟอร์ม Isaac, Metropolis และ Holoscan ➡️ ใช้ ConnectX NIC ผ่าน PCIe Gen5 x8 เพื่อเชื่อมต่อหลายระบบแบบ low-latency https://wccftech.com/nvidia-gb10-superchip-soc-3nm-20-arm-v9-2-cpu-cores-nvfp4-blackwell-gpu-lpddr5x-9400-memory-140w-tdp/
    WCCFTECH.COM
    NVIDIA Dissects Its GB10 Superchip For DGX AI PCs: 3nm With 20 ARM v9.2 CPU Cores, 1000 TOPS NVFP4 Blackwell GPU, LPDDR5x-9400 Memory Support, 140W TDP
    NVIDIA has just detailed its GB10 Superchip with Blackwell GPU, which is being used to power several DGX AI Mini supercomputers.
    0 ความคิดเห็น 0 การแบ่งปัน 251 มุมมอง 0 รีวิว
  • เมื่อ Tesla ต้องปรับตัวเพื่ออยู่รอดในตลาดจีน ด้วย AI ที่พูดภาษาท้องถิ่น

    Tesla กำลังเผชิญกับการแข่งขันที่ดุเดือดในตลาดรถยนต์ไฟฟ้าจีน ซึ่งเต็มไปด้วยแบรนด์ท้องถิ่นที่ใส่เทคโนโลยีล้ำหน้าเข้าไปในรถอย่างไม่หยุดยั้ง เพื่อรับมือกับสถานการณ์นี้ Tesla จึงตัดสินใจเปลี่ยนกลยุทธ์ด้านซอฟต์แวร์ โดยนำโมเดล AI สัญชาติจีนอย่าง DeepSeek และ Doubao มาใช้ในระบบผู้ช่วยเสียงภายในรถยนต์

    Doubao ซึ่งพัฒนาโดย ByteDance จะรับหน้าที่ประมวลผลคำสั่งเสียง เช่น การนำทาง การควบคุมอุณหภูมิ และการเล่นเพลง ส่วน DeepSeek จะทำหน้าที่เป็นผู้ช่วยสนทนาอัจฉริยะที่สามารถตอบคำถามหลายขั้นตอนและเข้าใจบริบทได้ลึกขึ้น ทั้งสองโมเดลจะทำงานผ่านคลาวด์ของ Volcano Engine ซึ่งเป็นบริการของ ByteDance เช่นกัน

    การเปลี่ยนแปลงนี้เกิดขึ้นเพราะข้อจำกัดด้านกฎหมายของจีนที่ไม่อนุญาตให้ส่งข้อมูลผู้ใช้ไปยังเซิร์ฟเวอร์ต่างประเทศ ทำให้ Tesla ไม่สามารถใช้ Grok ซึ่งเป็นโมเดลของ xAI ที่ใช้ในสหรัฐฯ ได้

    นอกจากนี้ Tesla ยังเปิดตัว Model Y L รุ่นใหม่แบบ 6 ที่นั่งในจีน ซึ่งเป็นรุ่นแรกที่รองรับผู้ช่วยเสียงแบบ “Hey, Tesla” โดยไม่ต้องกดปุ่มบนพวงมาลัยเหมือนรุ่นก่อน ๆ

    การเคลื่อนไหวนี้สะท้อนถึงความจำเป็นที่ Tesla ต้องปรับตัวให้เข้ากับวัฒนธรรมเทคโนโลยีของจีน ซึ่งผู้ใช้คุ้นเคยกับระบบผู้ช่วยเสียงที่ตอบสนองได้รวดเร็วและเชื่อมโยงกับบริการท้องถิ่น เช่น แผนที่จีน แอปส่งอาหาร และระบบชำระเงิน

    สรุปเนื้อหาเป็นหัวข้อ
    Tesla เตรียมใช้ AI สัญชาติจีน DeepSeek และ Doubao ในรถยนต์ที่จำหน่ายในจีน
    Doubao รับหน้าที่ประมวลผลคำสั่งเสียง เช่น นำทาง เพลง อุณหภูมิ
    DeepSeek ทำหน้าที่สนทนาอัจฉริยะ ตอบคำถามหลายขั้นตอน
    ทั้งสองโมเดลทำงานผ่านคลาวด์ Volcano Engine ของ ByteDance
    Tesla ไม่สามารถใช้ Grok ในจีนเพราะข้อจำกัดด้านกฎหมายและการจัดการข้อมูล
    ผู้ใช้สามารถเรียกผู้ช่วยเสียงด้วยคำว่า “Hey, Tesla” หรือกำหนดเองได้
    Tesla เปิดตัว Model Y L รุ่นใหม่แบบ 6 ที่นั่งในจีน รองรับระบบ AI เต็มรูปแบบ
    การเปลี่ยนแปลงนี้เกิดจากการแข่งขันกับแบรนด์จีน เช่น BYD และ Geely
    BMW ก็ใช้โมเดล Qwen จาก Alibaba ในรถรุ่นใหม่ที่จำหน่ายในจีน
    ยังไม่มีการยืนยันว่า AI ทั้งสองถูกติดตั้งในรถทุกคันแล้ว

    ข้อมูลเสริมจากภายนอก
    DeepSeek ได้รับความนิยมในจีนหลังเปิดตัวรุ่น R1 และ V3.1 ที่มีความสามารถด้าน reasoning สูง
    ระบบผู้ช่วยเสียงในรถยนต์จีนสามารถเชื่อมต่อกับบริการท้องถิ่น เช่น Alipay, Meituan, Gaode Maps
    LLMs เช่น ChatGPT, Qwen, และ DeepSeek ถูกนำมาใช้ในรถยนต์มากขึ้นทั่วโลก
    การใช้ AI ในรถยนต์ช่วยเพิ่มความปลอดภัยและความสะดวกในการขับขี่
    การใช้โมเดลท้องถิ่นช่วยให้ตอบสนองต่อภาษาถิ่นและพฤติกรรมผู้ใช้ได้แม่นยำกว่าโมเดลสากล

    https://www.thestar.com.my/tech/tech-news/2025/08/22/tesla-to-integrate-deepseek-doubao-ai-voice-controls-in-china
    🎙️ เมื่อ Tesla ต้องปรับตัวเพื่ออยู่รอดในตลาดจีน ด้วย AI ที่พูดภาษาท้องถิ่น Tesla กำลังเผชิญกับการแข่งขันที่ดุเดือดในตลาดรถยนต์ไฟฟ้าจีน ซึ่งเต็มไปด้วยแบรนด์ท้องถิ่นที่ใส่เทคโนโลยีล้ำหน้าเข้าไปในรถอย่างไม่หยุดยั้ง เพื่อรับมือกับสถานการณ์นี้ Tesla จึงตัดสินใจเปลี่ยนกลยุทธ์ด้านซอฟต์แวร์ โดยนำโมเดล AI สัญชาติจีนอย่าง DeepSeek และ Doubao มาใช้ในระบบผู้ช่วยเสียงภายในรถยนต์ Doubao ซึ่งพัฒนาโดย ByteDance จะรับหน้าที่ประมวลผลคำสั่งเสียง เช่น การนำทาง การควบคุมอุณหภูมิ และการเล่นเพลง ส่วน DeepSeek จะทำหน้าที่เป็นผู้ช่วยสนทนาอัจฉริยะที่สามารถตอบคำถามหลายขั้นตอนและเข้าใจบริบทได้ลึกขึ้น ทั้งสองโมเดลจะทำงานผ่านคลาวด์ของ Volcano Engine ซึ่งเป็นบริการของ ByteDance เช่นกัน การเปลี่ยนแปลงนี้เกิดขึ้นเพราะข้อจำกัดด้านกฎหมายของจีนที่ไม่อนุญาตให้ส่งข้อมูลผู้ใช้ไปยังเซิร์ฟเวอร์ต่างประเทศ ทำให้ Tesla ไม่สามารถใช้ Grok ซึ่งเป็นโมเดลของ xAI ที่ใช้ในสหรัฐฯ ได้ นอกจากนี้ Tesla ยังเปิดตัว Model Y L รุ่นใหม่แบบ 6 ที่นั่งในจีน ซึ่งเป็นรุ่นแรกที่รองรับผู้ช่วยเสียงแบบ “Hey, Tesla” โดยไม่ต้องกดปุ่มบนพวงมาลัยเหมือนรุ่นก่อน ๆ การเคลื่อนไหวนี้สะท้อนถึงความจำเป็นที่ Tesla ต้องปรับตัวให้เข้ากับวัฒนธรรมเทคโนโลยีของจีน ซึ่งผู้ใช้คุ้นเคยกับระบบผู้ช่วยเสียงที่ตอบสนองได้รวดเร็วและเชื่อมโยงกับบริการท้องถิ่น เช่น แผนที่จีน แอปส่งอาหาร และระบบชำระเงิน 📌 สรุปเนื้อหาเป็นหัวข้อ ➡️ Tesla เตรียมใช้ AI สัญชาติจีน DeepSeek และ Doubao ในรถยนต์ที่จำหน่ายในจีน ➡️ Doubao รับหน้าที่ประมวลผลคำสั่งเสียง เช่น นำทาง เพลง อุณหภูมิ ➡️ DeepSeek ทำหน้าที่สนทนาอัจฉริยะ ตอบคำถามหลายขั้นตอน ➡️ ทั้งสองโมเดลทำงานผ่านคลาวด์ Volcano Engine ของ ByteDance ➡️ Tesla ไม่สามารถใช้ Grok ในจีนเพราะข้อจำกัดด้านกฎหมายและการจัดการข้อมูล ➡️ ผู้ใช้สามารถเรียกผู้ช่วยเสียงด้วยคำว่า “Hey, Tesla” หรือกำหนดเองได้ ➡️ Tesla เปิดตัว Model Y L รุ่นใหม่แบบ 6 ที่นั่งในจีน รองรับระบบ AI เต็มรูปแบบ ➡️ การเปลี่ยนแปลงนี้เกิดจากการแข่งขันกับแบรนด์จีน เช่น BYD และ Geely ➡️ BMW ก็ใช้โมเดล Qwen จาก Alibaba ในรถรุ่นใหม่ที่จำหน่ายในจีน ➡️ ยังไม่มีการยืนยันว่า AI ทั้งสองถูกติดตั้งในรถทุกคันแล้ว ✅ ข้อมูลเสริมจากภายนอก ➡️ DeepSeek ได้รับความนิยมในจีนหลังเปิดตัวรุ่น R1 และ V3.1 ที่มีความสามารถด้าน reasoning สูง ➡️ ระบบผู้ช่วยเสียงในรถยนต์จีนสามารถเชื่อมต่อกับบริการท้องถิ่น เช่น Alipay, Meituan, Gaode Maps ➡️ LLMs เช่น ChatGPT, Qwen, และ DeepSeek ถูกนำมาใช้ในรถยนต์มากขึ้นทั่วโลก ➡️ การใช้ AI ในรถยนต์ช่วยเพิ่มความปลอดภัยและความสะดวกในการขับขี่ ➡️ การใช้โมเดลท้องถิ่นช่วยให้ตอบสนองต่อภาษาถิ่นและพฤติกรรมผู้ใช้ได้แม่นยำกว่าโมเดลสากล https://www.thestar.com.my/tech/tech-news/2025/08/22/tesla-to-integrate-deepseek-doubao-ai-voice-controls-in-china
    WWW.THESTAR.COM.MY
    Tesla to integrate Deepseek, Doubao AI voice controls in China
    Tesla Inc plans to introduce in-car voice assistant functions powered by Deepseek and Bytedance Ltd's Doubao artificial intelligence as it aims to catch local rivals who offer similar features.
    0 ความคิดเห็น 0 การแบ่งปัน 299 มุมมอง 0 รีวิว
  • MAXSUN Arc Pro B60 Dual 48G Turbo: การ์ดจอคู่สำหรับงาน AI ที่ไม่เหมือนใคร

    MAXSUN เตรียมเปิดตัวกราฟิกการ์ด Arc Pro B60 Dual 48G Turbo ในวันที่ 18 สิงหาคมนี้ โดยใช้ชิป Intel Arc Pro B60 สองตัวบนบอร์ดเดียว รวมเป็น 48GB GDDR6 VRAM และ 5,120 FP32 cores เหมาะกับงาน AI ขนาดใหญ่ เช่น DeepSeek R 70B หรือ QwQ 32B ที่ต้องใช้หน่วยความจำมากกว่า 40GB

    การ์ดนี้ใช้สถาปัตยกรรม Xe-2 “Battlemage” รุ่น BMG-G21 พร้อมแบนด์วิดธ์ 456 GB/s ต่อ GPU และเชื่อมต่อผ่าน PCIe 5.0 x16 เพื่อรองรับการส่งข้อมูลความเร็วสูง โดยแต่ละ GPU มีหน่วยความจำแยกกัน ทำให้สามารถประมวลผลแบบขนานได้อย่างมีประสิทธิภาพ

    จุดเด่นคือการออกแบบให้ใช้งานในเวิร์กสเตชันที่ต้องการประสิทธิภาพสูงแต่ไม่อยากพึ่งคลาวด์ โดยใช้สโลแกน “Cut the Cloud. Keep the Power” และมีระบบระบายความร้อนแบบสามชั้น พร้อมรองรับการติดตั้งหลายใบในเครื่องเดียว

    แต่ Intel กลับมีปัญหาด้านการผลิต B60 อย่างหนัก โดยล็อตแรกถูกจองหมดตั้งแต่ก่อนเปิดตัว และยังไม่มีแผนวางขายในร้านค้าทั่วไป จะขายผ่านผู้ประกอบระบบ (System Integrators) เท่านั้น ซึ่งอาจทำให้ผู้ใช้ทั่วไปหาซื้อได้ยากมาก

    สเปกและการออกแบบของ Arc Pro B60 Dual
    ใช้ชิป Intel Arc Pro B60 สองตัว รวมเป็น 48GB GDDR6
    มี 5,120 FP32 cores และแบนด์วิดธ์รวม 912 GB/s
    ใช้สถาปัตยกรรม Xe-2 “Battlemage” รุ่น BMG-G21
    เชื่อมต่อผ่าน PCIe 5.0 x16 รองรับการประมวลผลแบบขนาน
    ระบบระบายความร้อนแบบสามชั้น: blower fan, vapor chamber, metal backplate

    จุดเด่นด้านการใช้งาน
    เหมาะกับงาน AI ขนาดใหญ่ เช่น LLMs ที่ต้องใช้ VRAM สูง
    รองรับ PyTorch, vLLM, IPEX-LLM และ Intel ISV
    ใช้งานได้บนเมนบอร์ดทั่วไปที่รองรับ PCIe x16 bifurcation
    ลดต้นทุนการใช้งาน AI ในองค์กรที่ไม่ต้องพึ่งคลาวด์

    การวางจำหน่ายและราคา
    เปิดตัววันที่ 18 สิงหาคม 2025
    ราคาประมาณ $1,200 สำหรับรุ่น Dual GPU
    ขายผ่านผู้ประกอบระบบเท่านั้น ไม่วางขายทั่วไป
    หากใช้สองใบจะได้ VRAM 96GB ในราคาถูกกว่า RTX 5090

    Intel มีปัญหาด้านการผลิต B60 ทำให้สินค้าขาดตลาด
    ล็อตแรกถูกจองหมดก่อนเปิดตัว และการผลิตในอนาคตยังจำกัด
    ไม่มีแผนวางขายในร้านค้าทั่วไป จะขายผ่าน System Integrators เท่านั้น
    การ์ดนี้ไม่เหมาะกับงานเกมหรือผู้ใช้ทั่วไป
    หาก Intel ไม่แก้ปัญหาการผลิต อาจกระทบต่อความต่อเนื่องของผลิตภัณฑ์

    https://wccftech.com/maxsun-launching-arc-pro-b60-dual-gpu-next-week-intel-facing-inventory-issues-with-b60/
    🧠 MAXSUN Arc Pro B60 Dual 48G Turbo: การ์ดจอคู่สำหรับงาน AI ที่ไม่เหมือนใคร MAXSUN เตรียมเปิดตัวกราฟิกการ์ด Arc Pro B60 Dual 48G Turbo ในวันที่ 18 สิงหาคมนี้ โดยใช้ชิป Intel Arc Pro B60 สองตัวบนบอร์ดเดียว รวมเป็น 48GB GDDR6 VRAM และ 5,120 FP32 cores เหมาะกับงาน AI ขนาดใหญ่ เช่น DeepSeek R 70B หรือ QwQ 32B ที่ต้องใช้หน่วยความจำมากกว่า 40GB การ์ดนี้ใช้สถาปัตยกรรม Xe-2 “Battlemage” รุ่น BMG-G21 พร้อมแบนด์วิดธ์ 456 GB/s ต่อ GPU และเชื่อมต่อผ่าน PCIe 5.0 x16 เพื่อรองรับการส่งข้อมูลความเร็วสูง โดยแต่ละ GPU มีหน่วยความจำแยกกัน ทำให้สามารถประมวลผลแบบขนานได้อย่างมีประสิทธิภาพ จุดเด่นคือการออกแบบให้ใช้งานในเวิร์กสเตชันที่ต้องการประสิทธิภาพสูงแต่ไม่อยากพึ่งคลาวด์ โดยใช้สโลแกน “Cut the Cloud. Keep the Power” และมีระบบระบายความร้อนแบบสามชั้น พร้อมรองรับการติดตั้งหลายใบในเครื่องเดียว แต่ Intel กลับมีปัญหาด้านการผลิต B60 อย่างหนัก โดยล็อตแรกถูกจองหมดตั้งแต่ก่อนเปิดตัว และยังไม่มีแผนวางขายในร้านค้าทั่วไป จะขายผ่านผู้ประกอบระบบ (System Integrators) เท่านั้น ซึ่งอาจทำให้ผู้ใช้ทั่วไปหาซื้อได้ยากมาก ✅ สเปกและการออกแบบของ Arc Pro B60 Dual ➡️ ใช้ชิป Intel Arc Pro B60 สองตัว รวมเป็น 48GB GDDR6 ➡️ มี 5,120 FP32 cores และแบนด์วิดธ์รวม 912 GB/s ➡️ ใช้สถาปัตยกรรม Xe-2 “Battlemage” รุ่น BMG-G21 ➡️ เชื่อมต่อผ่าน PCIe 5.0 x16 รองรับการประมวลผลแบบขนาน ➡️ ระบบระบายความร้อนแบบสามชั้น: blower fan, vapor chamber, metal backplate ✅ จุดเด่นด้านการใช้งาน ➡️ เหมาะกับงาน AI ขนาดใหญ่ เช่น LLMs ที่ต้องใช้ VRAM สูง ➡️ รองรับ PyTorch, vLLM, IPEX-LLM และ Intel ISV ➡️ ใช้งานได้บนเมนบอร์ดทั่วไปที่รองรับ PCIe x16 bifurcation ➡️ ลดต้นทุนการใช้งาน AI ในองค์กรที่ไม่ต้องพึ่งคลาวด์ ✅ การวางจำหน่ายและราคา ➡️ เปิดตัววันที่ 18 สิงหาคม 2025 ➡️ ราคาประมาณ $1,200 สำหรับรุ่น Dual GPU ➡️ ขายผ่านผู้ประกอบระบบเท่านั้น ไม่วางขายทั่วไป ➡️ หากใช้สองใบจะได้ VRAM 96GB ในราคาถูกกว่า RTX 5090 ⛔ Intel มีปัญหาด้านการผลิต B60 ทำให้สินค้าขาดตลาด ⛔ ล็อตแรกถูกจองหมดก่อนเปิดตัว และการผลิตในอนาคตยังจำกัด ⛔ ไม่มีแผนวางขายในร้านค้าทั่วไป จะขายผ่าน System Integrators เท่านั้น ⛔ การ์ดนี้ไม่เหมาะกับงานเกมหรือผู้ใช้ทั่วไป ⛔ หาก Intel ไม่แก้ปัญหาการผลิต อาจกระทบต่อความต่อเนื่องของผลิตภัณฑ์ https://wccftech.com/maxsun-launching-arc-pro-b60-dual-gpu-next-week-intel-facing-inventory-issues-with-b60/
    WCCFTECH.COM
    As MAXSUN Prepares To Launch Arc Pro B60 Dual GPU Next Week, Intel Is Supposedly Facing Inventory Issues With B60
    According to a conversation between a company and MAXSUN's manager, the GPU manufacturer is expected to launch the Arc Pro B60 Dual next week
    0 ความคิดเห็น 0 การแบ่งปัน 274 มุมมอง 0 รีวิว
  • DeepSeek R2: โมเดล AI ที่สะดุดเพราะชิป Huawei

    DeepSeek บริษัท AI สัญชาติจีนที่เคยสร้างชื่อจากโมเดล R1 กำลังเผชิญกับความท้าทายครั้งใหญ่ในการพัฒนา R2 ซึ่งเดิมทีตั้งใจจะใช้ชิป Ascend 910C ของ Huawei ในการฝึกโมเดล เพื่อสนับสนุนแนวทาง “พึ่งพาตนเอง” ของรัฐบาลจีน แต่ผลลัพธ์กลับไม่เป็นไปตามแผน

    แม้ Huawei จะส่งทีมวิศวกรไปช่วย DeepSeek โดยตรง แต่ชิป Ascend กลับมีปัญหาหลายด้าน เช่น ความร้อนสูง, การเชื่อมต่อระหว่างชิปที่ช้า, และซอฟต์แวร์ที่ยังไม่เทียบเท่ากับ CUDA ของ NVIDIA ทำให้ DeepSeek ไม่สามารถฝึกโมเดล R2 ได้สำเร็จ

    สุดท้าย DeepSeek ต้องหันกลับมาใช้ชิป NVIDIA H20 ในการฝึกโมเดล และใช้ชิป Huawei เฉพาะในขั้นตอน inference เท่านั้น ซึ่งเป็นการประนีประนอมระหว่างประสิทธิภาพและนโยบายรัฐ

    นอกจากนี้ ยังมีปัจจัยอื่นที่ทำให้ R2 ล่าช้า เช่น การติดป้ายข้อมูล (data labeling) ที่ใช้เวลานานกว่าคาด และความกังวลเรื่องความปลอดภัยของชิป NVIDIA ที่อาจมีระบบติดตามตำแหน่ง ทำให้รัฐบาลจีนลังเลที่จะอนุมัติการใช้งานในวงกว้าง

    แม้ DeepSeek จะยังไม่ประกาศวันเปิดตัวใหม่อย่างเป็นทางการ แต่คาดว่าโมเดล R2 จะเปิดตัวภายในไม่กี่สัปดาห์ข้างหน้า โดยต้องแข่งกับคู่แข่งอย่าง Qwen3 จาก Alibaba ที่กำลังมาแรง

    DeepSeek ล่าช้าในการเปิดตัวโมเดล R2
    เดิมตั้งใจเปิดตัวในเดือนพฤษภาคม แต่เลื่อนออกไปไม่มีกำหนด
    ปัจจุบันยังอยู่ในขั้นตอนปรับปรุงและทดสอบประสิทธิภาพ

    ปัญหาจากการใช้ชิป Huawei Ascend 910C
    มีปัญหาความร้อนสูงและการเชื่อมต่อระหว่างชิปที่ช้า
    ซอฟต์แวร์ CANN ยังไม่เทียบเท่ากับ CUDA ของ NVIDIA
    ไม่สามารถฝึกโมเดลขนาดใหญ่ได้สำเร็จ

    การเปลี่ยนกลับมาใช้ชิป NVIDIA
    ใช้ NVIDIA H20 ในการฝึกโมเดล R2
    ใช้ Huawei เฉพาะในขั้นตอน inference เพื่อประหยัดต้นทุน
    เป็นแนวทางแบบ hybrid ที่หลายบริษัทจีนเริ่มนำมาใช้

    ปัจจัยอื่นที่ทำให้ R2 ล่าช้า
    การติดป้ายข้อมูลใช้เวลานานกว่าคาด
    ผู้ก่อตั้งไม่พอใจกับความก้าวหน้า และต้องการคุณภาพสูงกว่าคู่แข่ง
    รัฐบาลจีนยังลังเลเรื่องการอนุมัติชิป NVIDIA เพราะข้อกังวลด้านความปลอดภัย

    https://wccftech.com/deepseek-r2-ai-model-is-reportedly-delayed-after-chinese-authorities-encouraged-the-firm-to-use-huawei-ai-chips/
    🧠 DeepSeek R2: โมเดล AI ที่สะดุดเพราะชิป Huawei DeepSeek บริษัท AI สัญชาติจีนที่เคยสร้างชื่อจากโมเดล R1 กำลังเผชิญกับความท้าทายครั้งใหญ่ในการพัฒนา R2 ซึ่งเดิมทีตั้งใจจะใช้ชิป Ascend 910C ของ Huawei ในการฝึกโมเดล เพื่อสนับสนุนแนวทาง “พึ่งพาตนเอง” ของรัฐบาลจีน แต่ผลลัพธ์กลับไม่เป็นไปตามแผน แม้ Huawei จะส่งทีมวิศวกรไปช่วย DeepSeek โดยตรง แต่ชิป Ascend กลับมีปัญหาหลายด้าน เช่น ความร้อนสูง, การเชื่อมต่อระหว่างชิปที่ช้า, และซอฟต์แวร์ที่ยังไม่เทียบเท่ากับ CUDA ของ NVIDIA ทำให้ DeepSeek ไม่สามารถฝึกโมเดล R2 ได้สำเร็จ สุดท้าย DeepSeek ต้องหันกลับมาใช้ชิป NVIDIA H20 ในการฝึกโมเดล และใช้ชิป Huawei เฉพาะในขั้นตอน inference เท่านั้น ซึ่งเป็นการประนีประนอมระหว่างประสิทธิภาพและนโยบายรัฐ นอกจากนี้ ยังมีปัจจัยอื่นที่ทำให้ R2 ล่าช้า เช่น การติดป้ายข้อมูล (data labeling) ที่ใช้เวลานานกว่าคาด และความกังวลเรื่องความปลอดภัยของชิป NVIDIA ที่อาจมีระบบติดตามตำแหน่ง ทำให้รัฐบาลจีนลังเลที่จะอนุมัติการใช้งานในวงกว้าง แม้ DeepSeek จะยังไม่ประกาศวันเปิดตัวใหม่อย่างเป็นทางการ แต่คาดว่าโมเดล R2 จะเปิดตัวภายในไม่กี่สัปดาห์ข้างหน้า โดยต้องแข่งกับคู่แข่งอย่าง Qwen3 จาก Alibaba ที่กำลังมาแรง ✅ DeepSeek ล่าช้าในการเปิดตัวโมเดล R2 ➡️ เดิมตั้งใจเปิดตัวในเดือนพฤษภาคม แต่เลื่อนออกไปไม่มีกำหนด ➡️ ปัจจุบันยังอยู่ในขั้นตอนปรับปรุงและทดสอบประสิทธิภาพ ✅ ปัญหาจากการใช้ชิป Huawei Ascend 910C ➡️ มีปัญหาความร้อนสูงและการเชื่อมต่อระหว่างชิปที่ช้า ➡️ ซอฟต์แวร์ CANN ยังไม่เทียบเท่ากับ CUDA ของ NVIDIA ➡️ ไม่สามารถฝึกโมเดลขนาดใหญ่ได้สำเร็จ ✅ การเปลี่ยนกลับมาใช้ชิป NVIDIA ➡️ ใช้ NVIDIA H20 ในการฝึกโมเดล R2 ➡️ ใช้ Huawei เฉพาะในขั้นตอน inference เพื่อประหยัดต้นทุน ➡️ เป็นแนวทางแบบ hybrid ที่หลายบริษัทจีนเริ่มนำมาใช้ ✅ ปัจจัยอื่นที่ทำให้ R2 ล่าช้า ➡️ การติดป้ายข้อมูลใช้เวลานานกว่าคาด ➡️ ผู้ก่อตั้งไม่พอใจกับความก้าวหน้า และต้องการคุณภาพสูงกว่าคู่แข่ง ➡️ รัฐบาลจีนยังลังเลเรื่องการอนุมัติชิป NVIDIA เพราะข้อกังวลด้านความปลอดภัย https://wccftech.com/deepseek-r2-ai-model-is-reportedly-delayed-after-chinese-authorities-encouraged-the-firm-to-use-huawei-ai-chips/
    WCCFTECH.COM
    DeepSeek's R2 AI Model Is Reportedly Delayed After Chinese Authorities Encouraged the Firm to Use Huawei's AI Chips; Beijing Is Still in Need of NVIDIA's Alternatives
    Well, relying on Huawei's AI chips didn't go well for DeepSeek, as the AI firm has failed to train the R2 model on Chinese chips.
    0 ความคิดเห็น 0 การแบ่งปัน 334 มุมมอง 0 รีวิว
  • เมื่อ Huawei เปิดซอร์ส CANN: ยุทธศาสตร์ใหม่ท้าชน CUDA เพื่ออิสรภาพด้าน AI ของจีน

    ลองนึกภาพว่าโลกของ AI ที่เคยถูกครอบงำโดย CUDA ของ Nvidia กำลังถูกท้าทายอย่างจริงจังจาก Huawei ที่ตัดสินใจเปิดซอร์ส CANN ซึ่งเป็นชุดเครื่องมือสำหรับพัฒนาแอปพลิเคชัน AI บนชิป Ascend ของตัวเอง

    CUDA ครองตลาดมากว่า 20 ปี ด้วยการผูกขาดนักพัฒนาให้ใช้เฉพาะฮาร์ดแวร์ของ Nvidia เท่านั้น การเปิดซอร์ส CANN จึงไม่ใช่แค่การปล่อยโค้ด แต่เป็นการเปิดประตูสู่ระบบนิเวศใหม่ที่ไม่ถูกจำกัดด้วยเจ้าของเทคโนโลยี

    Huawei เริ่มพูดคุยกับมหาวิทยาลัย สถาบันวิจัย และบริษัท AI ชั้นนำในจีน เพื่อร่วมกันสร้างชุมชนพัฒนาแบบเปิดสำหรับ Ascend ซึ่งอาจนำไปสู่การสร้างเครื่องมือ ไลบรารี และเฟรมเวิร์กใหม่ที่รองรับงาน AI ได้หลากหลายมากขึ้น

    แม้จะยังไม่เทียบเท่า CUDA ในแง่ของความเสถียรและการสนับสนุน แต่ Huawei ก็เริ่มไล่ตามในด้านประสิทธิภาพ โดยบางรุ่นของ Ascend มีผลทดสอบที่เหนือกว่า Nvidia ในบางสถานการณ์

    การเปิดซอร์ส CANN ยังสอดคล้องกับยุทธศาสตร์ของจีนในการลดการพึ่งพาเทคโนโลยีจากตะวันตก โดยเฉพาะในช่วงที่สหรัฐฯ จำกัดการส่งออกชิปให้กับ Huawei การสร้างซอฟต์แวร์พื้นฐานของตัวเองจึงเป็นก้าวสำคัญ

    Huawei เปิดซอร์ส CANN ซึ่งเป็นชุดเครื่องมือสำหรับชิป Ascend
    เพื่อท้าทายการผูกขาดของ CUDA จาก Nvidia

    CUDA เป็นระบบปิดที่ผูกนักพัฒนาไว้กับฮาร์ดแวร์ Nvidia
    ทำให้การพัฒนา AI ต้องอยู่ในระบบของ Nvidia เท่านั้น

    CANN มีโครงสร้างแบบหลายชั้น รองรับทั้งงานทั่วไปและงานประสิทธิภาพสูง
    เป็นทางเลือกใหม่สำหรับนักพัฒนา AI

    Huawei เริ่มสร้างชุมชนพัฒนาแบบเปิดร่วมกับมหาวิทยาลัยและบริษัท AI ในจีน
    เพื่อเร่งสร้างเครื่องมือ ไลบรารี และเฟรมเวิร์กสำหรับ Ascend

    มีรายงานว่า Ascend บางรุ่นมีประสิทธิภาพสูงกว่า Nvidia ในบางกรณี
    เช่น DeepSeek R1 บน CloudMatrix 384

    การเปิดซอร์ส CANN เป็นส่วนหนึ่งของยุทธศาสตร์เทคโนโลยีอิสระของจีน
    ลดการพึ่งพาเทคโนโลยีจากตะวันตกท่ามกลางข้อจำกัดการส่งออกจากสหรัฐฯ

    https://www.techradar.com/pro/brave-or-foolhardy-huawei-takes-the-fight-to-nvidia-cuda-by-making-its-ascend-ai-gpu-software-open-source
    🚀🇨🇳 เมื่อ Huawei เปิดซอร์ส CANN: ยุทธศาสตร์ใหม่ท้าชน CUDA เพื่ออิสรภาพด้าน AI ของจีน ลองนึกภาพว่าโลกของ AI ที่เคยถูกครอบงำโดย CUDA ของ Nvidia กำลังถูกท้าทายอย่างจริงจังจาก Huawei ที่ตัดสินใจเปิดซอร์ส CANN ซึ่งเป็นชุดเครื่องมือสำหรับพัฒนาแอปพลิเคชัน AI บนชิป Ascend ของตัวเอง CUDA ครองตลาดมากว่า 20 ปี ด้วยการผูกขาดนักพัฒนาให้ใช้เฉพาะฮาร์ดแวร์ของ Nvidia เท่านั้น การเปิดซอร์ส CANN จึงไม่ใช่แค่การปล่อยโค้ด แต่เป็นการเปิดประตูสู่ระบบนิเวศใหม่ที่ไม่ถูกจำกัดด้วยเจ้าของเทคโนโลยี Huawei เริ่มพูดคุยกับมหาวิทยาลัย สถาบันวิจัย และบริษัท AI ชั้นนำในจีน เพื่อร่วมกันสร้างชุมชนพัฒนาแบบเปิดสำหรับ Ascend ซึ่งอาจนำไปสู่การสร้างเครื่องมือ ไลบรารี และเฟรมเวิร์กใหม่ที่รองรับงาน AI ได้หลากหลายมากขึ้น แม้จะยังไม่เทียบเท่า CUDA ในแง่ของความเสถียรและการสนับสนุน แต่ Huawei ก็เริ่มไล่ตามในด้านประสิทธิภาพ โดยบางรุ่นของ Ascend มีผลทดสอบที่เหนือกว่า Nvidia ในบางสถานการณ์ การเปิดซอร์ส CANN ยังสอดคล้องกับยุทธศาสตร์ของจีนในการลดการพึ่งพาเทคโนโลยีจากตะวันตก โดยเฉพาะในช่วงที่สหรัฐฯ จำกัดการส่งออกชิปให้กับ Huawei การสร้างซอฟต์แวร์พื้นฐานของตัวเองจึงเป็นก้าวสำคัญ ✅ Huawei เปิดซอร์ส CANN ซึ่งเป็นชุดเครื่องมือสำหรับชิป Ascend ➡️ เพื่อท้าทายการผูกขาดของ CUDA จาก Nvidia ✅ CUDA เป็นระบบปิดที่ผูกนักพัฒนาไว้กับฮาร์ดแวร์ Nvidia ➡️ ทำให้การพัฒนา AI ต้องอยู่ในระบบของ Nvidia เท่านั้น ✅ CANN มีโครงสร้างแบบหลายชั้น รองรับทั้งงานทั่วไปและงานประสิทธิภาพสูง ➡️ เป็นทางเลือกใหม่สำหรับนักพัฒนา AI ✅ Huawei เริ่มสร้างชุมชนพัฒนาแบบเปิดร่วมกับมหาวิทยาลัยและบริษัท AI ในจีน ➡️ เพื่อเร่งสร้างเครื่องมือ ไลบรารี และเฟรมเวิร์กสำหรับ Ascend ✅ มีรายงานว่า Ascend บางรุ่นมีประสิทธิภาพสูงกว่า Nvidia ในบางกรณี ➡️ เช่น DeepSeek R1 บน CloudMatrix 384 ✅ การเปิดซอร์ส CANN เป็นส่วนหนึ่งของยุทธศาสตร์เทคโนโลยีอิสระของจีน ➡️ ลดการพึ่งพาเทคโนโลยีจากตะวันตกท่ามกลางข้อจำกัดการส่งออกจากสหรัฐฯ https://www.techradar.com/pro/brave-or-foolhardy-huawei-takes-the-fight-to-nvidia-cuda-by-making-its-ascend-ai-gpu-software-open-source
    0 ความคิดเห็น 0 การแบ่งปัน 289 มุมมอง 0 รีวิว
  • เรื่องเล่าจากวิวัฒนาการของโมเดล GPT: จาก GPT-2 สู่ gpt-oss ยุคใหม่ของ AI แบบเปิด

    ย้อนกลับไปปี 2019 OpenAI เคยเปิดตัว GPT-2 ซึ่งเป็นโมเดลภาษาขนาดใหญ่ที่ใช้สถาปัตยกรรม Transformer และได้รับความนิยมอย่างมากในวงการ AI แต่หลังจากนั้น OpenAI ก็หันไปพัฒนาโมเดลแบบปิด เช่น GPT-3 และ ChatGPT โดยไม่เปิดเผยน้ำหนักโมเดลอีกเลย จนกระทั่งสิงหาคม 2025 พวกเขากลับมาอีกครั้งด้วย gpt-oss-20B และ gpt-oss-120B ซึ่งเป็นโมเดลแบบ “open-weight” ที่เปิดให้ดาวน์โหลด ใช้งาน และปรับแต่งได้อย่างเสรีภายใต้ Apache 2.0 license

    โมเดล gpt-oss ใช้เทคนิคใหม่ ๆ เช่น Mixture-of-Experts (MoE), Sliding Window Attention, RMSNorm และ SwiGLU เพื่อเพิ่มประสิทธิภาพและลดต้นทุนการประมวลผล โดยสามารถรันบน GPU ทั่วไปได้ เช่น 20B ใช้แค่ 16GB RAM ส่วน 120B ใช้ H100 GPU ตัวเดียว

    แม้สถาปัตยกรรมโดยรวมยังคงใช้ Transformer เหมือนเดิม แต่การปรับแต่งภายในทำให้โมเดลเหล่านี้มีประสิทธิภาพสูงขึ้นมาก และสามารถแข่งขันกับโมเดลจากจีน เช่น Qwen3 ได้อย่างสูสี

    อย่างไรก็ตาม ยังมีข้อกังวลเรื่องความแม่นยำของข้อมูล (hallucination rate สูงถึง 49–53%) และความโปร่งใสของชุดข้อมูลที่ใช้ฝึก ซึ่ง OpenAI ยังไม่เปิดเผยเพราะเกรงปัญหาด้านลิขสิทธิ์

    OpenAI เปิดตัว gpt-oss-20B และ gpt-oss-120B เป็นโมเดล open-weight ครั้งแรกในรอบ 6 ปี
    ใช้ Apache 2.0 license เปิดให้ใช้งานและปรับแต่งได้อย่างเสรี

    โมเดลใช้สถาปัตยกรรม Transformer แบบ decoder-only
    เหมือน GPT-2 แต่มีการปรับแต่งภายในหลายจุด

    ใช้เทคนิค Mixture-of-Experts (MoE) เพื่อเพิ่มประสิทธิภาพ
    เปิดใช้งานเฉพาะบางส่วนของโมเดลในแต่ละ token

    gpt-oss-20B รันได้บน GPU ทั่วไป (16GB RAM)
    ส่วน gpt-oss-120B ใช้ H100 GPU ตัวเดียว

    โมเดลมี benchmark สูง เช่น Codeforces score 2622 (120B)
    สูงกว่า DeepSeek R1 แต่ยังต่ำกว่า o3 และ o4-mini

    ใช้ Sliding Window Attention, RMSNorm, SwiGLU แทนเทคนิคเก่า
    ลดต้นทุนการคำนวณและเพิ่มความเร็วในการ inference

    เปรียบเทียบกับ Qwen3 พบว่า gpt-oss เน้น “กว้าง” มากกว่า “ลึก”
    มี embedding และ FFN ขนาดใหญ่ แต่ layer น้อยกว่า

    การเปิดโมเดลแบบ open-weight ช่วยให้นักพัฒนาสามารถปรับแต่งได้ตามต้องการ
    เหมาะกับงานเฉพาะทาง เช่น การฝึกบนข้อมูลภายในองค์กร

    Apache 2.0 license ช่วยให้ startup และองค์กรขนาดเล็กเข้าถึง AI ขั้นสูง
    โดยไม่ต้องเสียค่าใช้จ่ายหรือขออนุญาต

    โมเดลสามารถใช้ในระบบ agent เช่น การเรียกใช้เครื่องมือหรือ API
    รองรับการใช้งานแบบ hybrid ระหว่าง local และ cloud

    OpenAI หวังใช้ gpt-oss เพื่อแข่งขันกับโมเดลจากจีน เช่น DeepSeek และ Qwen
    และฟื้นความเชื่อมั่นจากชุมชน open-source

    โมเดล gpt-oss มี hallucination rate สูง (49–53%)
    อาจให้ข้อมูลผิดพลาดในงานที่ต้องการความแม่นยำสูง

    OpenAI ไม่เปิดเผยชุดข้อมูลที่ใช้ฝึกโมเดล
    เกิดข้อกังวลเรื่องลิขสิทธิ์และความโปร่งใส

    แม้จะเปิดน้ำหนักโมเดล แต่ยังต้องใช้ hardware ขั้นสูงสำหรับรุ่นใหญ่
    อาจไม่เหมาะกับผู้ใช้ทั่วไปที่ไม่มี GPU ระดับ enterprise

    การใช้ MoE ทำให้การฝึกและ deploy ซับซ้อนขึ้น
    ต้องมีระบบ routing และการจัดการ expert ที่แม่นยำ

    https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
    🧠💡 เรื่องเล่าจากวิวัฒนาการของโมเดล GPT: จาก GPT-2 สู่ gpt-oss ยุคใหม่ของ AI แบบเปิด ย้อนกลับไปปี 2019 OpenAI เคยเปิดตัว GPT-2 ซึ่งเป็นโมเดลภาษาขนาดใหญ่ที่ใช้สถาปัตยกรรม Transformer และได้รับความนิยมอย่างมากในวงการ AI แต่หลังจากนั้น OpenAI ก็หันไปพัฒนาโมเดลแบบปิด เช่น GPT-3 และ ChatGPT โดยไม่เปิดเผยน้ำหนักโมเดลอีกเลย จนกระทั่งสิงหาคม 2025 พวกเขากลับมาอีกครั้งด้วย gpt-oss-20B และ gpt-oss-120B ซึ่งเป็นโมเดลแบบ “open-weight” ที่เปิดให้ดาวน์โหลด ใช้งาน และปรับแต่งได้อย่างเสรีภายใต้ Apache 2.0 license โมเดล gpt-oss ใช้เทคนิคใหม่ ๆ เช่น Mixture-of-Experts (MoE), Sliding Window Attention, RMSNorm และ SwiGLU เพื่อเพิ่มประสิทธิภาพและลดต้นทุนการประมวลผล โดยสามารถรันบน GPU ทั่วไปได้ เช่น 20B ใช้แค่ 16GB RAM ส่วน 120B ใช้ H100 GPU ตัวเดียว แม้สถาปัตยกรรมโดยรวมยังคงใช้ Transformer เหมือนเดิม แต่การปรับแต่งภายในทำให้โมเดลเหล่านี้มีประสิทธิภาพสูงขึ้นมาก และสามารถแข่งขันกับโมเดลจากจีน เช่น Qwen3 ได้อย่างสูสี อย่างไรก็ตาม ยังมีข้อกังวลเรื่องความแม่นยำของข้อมูล (hallucination rate สูงถึง 49–53%) และความโปร่งใสของชุดข้อมูลที่ใช้ฝึก ซึ่ง OpenAI ยังไม่เปิดเผยเพราะเกรงปัญหาด้านลิขสิทธิ์ ✅ OpenAI เปิดตัว gpt-oss-20B และ gpt-oss-120B เป็นโมเดล open-weight ครั้งแรกในรอบ 6 ปี ➡️ ใช้ Apache 2.0 license เปิดให้ใช้งานและปรับแต่งได้อย่างเสรี ✅ โมเดลใช้สถาปัตยกรรม Transformer แบบ decoder-only ➡️ เหมือน GPT-2 แต่มีการปรับแต่งภายในหลายจุด ✅ ใช้เทคนิค Mixture-of-Experts (MoE) เพื่อเพิ่มประสิทธิภาพ ➡️ เปิดใช้งานเฉพาะบางส่วนของโมเดลในแต่ละ token ✅ gpt-oss-20B รันได้บน GPU ทั่วไป (16GB RAM) ➡️ ส่วน gpt-oss-120B ใช้ H100 GPU ตัวเดียว ✅ โมเดลมี benchmark สูง เช่น Codeforces score 2622 (120B) ➡️ สูงกว่า DeepSeek R1 แต่ยังต่ำกว่า o3 และ o4-mini ✅ ใช้ Sliding Window Attention, RMSNorm, SwiGLU แทนเทคนิคเก่า ➡️ ลดต้นทุนการคำนวณและเพิ่มความเร็วในการ inference ✅ เปรียบเทียบกับ Qwen3 พบว่า gpt-oss เน้น “กว้าง” มากกว่า “ลึก” ➡️ มี embedding และ FFN ขนาดใหญ่ แต่ layer น้อยกว่า ✅ การเปิดโมเดลแบบ open-weight ช่วยให้นักพัฒนาสามารถปรับแต่งได้ตามต้องการ ➡️ เหมาะกับงานเฉพาะทาง เช่น การฝึกบนข้อมูลภายในองค์กร ✅ Apache 2.0 license ช่วยให้ startup และองค์กรขนาดเล็กเข้าถึง AI ขั้นสูง ➡️ โดยไม่ต้องเสียค่าใช้จ่ายหรือขออนุญาต ✅ โมเดลสามารถใช้ในระบบ agent เช่น การเรียกใช้เครื่องมือหรือ API ➡️ รองรับการใช้งานแบบ hybrid ระหว่าง local และ cloud ✅ OpenAI หวังใช้ gpt-oss เพื่อแข่งขันกับโมเดลจากจีน เช่น DeepSeek และ Qwen ➡️ และฟื้นความเชื่อมั่นจากชุมชน open-source ‼️ โมเดล gpt-oss มี hallucination rate สูง (49–53%) ⛔ อาจให้ข้อมูลผิดพลาดในงานที่ต้องการความแม่นยำสูง ‼️ OpenAI ไม่เปิดเผยชุดข้อมูลที่ใช้ฝึกโมเดล ⛔ เกิดข้อกังวลเรื่องลิขสิทธิ์และความโปร่งใส ‼️ แม้จะเปิดน้ำหนักโมเดล แต่ยังต้องใช้ hardware ขั้นสูงสำหรับรุ่นใหญ่ ⛔ อาจไม่เหมาะกับผู้ใช้ทั่วไปที่ไม่มี GPU ระดับ enterprise ‼️ การใช้ MoE ทำให้การฝึกและ deploy ซับซ้อนขึ้น ⛔ ต้องมีระบบ routing และการจัดการ expert ที่แม่นยำ https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
    0 ความคิดเห็น 0 การแบ่งปัน 280 มุมมอง 0 รีวิว
  • เรื่องเล่าจากข่าว: Huawei CloudMatrix 384—AI ซูเปอร์คลัสเตอร์ที่ท้าชน Nvidia ด้วยพลังแห่งการรวมชิป

    ในงาน World Artificial Intelligence Conference 2025 ที่เซี่ยงไฮ้ Huawei ได้เปิดตัวระบบ CloudMatrix 384 ซึ่งเป็นซูเปอร์คลัสเตอร์ AI ที่ประกอบด้วยชิป Ascend 910C จำนวน 384 ตัว เชื่อมต่อกันด้วยโครงสร้างแบบ “all-to-all mesh” ผ่านสายออปติกความเร็วสูง

    แม้ชิปแต่ละตัวจะมีประสิทธิภาพต่ำกว่า Nvidia H100 แต่ Huawei ใช้กลยุทธ์ “จำนวนมาก + การออกแบบระบบ” เพื่อชดเชยข้อเสีย และสามารถให้ประสิทธิภาพรวมสูงกว่าระบบ Nvidia GB200 NVL72 ได้ในหลายด้าน เช่น:
    - ความเร็วในการประมวลผล BF16 สูงกว่า 1.7 เท่า
    - ความจุหน่วยความจำสูงกว่า 3.6 เท่า
    - แบนด์วิดธ์หน่วยความจำสูงกว่า 2.1 เท่า

    อย่างไรก็ตาม ระบบนี้ใช้พลังงานมากกว่าถึง 3.9 เท่า และมีประสิทธิภาพต่อวัตต์ต่ำกว่าถึง 2.3 เท่า ซึ่งอาจเป็นข้อจำกัดสำคัญในตลาดโลก แต่สำหรับจีนที่มีแหล่งพลังงานหลากหลายและราคาถูก นี่อาจไม่ใช่ปัญหา

    Huawei เปิดตัวระบบ CloudMatrix 384 ในงาน WAIC 2025 ที่เซี่ยงไฮ้
    ใช้ชิป Ascend 910C จำนวน 384 ตัว เชื่อมต่อแบบ all-to-all mesh ด้วยสายออปติก
    ออกแบบมาเพื่อแข่งขันกับ Nvidia GB200 NVL72

    ระบบสามารถประมวลผลได้ถึง 300 PFLOPs แบบ BF16
    สูงกว่า Nvidia GB200 NVL72 ที่ทำได้ 180 PFLOPs
    เหมาะสำหรับงาน inference ของโมเดลขนาดใหญ่

    Ascend 910C มีประสิทธิภาพประมาณ 60% ของ Nvidia H100 ในงาน inference
    ใช้เทคนิค dual-chiplet และหน่วยความจำ HBM2E ขนาด 128 GB
    ผลิตโดย SMIC ด้วยเทคโนโลยี 7nm รุ่นใหม่

    ระบบมีความจุหน่วยความจำรวม 49.2 TB และแบนด์วิดธ์รวม 1229 TB/s
    สูงกว่า Nvidia GB200 NVL72 ถึง 3.6 เท่าในด้านความจุ และ 2.1 เท่าในด้านแบนด์วิดธ์
    รองรับการเชื่อมต่อแบบ scale-out ได้ถึง 165,000 NPU

    ระบบ CloudMatrix 384 ถูกติดตั้งแล้วบน Huawei Cloud และพร้อมใช้งานจริง
    ใช้ในงาน AI training และ inference ระดับองค์กร
    เป็นส่วนหนึ่งของยุทธศาสตร์ลดการพึ่งพาเทคโนโลยีต่างชาติ

    Nvidia GB200 NVL72 ใช้ชิป Grace CPU 36 ตัว และ Blackwell GPU 72 ตัว
    ออกแบบให้ทำงานร่วมกันเป็น “GPU ขนาดยักษ์” สำหรับโมเดลระดับล้านล้านพารามิเตอร์
    มีข้อจำกัดด้านการส่งออกไปยังจีน

    Huawei ใช้สายออปติก 800G LPO จำนวน 6,912 เส้นในการเชื่อมต่อภายในระบบ
    ลด latency และเพิ่ม bandwidth ได้อย่างมหาศาล
    เป็นการออกแบบที่เน้น “ระบบ” มากกว่าชิปเดี่ยว

    DeepSeek AI ใช้ Ascend 910C สำหรับ inference และพบว่าประสิทธิภาพ “เกินคาด”
    ใช้เทคนิคแปลง CUDA เป็น CUNN ด้วยโค้ดเพียงบรรทัดเดียว
    ช่วยลดต้นทุนและลดการพึ่งพา Nvidia

    จีนกำลังผลักดัน ecosystem ด้าน AI แบบครบวงจร ตั้งแต่ชิปถึงโมเดล
    มีการตั้งพันธมิตรระหว่างผู้ผลิตชิปและนักพัฒนา LLM
    เป้าหมายคือสร้างระบบ AI ที่ไม่ต้องพึ่งพาตะวันตก

    ระบบ CloudMatrix 384 ใช้พลังงานมากกว่าระบบ Nvidia ถึง 3.9 เท่า
    ประสิทธิภาพต่อวัตต์ต่ำกว่า Nvidia ถึง 2.3 เท่า
    อาจไม่เหมาะกับประเทศที่มีข้อจำกัดด้านพลังงาน

    ชิป Ascend 910C ยังไม่สามารถเทียบเท่า Nvidia H100 ในงาน training
    เหมาะกับ inference มากกว่า training ที่ต้องใช้ความเสถียรสูง
    ยังขาด ecosystem ด้านซอฟต์แวร์ที่เทียบเท่า CUDA

    ระบบ CloudMatrix ยังไม่มี benchmark สาธารณะหรือการทดสอบจากองค์กรอิสระ
    ข้อมูลส่วนใหญ่มาจาก Huawei และ SemiAnalysis
    ต้องรอการพิสูจน์จากการใช้งานจริงในระยะยาว

    รัฐบาลสหรัฐฯ เตรียมออกมาตรการลงโทษบริษัทที่ใช้ชิป Ascend 910C ทั่วโลก
    อ้างว่าใช้เทคโนโลยีที่มีต้นกำเนิดจากสหรัฐฯ
    อาจส่งผลต่อบริษัทต่างชาติที่ร่วมใช้งานระบบนี้

    https://www.techspot.com/news/108891-huawei-cloudmatrix-384-ai-system-poised-challenge-nvidia.html
    🎙️ เรื่องเล่าจากข่าว: Huawei CloudMatrix 384—AI ซูเปอร์คลัสเตอร์ที่ท้าชน Nvidia ด้วยพลังแห่งการรวมชิป ในงาน World Artificial Intelligence Conference 2025 ที่เซี่ยงไฮ้ Huawei ได้เปิดตัวระบบ CloudMatrix 384 ซึ่งเป็นซูเปอร์คลัสเตอร์ AI ที่ประกอบด้วยชิป Ascend 910C จำนวน 384 ตัว เชื่อมต่อกันด้วยโครงสร้างแบบ “all-to-all mesh” ผ่านสายออปติกความเร็วสูง แม้ชิปแต่ละตัวจะมีประสิทธิภาพต่ำกว่า Nvidia H100 แต่ Huawei ใช้กลยุทธ์ “จำนวนมาก + การออกแบบระบบ” เพื่อชดเชยข้อเสีย และสามารถให้ประสิทธิภาพรวมสูงกว่าระบบ Nvidia GB200 NVL72 ได้ในหลายด้าน เช่น: - ความเร็วในการประมวลผล BF16 สูงกว่า 1.7 เท่า - ความจุหน่วยความจำสูงกว่า 3.6 เท่า - แบนด์วิดธ์หน่วยความจำสูงกว่า 2.1 เท่า อย่างไรก็ตาม ระบบนี้ใช้พลังงานมากกว่าถึง 3.9 เท่า และมีประสิทธิภาพต่อวัตต์ต่ำกว่าถึง 2.3 เท่า ซึ่งอาจเป็นข้อจำกัดสำคัญในตลาดโลก แต่สำหรับจีนที่มีแหล่งพลังงานหลากหลายและราคาถูก นี่อาจไม่ใช่ปัญหา ✅ Huawei เปิดตัวระบบ CloudMatrix 384 ในงาน WAIC 2025 ที่เซี่ยงไฮ้ ➡️ ใช้ชิป Ascend 910C จำนวน 384 ตัว เชื่อมต่อแบบ all-to-all mesh ด้วยสายออปติก ➡️ ออกแบบมาเพื่อแข่งขันกับ Nvidia GB200 NVL72 ✅ ระบบสามารถประมวลผลได้ถึง 300 PFLOPs แบบ BF16 ➡️ สูงกว่า Nvidia GB200 NVL72 ที่ทำได้ 180 PFLOPs ➡️ เหมาะสำหรับงาน inference ของโมเดลขนาดใหญ่ ✅ Ascend 910C มีประสิทธิภาพประมาณ 60% ของ Nvidia H100 ในงาน inference ➡️ ใช้เทคนิค dual-chiplet และหน่วยความจำ HBM2E ขนาด 128 GB ➡️ ผลิตโดย SMIC ด้วยเทคโนโลยี 7nm รุ่นใหม่ ✅ ระบบมีความจุหน่วยความจำรวม 49.2 TB และแบนด์วิดธ์รวม 1229 TB/s ➡️ สูงกว่า Nvidia GB200 NVL72 ถึง 3.6 เท่าในด้านความจุ และ 2.1 เท่าในด้านแบนด์วิดธ์ ➡️ รองรับการเชื่อมต่อแบบ scale-out ได้ถึง 165,000 NPU ✅ ระบบ CloudMatrix 384 ถูกติดตั้งแล้วบน Huawei Cloud และพร้อมใช้งานจริง ➡️ ใช้ในงาน AI training และ inference ระดับองค์กร ➡️ เป็นส่วนหนึ่งของยุทธศาสตร์ลดการพึ่งพาเทคโนโลยีต่างชาติ ✅ Nvidia GB200 NVL72 ใช้ชิป Grace CPU 36 ตัว และ Blackwell GPU 72 ตัว ➡️ ออกแบบให้ทำงานร่วมกันเป็น “GPU ขนาดยักษ์” สำหรับโมเดลระดับล้านล้านพารามิเตอร์ ➡️ มีข้อจำกัดด้านการส่งออกไปยังจีน ✅ Huawei ใช้สายออปติก 800G LPO จำนวน 6,912 เส้นในการเชื่อมต่อภายในระบบ ➡️ ลด latency และเพิ่ม bandwidth ได้อย่างมหาศาล ➡️ เป็นการออกแบบที่เน้น “ระบบ” มากกว่าชิปเดี่ยว ✅ DeepSeek AI ใช้ Ascend 910C สำหรับ inference และพบว่าประสิทธิภาพ “เกินคาด” ➡️ ใช้เทคนิคแปลง CUDA เป็น CUNN ด้วยโค้ดเพียงบรรทัดเดียว ➡️ ช่วยลดต้นทุนและลดการพึ่งพา Nvidia ✅ จีนกำลังผลักดัน ecosystem ด้าน AI แบบครบวงจร ตั้งแต่ชิปถึงโมเดล ➡️ มีการตั้งพันธมิตรระหว่างผู้ผลิตชิปและนักพัฒนา LLM ➡️ เป้าหมายคือสร้างระบบ AI ที่ไม่ต้องพึ่งพาตะวันตก ‼️ ระบบ CloudMatrix 384 ใช้พลังงานมากกว่าระบบ Nvidia ถึง 3.9 เท่า ⛔ ประสิทธิภาพต่อวัตต์ต่ำกว่า Nvidia ถึง 2.3 เท่า ⛔ อาจไม่เหมาะกับประเทศที่มีข้อจำกัดด้านพลังงาน ‼️ ชิป Ascend 910C ยังไม่สามารถเทียบเท่า Nvidia H100 ในงาน training ⛔ เหมาะกับ inference มากกว่า training ที่ต้องใช้ความเสถียรสูง ⛔ ยังขาด ecosystem ด้านซอฟต์แวร์ที่เทียบเท่า CUDA ‼️ ระบบ CloudMatrix ยังไม่มี benchmark สาธารณะหรือการทดสอบจากองค์กรอิสระ ⛔ ข้อมูลส่วนใหญ่มาจาก Huawei และ SemiAnalysis ⛔ ต้องรอการพิสูจน์จากการใช้งานจริงในระยะยาว ‼️ รัฐบาลสหรัฐฯ เตรียมออกมาตรการลงโทษบริษัทที่ใช้ชิป Ascend 910C ทั่วโลก ⛔ อ้างว่าใช้เทคโนโลยีที่มีต้นกำเนิดจากสหรัฐฯ ⛔ อาจส่งผลต่อบริษัทต่างชาติที่ร่วมใช้งานระบบนี้ https://www.techspot.com/news/108891-huawei-cloudmatrix-384-ai-system-poised-challenge-nvidia.html
    WWW.TECHSPOT.COM
    Huawei's CloudMatrix 384 could outpace Nvidia in the AI race, study suggests
    As newly appointed US tech czar David Sacks predicted just a month ago, Trump's tariffs appear to be backfiring in spectacular fashion. Chinese tech giant Huawei is...
    0 ความคิดเห็น 0 การแบ่งปัน 392 มุมมอง 0 รีวิว
  • เรื่องเล่าจากข่าว: “Man in the Prompt” เมื่อ AI กลายเป็นผู้ช่วยโจรกรรมข้อมูล

    นักวิจัยจากบริษัท LayerX ค้นพบช่องโหว่ใหม่ที่เรียกว่า “Man in the Prompt” ซึ่งอาศัยความจริงที่ว่า ช่องใส่คำสั่ง (prompt input) ของ AI บนเว็บเบราว์เซอร์เป็นส่วนหนึ่งของโครงสร้างหน้าเว็บ (Document Object Model หรือ DOM) นั่นหมายความว่า ส่วนเสริมใด ๆ ที่เข้าถึง DOM ได้ ก็สามารถอ่านหรือเขียนคำสั่งลงในช่อง prompt ได้ทันที—even ถ้าไม่มีสิทธิ์พิเศษ!

    แฮกเกอร์สามารถใช้ส่วนเสริมที่เป็นอันตราย (หรือซื้อสิทธิ์จากส่วนเสริมที่มีอยู่แล้ว) เพื่อแอบแฝงคำสั่งลับ, ดึงข้อมูลจากคำตอบของ AI, หรือแม้แต่ลบประวัติการสนทนาเพื่อไม่ให้ผู้ใช้รู้ตัว

    LayerX ได้ทดลองโจมตีจริงกับ ChatGPT และ Google Gemini โดยใช้ส่วนเสริมที่ดูไม่มีพิษภัย แต่สามารถเปิดแท็บลับ, ส่งคำสั่งไปยัง AI, ดึงข้อมูลออก และลบหลักฐานทั้งหมด

    สิ่งที่น่ากลัวคือ AI เหล่านี้มักถูกใช้ในองค์กรเพื่อประมวลผลข้อมูลลับ เช่น เอกสารภายใน, แผนธุรกิจ, หรือรหัสโปรแกรม—ซึ่งอาจถูกขโมยไปโดยไม่รู้ตัว

    “Man in the Prompt” คือการโจมตีผ่านส่วนเสริมเบราว์เซอร์ที่แอบแฝงคำสั่งในช่อง prompt ของ AI
    ใช้ช่องโหว่ของ DOM ที่เปิดให้ส่วนเสริมเข้าถึงข้อมูลในหน้าเว็บ
    ไม่ต้องใช้สิทธิ์พิเศษก็สามารถอ่าน/เขียนคำสั่งได้

    AI ที่ได้รับผลกระทบ ได้แก่ ChatGPT, Gemini, Claude, Copilot และ Deepseek
    ทั้ง AI เชิงพาณิชย์และ AI ภายในองค์กร
    มีการทดสอบจริงและแสดงผลสำเร็จ

    ส่วนเสริมสามารถแอบส่งคำสั่ง, ดึงข้อมูล, และลบประวัติการสนทนาได้
    เช่น เปิดแท็บลับ, ส่งคำสั่งไปยัง ChatGPT, ดึงผลลัพธ์, แล้วลบแชท
    Gemini สามารถถูกโจมตีผ่าน sidebar ที่เชื่อมกับ Google Workspace

    ข้อมูลที่เสี่ยงต่อการรั่วไหล ได้แก่ อีเมล, เอกสาร, รหัส, แผนธุรกิจ และทรัพย์สินทางปัญญา
    โดยเฉพาะ AI ภายในองค์กรที่ฝึกด้วยข้อมูลลับ
    มีความเชื่อมั่นสูงแต่ขาดระบบป้องกันคำสั่งแฝง

    LayerX แนะนำให้ตรวจสอบพฤติกรรม DOM ของส่วนเสริมแทนการดูแค่สิทธิ์ที่ประกาศไว้
    ปรับระบบความปลอดภัยให้มองเห็นการเปลี่ยนแปลงใน DOM
    ป้องกันการแอบแฝงคำสั่งและการดึงข้อมูลแบบเรียลไทม์

    ส่วนเสริมที่ดูปลอดภัยอาจถูกแฮกหรือซื้อสิทธิ์ไปใช้โจมตีได้
    เช่น ส่วนเสริมที่มีฟีเจอร์จัดการ prompt อาจถูกใช้เพื่อแอบแฝงคำสั่ง
    ไม่ต้องมีการติดตั้งใหม่หรืออนุญาตใด ๆ จากผู้ใช้

    ระบบความปลอดภัยแบบเดิมไม่สามารถตรวจจับการโจมตีในระดับ DOM ได้
    เช่น DLP หรือ Secure Web Gateway ไม่เห็นการเปลี่ยนแปลงใน DOM
    การบล็อก URL ของ AI ไม่ช่วยป้องกันการโจมตีภายในเบราว์เซอร์

    องค์กรที่อนุญาตให้ติดตั้งส่วนเสริมอย่างเสรีมีความเสี่ยงสูงมาก
    พนักงานอาจติดตั้งส่วนเสริมที่เป็นอันตรายโดยไม่รู้ตัว
    ข้อมูลภายในองค์กรอาจถูกขโมยผ่าน AI ที่เชื่อมกับเบราว์เซอร์

    AI ที่ฝึกด้วยข้อมูลลับภายในองค์กรมีความเสี่ยงสูงสุด
    เช่น ข้อมูลทางกฎหมาย, การเงิน, หรือกลยุทธ์
    หากถูกดึงออกผ่าน prompt จะไม่มีทางรู้ตัวเลย

    https://hackread.com/browser-extensions-exploit-chatgpt-gemini-man-in-the-prompt/
    🧠 เรื่องเล่าจากข่าว: “Man in the Prompt” เมื่อ AI กลายเป็นผู้ช่วยโจรกรรมข้อมูล นักวิจัยจากบริษัท LayerX ค้นพบช่องโหว่ใหม่ที่เรียกว่า “Man in the Prompt” ซึ่งอาศัยความจริงที่ว่า ช่องใส่คำสั่ง (prompt input) ของ AI บนเว็บเบราว์เซอร์เป็นส่วนหนึ่งของโครงสร้างหน้าเว็บ (Document Object Model หรือ DOM) นั่นหมายความว่า ส่วนเสริมใด ๆ ที่เข้าถึง DOM ได้ ก็สามารถอ่านหรือเขียนคำสั่งลงในช่อง prompt ได้ทันที—even ถ้าไม่มีสิทธิ์พิเศษ! แฮกเกอร์สามารถใช้ส่วนเสริมที่เป็นอันตราย (หรือซื้อสิทธิ์จากส่วนเสริมที่มีอยู่แล้ว) เพื่อแอบแฝงคำสั่งลับ, ดึงข้อมูลจากคำตอบของ AI, หรือแม้แต่ลบประวัติการสนทนาเพื่อไม่ให้ผู้ใช้รู้ตัว LayerX ได้ทดลองโจมตีจริงกับ ChatGPT และ Google Gemini โดยใช้ส่วนเสริมที่ดูไม่มีพิษภัย แต่สามารถเปิดแท็บลับ, ส่งคำสั่งไปยัง AI, ดึงข้อมูลออก และลบหลักฐานทั้งหมด สิ่งที่น่ากลัวคือ AI เหล่านี้มักถูกใช้ในองค์กรเพื่อประมวลผลข้อมูลลับ เช่น เอกสารภายใน, แผนธุรกิจ, หรือรหัสโปรแกรม—ซึ่งอาจถูกขโมยไปโดยไม่รู้ตัว ✅ “Man in the Prompt” คือการโจมตีผ่านส่วนเสริมเบราว์เซอร์ที่แอบแฝงคำสั่งในช่อง prompt ของ AI ➡️ ใช้ช่องโหว่ของ DOM ที่เปิดให้ส่วนเสริมเข้าถึงข้อมูลในหน้าเว็บ ➡️ ไม่ต้องใช้สิทธิ์พิเศษก็สามารถอ่าน/เขียนคำสั่งได้ ✅ AI ที่ได้รับผลกระทบ ได้แก่ ChatGPT, Gemini, Claude, Copilot และ Deepseek ➡️ ทั้ง AI เชิงพาณิชย์และ AI ภายในองค์กร ➡️ มีการทดสอบจริงและแสดงผลสำเร็จ ✅ ส่วนเสริมสามารถแอบส่งคำสั่ง, ดึงข้อมูล, และลบประวัติการสนทนาได้ ➡️ เช่น เปิดแท็บลับ, ส่งคำสั่งไปยัง ChatGPT, ดึงผลลัพธ์, แล้วลบแชท ➡️ Gemini สามารถถูกโจมตีผ่าน sidebar ที่เชื่อมกับ Google Workspace ✅ ข้อมูลที่เสี่ยงต่อการรั่วไหล ได้แก่ อีเมล, เอกสาร, รหัส, แผนธุรกิจ และทรัพย์สินทางปัญญา ➡️ โดยเฉพาะ AI ภายในองค์กรที่ฝึกด้วยข้อมูลลับ ➡️ มีความเชื่อมั่นสูงแต่ขาดระบบป้องกันคำสั่งแฝง ✅ LayerX แนะนำให้ตรวจสอบพฤติกรรม DOM ของส่วนเสริมแทนการดูแค่สิทธิ์ที่ประกาศไว้ ➡️ ปรับระบบความปลอดภัยให้มองเห็นการเปลี่ยนแปลงใน DOM ➡️ ป้องกันการแอบแฝงคำสั่งและการดึงข้อมูลแบบเรียลไทม์ ‼️ ส่วนเสริมที่ดูปลอดภัยอาจถูกแฮกหรือซื้อสิทธิ์ไปใช้โจมตีได้ ⛔ เช่น ส่วนเสริมที่มีฟีเจอร์จัดการ prompt อาจถูกใช้เพื่อแอบแฝงคำสั่ง ⛔ ไม่ต้องมีการติดตั้งใหม่หรืออนุญาตใด ๆ จากผู้ใช้ ‼️ ระบบความปลอดภัยแบบเดิมไม่สามารถตรวจจับการโจมตีในระดับ DOM ได้ ⛔ เช่น DLP หรือ Secure Web Gateway ไม่เห็นการเปลี่ยนแปลงใน DOM ⛔ การบล็อก URL ของ AI ไม่ช่วยป้องกันการโจมตีภายในเบราว์เซอร์ ‼️ องค์กรที่อนุญาตให้ติดตั้งส่วนเสริมอย่างเสรีมีความเสี่ยงสูงมาก ⛔ พนักงานอาจติดตั้งส่วนเสริมที่เป็นอันตรายโดยไม่รู้ตัว ⛔ ข้อมูลภายในองค์กรอาจถูกขโมยผ่าน AI ที่เชื่อมกับเบราว์เซอร์ ‼️ AI ที่ฝึกด้วยข้อมูลลับภายในองค์กรมีความเสี่ยงสูงสุด ⛔ เช่น ข้อมูลทางกฎหมาย, การเงิน, หรือกลยุทธ์ ⛔ หากถูกดึงออกผ่าน prompt จะไม่มีทางรู้ตัวเลย https://hackread.com/browser-extensions-exploit-chatgpt-gemini-man-in-the-prompt/
    HACKREAD.COM
    Browser Extensions Can Exploit ChatGPT, Gemini in ‘Man in the Prompt’ Attack
    Follow us on Bluesky, Twitter (X), Mastodon and Facebook at @Hackread
    0 ความคิดเห็น 0 การแบ่งปัน 326 มุมมอง 0 รีวิว
  • เรื่องเล่าจากโลก LLMs: พาไปส่องโครงสร้างภายในของโมเดล AI ยักษ์ยุคใหม่

    7 ปีผ่านไปจาก GPT-2 ถึงวันนี้ แม้โมเดลจะดูคล้ายกันมาก แต่ภายใต้ “กลไกเล็ก ๆ” กลับมีการเปลี่ยนแปลงครั้งใหญ่ในเรื่องประสิทธิภาพและหน่วยความจำ เช่น:
    - เปลี่ยนจาก Multi-Head Attention (MHA) เป็น Grouped-Query Attention (GQA)
    - ใช้ Multi-Head Latent Attention (MLA) ในบางโมเดล เช่น DeepSeek V3
    - การใช้ Mixture-of-Experts (MoE) เพื่อเพิ่มพารามิเตอร์โดยไม่เพิ่มต้นทุน inference
    - การปรับตำแหน่งของ Normalization Layer เพื่อให้โมเดลเสถียรขึ้น
    - ใช้ Sliding Window Attention และ QK-Norm เพื่อประหยัด KV cache และเร่งการเรียนรู้
    - ลดขนาดโมเดลโดยยังให้ความสามารถสูง เช่น SmolLM3 กับ Gemma 3n

    DeepSeek V3 ใช้ Multi-Head Latent Attention (MLA) แทน GQA เพื่อประหยัด KV cache
    ขณะเดียวกันยังให้ผลลัพธ์ดีกว่า MHA และใช้พารามิเตอร์น้อยลง
    MLA แม้มีผลดี แต่ยังใหม่และซับซ้อนในการ implement
    ต้องใช้การบีบอัดและ projection ซึ่งเพิ่มขั้นตอนในการ inference

    DeepSeek V3 ใช้ Mixture-of-Experts (MoE) ที่มี 256 expert layers
    ใช้เพียง 9 expert ต่อ token ขณะ inference ทำให้ประหยัดพลังงาน
    การใช้ MoE ทำให้ parameter ทั้งหมดเยอะมาก แม้จะใช้จริงเพียงส่วนน้อย
    หากระบบ routing ไม่ดีหรือไม่เสถียร อาจเกิด undertraining ในบาง expert

    OLMo 2 ใช้ Post-Norm แบบใหม่ และเพิ่ม QK-Norm ภายใน attention block
    ช่วยเสถียรภาพในการฝึกและลด loss
    QK-Norm และการสลับ Pre/Post-Norm ต้องทดลองอย่างระวัง
    ถ้าใช้ผิดจังหวะอาจทำให้ training loss แปรปรวน

    Gemma 3 ใช้ Sliding Window Attention เพื่อลดการใช้หน่วยความจำ
    ลดขนาด window เหลือ 1024 token และมี Global Attention เฉพาะบางชั้น
    Sliding Window Attention ลด memory แต่ไม่ลด latency เสมอไป
    เพราะยังต้องประมวลผลแบบ local ซึ่งไม่สามารถใช้ FlashAttention ได้เต็มที่

    Gemma 3n ใช้ Per-Layer Embedding เพื่อให้ inference บนอุปกรณ์เล็ก
    แยก parameter บางส่วนไว้บน CPU หรือ SSD แล้วโหลดตามต้องการ
    Per-Layer Embedding ทำให้พารามิเตอร์ถูกสตรีมจากอุปกรณ์ภายนอก
    ถ้า bandwidth หรือ latency สูงเกินไปจะกระทบต่อการ inference อย่างหนัก

    Mistral Small 3.1 เลิกใช้ Sliding Attention เพื่อรองรับ FlashAttention แบบเต็ม
    ทำให้ inference เร็วขึ้นแม้จะมีพารามิเตอร์ใกล้เคียงกับ Gemma 3

    Llama 4 ใช้ MoE แบบ alternated (สลับชั้น MoE กับ Dense)
    Active parameter มีแค่ 17B แม้ model จะมี 400B

    Qwen3 มีรุ่น dense ขนาดเล็กมาก (เช่น 0.6B) และ MoE ขนาดใหญ่ถึง 235B
    รุ่น MoE ไม่มี shared expert แต่ยังใช้ GQA เหมือนรุ่นก่อน

    SmolLM3 ใช้ NoPE (No Positional Embeddings) แบบไม่ระบุตำแหน่งเลย
    แสดงให้เห็นว่าไม่ต้องใช้ embedding ก็สามารถเรียนรู้ลำดับได้บางส่วน
    การไม่มี Positional Embedding (เช่น NoPE) อาจกระทบโมเดลใน task ที่ต้องอิงลำดับ
    เช่นการสรุปเนื้อหายาว หรือการจัดเรียงข้อมูลตามเวลา

    https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison
    🎙️ เรื่องเล่าจากโลก LLMs: พาไปส่องโครงสร้างภายในของโมเดล AI ยักษ์ยุคใหม่ 7 ปีผ่านไปจาก GPT-2 ถึงวันนี้ แม้โมเดลจะดูคล้ายกันมาก แต่ภายใต้ “กลไกเล็ก ๆ” กลับมีการเปลี่ยนแปลงครั้งใหญ่ในเรื่องประสิทธิภาพและหน่วยความจำ เช่น: - เปลี่ยนจาก Multi-Head Attention (MHA) เป็น Grouped-Query Attention (GQA) - ใช้ Multi-Head Latent Attention (MLA) ในบางโมเดล เช่น DeepSeek V3 - การใช้ Mixture-of-Experts (MoE) เพื่อเพิ่มพารามิเตอร์โดยไม่เพิ่มต้นทุน inference - การปรับตำแหน่งของ Normalization Layer เพื่อให้โมเดลเสถียรขึ้น - ใช้ Sliding Window Attention และ QK-Norm เพื่อประหยัด KV cache และเร่งการเรียนรู้ - ลดขนาดโมเดลโดยยังให้ความสามารถสูง เช่น SmolLM3 กับ Gemma 3n ✅ DeepSeek V3 ใช้ Multi-Head Latent Attention (MLA) แทน GQA เพื่อประหยัด KV cache ➡️ ขณะเดียวกันยังให้ผลลัพธ์ดีกว่า MHA และใช้พารามิเตอร์น้อยลง ‼️ MLA แม้มีผลดี แต่ยังใหม่และซับซ้อนในการ implement ⛔ ต้องใช้การบีบอัดและ projection ซึ่งเพิ่มขั้นตอนในการ inference ✅ DeepSeek V3 ใช้ Mixture-of-Experts (MoE) ที่มี 256 expert layers ➡️ ใช้เพียง 9 expert ต่อ token ขณะ inference ทำให้ประหยัดพลังงาน ‼️ การใช้ MoE ทำให้ parameter ทั้งหมดเยอะมาก แม้จะใช้จริงเพียงส่วนน้อย ⛔ หากระบบ routing ไม่ดีหรือไม่เสถียร อาจเกิด undertraining ในบาง expert ✅ OLMo 2 ใช้ Post-Norm แบบใหม่ และเพิ่ม QK-Norm ภายใน attention block ➡️ ช่วยเสถียรภาพในการฝึกและลด loss ‼️ QK-Norm และการสลับ Pre/Post-Norm ต้องทดลองอย่างระวัง ⛔ ถ้าใช้ผิดจังหวะอาจทำให้ training loss แปรปรวน ✅ Gemma 3 ใช้ Sliding Window Attention เพื่อลดการใช้หน่วยความจำ ➡️ ลดขนาด window เหลือ 1024 token และมี Global Attention เฉพาะบางชั้น ‼️ Sliding Window Attention ลด memory แต่ไม่ลด latency เสมอไป ⛔ เพราะยังต้องประมวลผลแบบ local ซึ่งไม่สามารถใช้ FlashAttention ได้เต็มที่ ✅ Gemma 3n ใช้ Per-Layer Embedding เพื่อให้ inference บนอุปกรณ์เล็ก ➡️ แยก parameter บางส่วนไว้บน CPU หรือ SSD แล้วโหลดตามต้องการ ‼️ Per-Layer Embedding ทำให้พารามิเตอร์ถูกสตรีมจากอุปกรณ์ภายนอก ⛔ ถ้า bandwidth หรือ latency สูงเกินไปจะกระทบต่อการ inference อย่างหนัก ✅ Mistral Small 3.1 เลิกใช้ Sliding Attention เพื่อรองรับ FlashAttention แบบเต็ม ➡️ ทำให้ inference เร็วขึ้นแม้จะมีพารามิเตอร์ใกล้เคียงกับ Gemma 3 ✅ Llama 4 ใช้ MoE แบบ alternated (สลับชั้น MoE กับ Dense) ➡️ Active parameter มีแค่ 17B แม้ model จะมี 400B ✅ Qwen3 มีรุ่น dense ขนาดเล็กมาก (เช่น 0.6B) และ MoE ขนาดใหญ่ถึง 235B ➡️ รุ่น MoE ไม่มี shared expert แต่ยังใช้ GQA เหมือนรุ่นก่อน ✅ SmolLM3 ใช้ NoPE (No Positional Embeddings) แบบไม่ระบุตำแหน่งเลย ➡️ แสดงให้เห็นว่าไม่ต้องใช้ embedding ก็สามารถเรียนรู้ลำดับได้บางส่วน ‼️ การไม่มี Positional Embedding (เช่น NoPE) อาจกระทบโมเดลใน task ที่ต้องอิงลำดับ ⛔ เช่นการสรุปเนื้อหายาว หรือการจัดเรียงข้อมูลตามเวลา https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison
    MAGAZINE.SEBASTIANRASCHKA.COM
    The Big LLM Architecture Comparison
    From DeepSeek-V3 to Kimi K2: A Look At Modern LLM Architecture Design
    0 ความคิดเห็น 0 การแบ่งปัน 328 มุมมอง 0 รีวิว
  • DeepSeek ถูกแบนในเช็ก – เพราะอาจส่งข้อมูลผู้ใช้ให้รัฐบาลจีน

    DeepSeek เป็นบริษัท AI จากจีนที่เปิดตัวในปี 2023 และได้รับความนิยมอย่างรวดเร็วหลังเปิดตัวแอปบน iOS และ Android ในเดือนมกราคม 2025 โดยสามารถแซง ChatGPT ขึ้นอันดับหนึ่งใน App Store ได้ในหลายประเทศ

    แต่ความนิยมนี้กลับมาพร้อมกับความกังวลด้านความมั่นคง เมื่อหน่วยงานความมั่นคงไซเบอร์แห่งชาติของเช็ก (NÚKIB) ออกรายงานเมื่อวันที่ 9 กรกฎาคม 2025 ระบุว่า DeepSeek และบริษัทแม่ High-Flyer มี “ความเชื่อมโยงลึก” กับรัฐบาลจีน และอาจถูกใช้เป็นเครื่องมือในการจารกรรมข้อมูล

    รายงานอ้างถึงกฎหมายจีนหลายฉบับ เช่น:
    - กฎหมายความมั่นคงแห่งชาติ
    - กฎหมายข่าวกรองแห่งชาติ
    - กฎหมายต่อต้านการจารกรรม

    ซึ่งทั้งหมดบังคับให้บริษัทจีนต้องให้ข้อมูลผู้ใช้แก่รัฐบาล ไม่ว่าผู้ใช้นั้นจะอยู่ประเทศใดก็ตาม

    ผลคือ Czechia ประกาศแบนการใช้งาน DeepSeek ในเกือบทุกกรณี ยกเว้นสำหรับนักวิจัยด้านความปลอดภัย และการใช้งานโมเดลโอเพนซอร์สที่ไม่เชื่อมต่อกับเซิร์ฟเวอร์ของบริษัท

    ประเทศอื่น ๆ ที่ออกมาตรการคล้ายกัน ได้แก่ สหรัฐฯ (รวมถึงกองทัพเรือและ NASA), แคนาดา, ออสเตรเลีย, อินเดีย, อิตาลี, เดนมาร์ก, เนเธอร์แลนด์, นอร์เวย์, เกาหลีใต้ และไต้หวัน

    NÚKIB ระบุว่า “ความกังวลต่อ DeepSeek ไม่ได้เกิดจากวัฒนธรรมร่วมกันหรือภูมิศาสตร์ แต่เป็นผลจากการประเมินความเสี่ยงอย่างเป็นกลาง” และคาดว่าประเทศอื่น ๆ จะออกมาตรการเพิ่มเติมในอีกไม่กี่เดือนข้างหน้า

    ข้อมูลจากข่าว
    - รัฐบาลเช็กประกาศแบนการใช้งาน DeepSeek เนื่องจากความเสี่ยงด้านความมั่นคงไซเบอร์
    - DeepSeek เป็นบริษัท AI จากจีนที่เปิดตัวในปี 2023 และได้รับความนิยมในปี 2025
    - หน่วยงาน NÚKIB ระบุว่า DeepSeek มีความเชื่อมโยงกับรัฐบาลจีน
    - อ้างถึงกฎหมายจีนที่บังคับให้บริษัทต้องให้ข้อมูลผู้ใช้แก่รัฐบาล
    - การแบนครอบคลุมทุกกรณี ยกเว้นนักวิจัยและการใช้งานแบบ self-host ที่ไม่เชื่อมต่อกับเซิร์ฟเวอร์ของบริษัท
    - ประเทศอื่นที่ออกมาตรการคล้ายกัน ได้แก่ สหรัฐฯ, แคนาดา, ออสเตรเลีย, อินเดีย, อิตาลี, เดนมาร์ก, เนเธอร์แลนด์, นอร์เวย์, เกาหลีใต้ และไต้หวัน

    คำเตือนและข้อควรระวัง
    - ผู้ใช้ DeepSeek อาจเสี่ยงต่อการถูกเก็บข้อมูลและส่งต่อให้รัฐบาลจีนโดยไม่รู้ตัว
    - กฎหมายจีนมีอำนาจเหนือบริษัทจีนแม้จะให้บริการในต่างประเทศ
    - การใช้งานโมเดล AI ที่เชื่อมต่อกับเซิร์ฟเวอร์จีนอาจเปิดช่องให้เกิดการจารกรรมข้อมูล
    - องค์กรควรหลีกเลี่ยงการใช้บริการจากบริษัทที่มีความเชื่อมโยงกับรัฐบาลต่างชาติในงานที่เกี่ยวข้องกับข้อมูลสำคัญ
    - การใช้งานโมเดลโอเพนซอร์สควรทำแบบ self-host เพื่อป้องกันการส่งข้อมูลออกนอกองค์กร

    https://www.tomshardware.com/tech-industry/cyber-security/czechia-warns-that-deepseek-can-share-all-user-information-with-the-chinese-government
    DeepSeek ถูกแบนในเช็ก – เพราะอาจส่งข้อมูลผู้ใช้ให้รัฐบาลจีน DeepSeek เป็นบริษัท AI จากจีนที่เปิดตัวในปี 2023 และได้รับความนิยมอย่างรวดเร็วหลังเปิดตัวแอปบน iOS และ Android ในเดือนมกราคม 2025 โดยสามารถแซง ChatGPT ขึ้นอันดับหนึ่งใน App Store ได้ในหลายประเทศ แต่ความนิยมนี้กลับมาพร้อมกับความกังวลด้านความมั่นคง เมื่อหน่วยงานความมั่นคงไซเบอร์แห่งชาติของเช็ก (NÚKIB) ออกรายงานเมื่อวันที่ 9 กรกฎาคม 2025 ระบุว่า DeepSeek และบริษัทแม่ High-Flyer มี “ความเชื่อมโยงลึก” กับรัฐบาลจีน และอาจถูกใช้เป็นเครื่องมือในการจารกรรมข้อมูล รายงานอ้างถึงกฎหมายจีนหลายฉบับ เช่น: - กฎหมายความมั่นคงแห่งชาติ - กฎหมายข่าวกรองแห่งชาติ - กฎหมายต่อต้านการจารกรรม ซึ่งทั้งหมดบังคับให้บริษัทจีนต้องให้ข้อมูลผู้ใช้แก่รัฐบาล ไม่ว่าผู้ใช้นั้นจะอยู่ประเทศใดก็ตาม ผลคือ Czechia ประกาศแบนการใช้งาน DeepSeek ในเกือบทุกกรณี ยกเว้นสำหรับนักวิจัยด้านความปลอดภัย และการใช้งานโมเดลโอเพนซอร์สที่ไม่เชื่อมต่อกับเซิร์ฟเวอร์ของบริษัท ประเทศอื่น ๆ ที่ออกมาตรการคล้ายกัน ได้แก่ สหรัฐฯ (รวมถึงกองทัพเรือและ NASA), แคนาดา, ออสเตรเลีย, อินเดีย, อิตาลี, เดนมาร์ก, เนเธอร์แลนด์, นอร์เวย์, เกาหลีใต้ และไต้หวัน NÚKIB ระบุว่า “ความกังวลต่อ DeepSeek ไม่ได้เกิดจากวัฒนธรรมร่วมกันหรือภูมิศาสตร์ แต่เป็นผลจากการประเมินความเสี่ยงอย่างเป็นกลาง” และคาดว่าประเทศอื่น ๆ จะออกมาตรการเพิ่มเติมในอีกไม่กี่เดือนข้างหน้า ✅ ข้อมูลจากข่าว - รัฐบาลเช็กประกาศแบนการใช้งาน DeepSeek เนื่องจากความเสี่ยงด้านความมั่นคงไซเบอร์ - DeepSeek เป็นบริษัท AI จากจีนที่เปิดตัวในปี 2023 และได้รับความนิยมในปี 2025 - หน่วยงาน NÚKIB ระบุว่า DeepSeek มีความเชื่อมโยงกับรัฐบาลจีน - อ้างถึงกฎหมายจีนที่บังคับให้บริษัทต้องให้ข้อมูลผู้ใช้แก่รัฐบาล - การแบนครอบคลุมทุกกรณี ยกเว้นนักวิจัยและการใช้งานแบบ self-host ที่ไม่เชื่อมต่อกับเซิร์ฟเวอร์ของบริษัท - ประเทศอื่นที่ออกมาตรการคล้ายกัน ได้แก่ สหรัฐฯ, แคนาดา, ออสเตรเลีย, อินเดีย, อิตาลี, เดนมาร์ก, เนเธอร์แลนด์, นอร์เวย์, เกาหลีใต้ และไต้หวัน ‼️ คำเตือนและข้อควรระวัง - ผู้ใช้ DeepSeek อาจเสี่ยงต่อการถูกเก็บข้อมูลและส่งต่อให้รัฐบาลจีนโดยไม่รู้ตัว - กฎหมายจีนมีอำนาจเหนือบริษัทจีนแม้จะให้บริการในต่างประเทศ - การใช้งานโมเดล AI ที่เชื่อมต่อกับเซิร์ฟเวอร์จีนอาจเปิดช่องให้เกิดการจารกรรมข้อมูล - องค์กรควรหลีกเลี่ยงการใช้บริการจากบริษัทที่มีความเชื่อมโยงกับรัฐบาลต่างชาติในงานที่เกี่ยวข้องกับข้อมูลสำคัญ - การใช้งานโมเดลโอเพนซอร์สควรทำแบบ self-host เพื่อป้องกันการส่งข้อมูลออกนอกองค์กร https://www.tomshardware.com/tech-industry/cyber-security/czechia-warns-that-deepseek-can-share-all-user-information-with-the-chinese-government
    WWW.TOMSHARDWARE.COM
    Czechia warns that DeepSeek can share all user information with the Chinese government
    U.S. lawmakers issued similar warnings after the China-based AI company released its eponymous chatbot.
    0 ความคิดเห็น 0 การแบ่งปัน 533 มุมมอง 0 รีวิว
  • AI สร้างมัลแวร์หลบหลีก Microsoft Defender ได้ – แค่ฝึกสามเดือนก็แฮกทะลุ

    นักวิจัยจาก Outflank ซึ่งเป็นทีม red team ด้านความปลอดภัย เปิดเผยว่า พวกเขาสามารถฝึกโมเดล Qwen 2.5 (โมเดล LLM แบบโอเพนซอร์สจาก Alibaba) ให้สร้างมัลแวร์ที่สามารถหลบหลีก Microsoft Defender for Endpoint ได้สำเร็จประมาณ 8% ของกรณี หลังใช้เวลาเพียง 3 เดือนและงบประมาณราว $1,500

    ผลลัพธ์นี้จะถูกนำเสนอในงาน Black Hat 2025 ซึ่งเป็นงานสัมมนาด้านความปลอดภัยระดับโลก โดยถือเป็น “proof of concept” ที่แสดงให้เห็นว่า AI สามารถถูกนำมาใช้สร้างภัยคุกคามไซเบอร์ได้จริง

    เมื่อเปรียบเทียบกับโมเดลอื่น:
    - Anthropic’s AI ทำได้ <1%
    - DeepSeek ทำได้ <0.5%
    - Qwen 2.5 จึงถือว่ามีประสิทธิภาพสูงกว่ามากในบริบทนี้

    นักวิจัยยังระบุว่า หากมีทรัพยากร GPU มากกว่านี้ และใช้ reinforcement learning อย่างจริงจัง ประสิทธิภาพของโมเดลอาจเพิ่มขึ้นอีกมาก ซึ่งเป็นสัญญาณเตือนสำหรับอนาคตของการโจมตีแบบอัตโนมัติ

    แม้ Microsoft Defender จะยังคงเป็นเครื่องมือที่มีประสิทธิภาพในภาพรวม แต่การพัฒนา AI ฝั่งรุก (offensive AI) กำลังไล่ตามอย่างรวดเร็ว และอาจทำให้ระบบป้องกันต้องปรับตัวอย่างหนักในอนาคต

    ข้อมูลจากข่าว
    - นักวิจัยจาก Outflank ฝึกโมเดล Qwen 2.5 ให้สร้างมัลแวร์ที่หลบหลีก Microsoft Defender ได้
    - ใช้เวลา 3 เดือนและงบประมาณ $1,500 ในการฝึกโมเดล
    - ประสิทธิภาพของโมเดลอยู่ที่ 8% ซึ่งสูงกว่าโมเดลอื่น ๆ ที่ทดสอบ
    - จะมีการนำเสนอผลการทดลองในงาน Black Hat 2025
    - ใช้เทคนิค reinforcement learning เพื่อปรับปรุงความสามารถของโมเดล
    - ถือเป็น proof of concept ที่แสดงให้เห็นว่า AI สามารถสร้างภัยไซเบอร์ได้จริง

    คำเตือนและข้อควรระวัง
    - การใช้ AI สร้างมัลแวร์อาจกลายเป็นเครื่องมือใหม่ของแฮกเกอร์ในอนาคต
    - โมเดลโอเพนซอร์สสามารถถูกนำไปใช้ในทางร้ายได้ หากไม่มีการควบคุม
    - Microsoft Defender อาจต้องปรับปรุงอย่างต่อเนื่องเพื่อรับมือกับภัยคุกคามจาก AI
    - การมี GPU และทรัพยากรเพียงพออาจทำให้บุคคลทั่วไปสามารถฝึกโมเดลโจมตีได้
    - การพึ่งพาเครื่องมือป้องกันเพียงอย่างเดียวไม่เพียงพอ ต้องมีการฝึกอบรมและวางระบบความปลอดภัยเชิงรุก
    - องค์กรควรเริ่มรวม AI threat modeling เข้าในแผนความปลอดภัยไซเบอร์

    https://www.tomshardware.com/tech-industry/cyber-security/ai-malware-can-now-evade-microsoft-defender-open-source-llm-outsmarts-tool-around-8-percent-of-the-time-after-three-months-of-training
    AI สร้างมัลแวร์หลบหลีก Microsoft Defender ได้ – แค่ฝึกสามเดือนก็แฮกทะลุ นักวิจัยจาก Outflank ซึ่งเป็นทีม red team ด้านความปลอดภัย เปิดเผยว่า พวกเขาสามารถฝึกโมเดล Qwen 2.5 (โมเดล LLM แบบโอเพนซอร์สจาก Alibaba) ให้สร้างมัลแวร์ที่สามารถหลบหลีก Microsoft Defender for Endpoint ได้สำเร็จประมาณ 8% ของกรณี หลังใช้เวลาเพียง 3 เดือนและงบประมาณราว $1,500 ผลลัพธ์นี้จะถูกนำเสนอในงาน Black Hat 2025 ซึ่งเป็นงานสัมมนาด้านความปลอดภัยระดับโลก โดยถือเป็น “proof of concept” ที่แสดงให้เห็นว่า AI สามารถถูกนำมาใช้สร้างภัยคุกคามไซเบอร์ได้จริง เมื่อเปรียบเทียบกับโมเดลอื่น: - Anthropic’s AI ทำได้ <1% - DeepSeek ทำได้ <0.5% - Qwen 2.5 จึงถือว่ามีประสิทธิภาพสูงกว่ามากในบริบทนี้ นักวิจัยยังระบุว่า หากมีทรัพยากร GPU มากกว่านี้ และใช้ reinforcement learning อย่างจริงจัง ประสิทธิภาพของโมเดลอาจเพิ่มขึ้นอีกมาก ซึ่งเป็นสัญญาณเตือนสำหรับอนาคตของการโจมตีแบบอัตโนมัติ แม้ Microsoft Defender จะยังคงเป็นเครื่องมือที่มีประสิทธิภาพในภาพรวม แต่การพัฒนา AI ฝั่งรุก (offensive AI) กำลังไล่ตามอย่างรวดเร็ว และอาจทำให้ระบบป้องกันต้องปรับตัวอย่างหนักในอนาคต ✅ ข้อมูลจากข่าว - นักวิจัยจาก Outflank ฝึกโมเดล Qwen 2.5 ให้สร้างมัลแวร์ที่หลบหลีก Microsoft Defender ได้ - ใช้เวลา 3 เดือนและงบประมาณ $1,500 ในการฝึกโมเดล - ประสิทธิภาพของโมเดลอยู่ที่ 8% ซึ่งสูงกว่าโมเดลอื่น ๆ ที่ทดสอบ - จะมีการนำเสนอผลการทดลองในงาน Black Hat 2025 - ใช้เทคนิค reinforcement learning เพื่อปรับปรุงความสามารถของโมเดล - ถือเป็น proof of concept ที่แสดงให้เห็นว่า AI สามารถสร้างภัยไซเบอร์ได้จริง ‼️ คำเตือนและข้อควรระวัง - การใช้ AI สร้างมัลแวร์อาจกลายเป็นเครื่องมือใหม่ของแฮกเกอร์ในอนาคต - โมเดลโอเพนซอร์สสามารถถูกนำไปใช้ในทางร้ายได้ หากไม่มีการควบคุม - Microsoft Defender อาจต้องปรับปรุงอย่างต่อเนื่องเพื่อรับมือกับภัยคุกคามจาก AI - การมี GPU และทรัพยากรเพียงพออาจทำให้บุคคลทั่วไปสามารถฝึกโมเดลโจมตีได้ - การพึ่งพาเครื่องมือป้องกันเพียงอย่างเดียวไม่เพียงพอ ต้องมีการฝึกอบรมและวางระบบความปลอดภัยเชิงรุก - องค์กรควรเริ่มรวม AI threat modeling เข้าในแผนความปลอดภัยไซเบอร์ https://www.tomshardware.com/tech-industry/cyber-security/ai-malware-can-now-evade-microsoft-defender-open-source-llm-outsmarts-tool-around-8-percent-of-the-time-after-three-months-of-training
    WWW.TOMSHARDWARE.COM
    AI malware can now evade Microsoft Defender — open-source LLM outsmarts tool around 8% of the time after three months of training
    Researchers plan to show off a model that successfully outsmarts Microsoft's security tooling about 8% of the time at Black Hat 2025.
    0 ความคิดเห็น 0 การแบ่งปัน 367 มุมมอง 0 รีวิว
  • จีนกำลังสร้างเมืองแห่ง AI กลางทะเลทรายตะวันตก — โครงการนี้ถูกพัฒนาในเมืองอี้อู (Yiwu) โดยมีแผนจะวางระบบดาต้าเซ็นเตอร์ 36 แห่ง เชื่อมต่อกันผ่านโครงข่ายความเร็วสูง → ที่เด็ดคือจำนวนชิป H100/H200 ที่จะใช้งานรวมกันเกิน 115,000 ตัว! → เทียบเท่ากับกริดของบริษัทคลาวด์ขนาดใหญ่ระดับโลกในบางประเทศเลยทีเดียว

    แต่ปัญหาใหญ่อยู่ที่ข้อจำกัดของสหรัฐฯ ที่ห้ามส่งออก NVIDIA รุ่นสูง (H100/H200) ไปยังจีน → แล้ว “จีนจะหาชิปจากไหน?” Bloomberg รายงานว่ามีช่องทางหลายรูปแบบ ทั้ง:
    - การขนย้ายผ่านประเทศในเอเชียตะวันออกเฉียงใต้ เช่น มาเลเซีย–สิงคโปร์
    - การใช้ชิป H20 ที่ยังไม่ถูกควบคุมแบบเข้มข้น
    - และการใช้ loophole ด้านเทรดเพื่อเข้าสู่ระบบภายใน → แสดงให้เห็นว่า มาตรการคุมส่งออกยังไม่สามารถปิดทุกช่องทางได้ 100%

    บริษัทคลื่นลูกใหม่เช่น Zhipu AI และ DeepSeek เริ่มใช้คลัสเตอร์ระดับ Sovereign AI — ที่รัฐบาลสนับสนุนให้สร้าง AI ด้วยทรัพยากรภายในประเทศ → ซึ่งถ้าโครงการนี้เดินหน้าได้จริง = จีนจะมี compute power ที่ใกล้เคียงกับสหรัฐฯ โดยไม่ต้องพึ่งบริษัทตะวันตกเลย

    จีนกำลังสร้างโครงสร้างพื้นฐาน AI ขนาด hyperscale ที่ Yiwu → ครอบคลุม 36 ดาต้าเซ็นเตอร์
    • มีแผนใช้ NVIDIA H100 / H200 รวมกว่า 115,000 ตัว  
    • เป็นหนึ่งในโครงการใหญ่ที่สุดที่เคยสร้างในจีนด้าน AI

    แม้ถูกสหรัฐฯ จำกัดการเข้าถึง H-series → ยังมีการขนย้ายผ่านช่องทางระดับ SEA (เช่น สิงคโปร์–มาเลเซีย)

    จีนยังมีคลัง H20 ที่บริษัท Big Tech ภายในประเทศใช้งานอยู่แล้ว → อาจใช้ทดแทนการขาด H100 ได้ระดับหนึ่ง

    ดาต้าเซ็นเตอร์จีนเติบโตอย่างรวดเร็ว → คาดว่ามูลค่าตลาดจะอยู่ที่ 300 พันล้านหยวนภายในปีนี้

    โครงการยังไม่ได้รับการยืนยันจากฝ่ายสหรัฐฯ → อาจอยู่ในระยะลับหรือวางแผนต้นแบบ

    จีนยังไม่หันไปใช้ชิป Huawei หรือทางเลือกในประเทศสำหรับระบบ hyperscale → แสดงถึงการพึ่ง NVIDIA เป็นหลัก

    https://wccftech.com/chinese-ai-firms-plans-massive-domestic-data-center-with-100000-nvidia-ai-chips/
    จีนกำลังสร้างเมืองแห่ง AI กลางทะเลทรายตะวันตก — โครงการนี้ถูกพัฒนาในเมืองอี้อู (Yiwu) โดยมีแผนจะวางระบบดาต้าเซ็นเตอร์ 36 แห่ง เชื่อมต่อกันผ่านโครงข่ายความเร็วสูง → ที่เด็ดคือจำนวนชิป H100/H200 ที่จะใช้งานรวมกันเกิน 115,000 ตัว! → เทียบเท่ากับกริดของบริษัทคลาวด์ขนาดใหญ่ระดับโลกในบางประเทศเลยทีเดียว แต่ปัญหาใหญ่อยู่ที่ข้อจำกัดของสหรัฐฯ ที่ห้ามส่งออก NVIDIA รุ่นสูง (H100/H200) ไปยังจีน → แล้ว “จีนจะหาชิปจากไหน?” Bloomberg รายงานว่ามีช่องทางหลายรูปแบบ ทั้ง: - การขนย้ายผ่านประเทศในเอเชียตะวันออกเฉียงใต้ เช่น มาเลเซีย–สิงคโปร์ - การใช้ชิป H20 ที่ยังไม่ถูกควบคุมแบบเข้มข้น - และการใช้ loophole ด้านเทรดเพื่อเข้าสู่ระบบภายใน → แสดงให้เห็นว่า มาตรการคุมส่งออกยังไม่สามารถปิดทุกช่องทางได้ 100% บริษัทคลื่นลูกใหม่เช่น Zhipu AI และ DeepSeek เริ่มใช้คลัสเตอร์ระดับ Sovereign AI — ที่รัฐบาลสนับสนุนให้สร้าง AI ด้วยทรัพยากรภายในประเทศ → ซึ่งถ้าโครงการนี้เดินหน้าได้จริง = จีนจะมี compute power ที่ใกล้เคียงกับสหรัฐฯ โดยไม่ต้องพึ่งบริษัทตะวันตกเลย ✅ จีนกำลังสร้างโครงสร้างพื้นฐาน AI ขนาด hyperscale ที่ Yiwu → ครอบคลุม 36 ดาต้าเซ็นเตอร์ • มีแผนใช้ NVIDIA H100 / H200 รวมกว่า 115,000 ตัว   • เป็นหนึ่งในโครงการใหญ่ที่สุดที่เคยสร้างในจีนด้าน AI ✅ แม้ถูกสหรัฐฯ จำกัดการเข้าถึง H-series → ยังมีการขนย้ายผ่านช่องทางระดับ SEA (เช่น สิงคโปร์–มาเลเซีย) ✅ จีนยังมีคลัง H20 ที่บริษัท Big Tech ภายในประเทศใช้งานอยู่แล้ว → อาจใช้ทดแทนการขาด H100 ได้ระดับหนึ่ง ✅ ดาต้าเซ็นเตอร์จีนเติบโตอย่างรวดเร็ว → คาดว่ามูลค่าตลาดจะอยู่ที่ 300 พันล้านหยวนภายในปีนี้ ✅ โครงการยังไม่ได้รับการยืนยันจากฝ่ายสหรัฐฯ → อาจอยู่ในระยะลับหรือวางแผนต้นแบบ ✅ จีนยังไม่หันไปใช้ชิป Huawei หรือทางเลือกในประเทศสำหรับระบบ hyperscale → แสดงถึงการพึ่ง NVIDIA เป็นหลัก https://wccftech.com/chinese-ai-firms-plans-massive-domestic-data-center-with-100000-nvidia-ai-chips/
    WCCFTECH.COM
    Chinese AI Firms Plan Massive Domestic Data Centers With 100,000+ NVIDIA AI Chips — But Where Will the Chips Come From?
    It is reported that China's AI companies have put up a big ambition of installing a "hyperscale" level facility in the nation.
    0 ความคิดเห็น 0 การแบ่งปัน 339 มุมมอง 0 รีวิว
Pages Boosts