• Anthropic จับมือ Google Cloud ขยายกำลังประมวลผล TPU – ตั้งเป้าเกิน 1GW ภายในปี 2026

    Anthropic ผู้พัฒนา AI เบื้องหลัง Claude ได้ลงนามข้อตกลงใหม่กับ Google Cloud เพื่อขยายการใช้ชิป TPU สำหรับฝึกโมเดล AI โดยตั้งเป้าจะมีพลังประมวลผลรวมมากกว่า 1 กิกะวัตต์ภายในปี 2026 ซึ่งถือเป็นการลงทุนครั้งใหญ่เพื่อรองรับความต้องการที่เพิ่มขึ้นอย่างรวดเร็วจากลูกค้าทั่วโลก

    บริษัทเริ่มใช้บริการของ Google Cloud ตั้งแต่ปี 2023 และได้ใช้แพลตฟอร์มต่าง ๆ เช่น Vertex AI และ Google Cloud Marketplace เพื่อให้บริการ Claude แก่ลูกค้า เช่น Figma, Palo Alto Networks และ Cursor

    ข้อตกลงใหม่นี้จะช่วยให้ Anthropic เข้าถึง TPU ได้มากถึง 1 ล้านตัว พร้อมบริการคลาวด์อื่น ๆ จาก Google ซึ่งจะช่วยให้ Claude สามารถรองรับงานจากลูกค้าได้มากขึ้น และพัฒนาโมเดลให้ล้ำหน้ากว่าเดิม

    แม้คู่แข่งอย่าง OpenAI และ xAI จะลงทุนสร้างศูนย์ข้อมูลของตัวเอง แต่ Anthropic เลือกใช้แนวทาง “เช่า” เพื่อหลีกเลี่ยงความเสี่ยงจากการลงทุนฮาร์ดแวร์ระยะยาว และมุ่งเน้นไปที่การพัฒนาโมเดล AI เป็นหลัก

    ข้อตกลงระหว่าง Anthropic และ Google Cloud
    ขยายการใช้ TPU สำหรับฝึกโมเดล Claude
    ตั้งเป้ามีกำลังประมวลผลรวมเกิน 1GW ภายในปี 2026
    เข้าถึง TPU ได้มากถึง 1 ล้านตัว
    ใช้บริการคลาวด์อื่น ๆ เช่น Vertex AI และ Marketplace

    ผลกระทบต่อธุรกิจของ Anthropic
    รองรับความต้องการจากลูกค้าได้มากขึ้น
    พัฒนา Claude ให้ล้ำหน้ากว่าเดิม
    ลูกค้ารายใหญ่ ได้แก่ Figma, Palo Alto Networks, Cursor

    กลยุทธ์เทียบกับคู่แข่ง
    OpenAI และ xAI ลงทุนสร้างศูนย์ข้อมูลของตัวเอง
    Anthropic เลือกเช่าเพื่อลดความเสี่ยงด้านฮาร์ดแวร์
    มุ่งเน้นการพัฒนาโมเดล AI มากกว่าการลงทุนโครงสร้างพื้นฐาน

    https://www.tomshardware.com/tech-industry/artificial-intelligence/anthropic-signs-deal-with-google-cloud-to-expand-tpu-chip-capacity-ai-company-expects-to-have-over-1gw-of-processing-power-in-2026
    🤝 Anthropic จับมือ Google Cloud ขยายกำลังประมวลผล TPU – ตั้งเป้าเกิน 1GW ภายในปี 2026 Anthropic ผู้พัฒนา AI เบื้องหลัง Claude ได้ลงนามข้อตกลงใหม่กับ Google Cloud เพื่อขยายการใช้ชิป TPU สำหรับฝึกโมเดล AI โดยตั้งเป้าจะมีพลังประมวลผลรวมมากกว่า 1 กิกะวัตต์ภายในปี 2026 ซึ่งถือเป็นการลงทุนครั้งใหญ่เพื่อรองรับความต้องการที่เพิ่มขึ้นอย่างรวดเร็วจากลูกค้าทั่วโลก บริษัทเริ่มใช้บริการของ Google Cloud ตั้งแต่ปี 2023 และได้ใช้แพลตฟอร์มต่าง ๆ เช่น Vertex AI และ Google Cloud Marketplace เพื่อให้บริการ Claude แก่ลูกค้า เช่น Figma, Palo Alto Networks และ Cursor ข้อตกลงใหม่นี้จะช่วยให้ Anthropic เข้าถึง TPU ได้มากถึง 1 ล้านตัว พร้อมบริการคลาวด์อื่น ๆ จาก Google ซึ่งจะช่วยให้ Claude สามารถรองรับงานจากลูกค้าได้มากขึ้น และพัฒนาโมเดลให้ล้ำหน้ากว่าเดิม แม้คู่แข่งอย่าง OpenAI และ xAI จะลงทุนสร้างศูนย์ข้อมูลของตัวเอง แต่ Anthropic เลือกใช้แนวทาง “เช่า” เพื่อหลีกเลี่ยงความเสี่ยงจากการลงทุนฮาร์ดแวร์ระยะยาว และมุ่งเน้นไปที่การพัฒนาโมเดล AI เป็นหลัก ✅ ข้อตกลงระหว่าง Anthropic และ Google Cloud ➡️ ขยายการใช้ TPU สำหรับฝึกโมเดล Claude ➡️ ตั้งเป้ามีกำลังประมวลผลรวมเกิน 1GW ภายในปี 2026 ➡️ เข้าถึง TPU ได้มากถึง 1 ล้านตัว ➡️ ใช้บริการคลาวด์อื่น ๆ เช่น Vertex AI และ Marketplace ✅ ผลกระทบต่อธุรกิจของ Anthropic ➡️ รองรับความต้องการจากลูกค้าได้มากขึ้น ➡️ พัฒนา Claude ให้ล้ำหน้ากว่าเดิม ➡️ ลูกค้ารายใหญ่ ได้แก่ Figma, Palo Alto Networks, Cursor ✅ กลยุทธ์เทียบกับคู่แข่ง ➡️ OpenAI และ xAI ลงทุนสร้างศูนย์ข้อมูลของตัวเอง ➡️ Anthropic เลือกเช่าเพื่อลดความเสี่ยงด้านฮาร์ดแวร์ ➡️ มุ่งเน้นการพัฒนาโมเดล AI มากกว่าการลงทุนโครงสร้างพื้นฐาน https://www.tomshardware.com/tech-industry/artificial-intelligence/anthropic-signs-deal-with-google-cloud-to-expand-tpu-chip-capacity-ai-company-expects-to-have-over-1gw-of-processing-power-in-2026
    0 ความคิดเห็น 0 การแบ่งปัน 41 มุมมอง 0 รีวิว
  • จีนเปิดตัวมาตรฐานใหม่ “UBIOS” แทน BIOS และ UEFI เดิม – ก้าวสำคัญสู่การพึ่งพาตนเองด้านเทคโนโลยี

    จีนเดินหน้าสู่การพึ่งพาตนเองด้านเทคโนโลยีอย่างจริงจัง ล่าสุดได้เปิดตัวมาตรฐานเฟิร์มแวร์ใหม่ชื่อว่า “UBIOS” (Unified Basic Input/Output System) เพื่อแทนที่ BIOS และ UEFI ที่ใช้กันมายาวนานในคอมพิวเตอร์ทั่วโลก โดยมาตรฐานนี้ถูกพัฒนาโดยกลุ่มบริษัทเทคโนโลยีจีน 13 แห่ง รวมถึง Huawei และ CESI โดยมีเป้าหมายหลักคือการลดการพึ่งพามาตรฐานจากสหรัฐฯ และสนับสนุนการใช้งานฮาร์ดแวร์ที่ไม่ใช่ x86 เช่น ARM, RISC-V และ LoongArch

    UBIOS ถูกสร้างขึ้นใหม่ทั้งหมด ไม่ได้พัฒนาต่อจาก UEFI ซึ่งจีนมองว่ามีความซับซ้อนเกินไปและถูกควบคุมโดยบริษัทอเมริกันอย่าง Intel และ AMD การพัฒนาใหม่นี้ยังรองรับการใช้งานแบบ heterogeneous computing เช่น เมนบอร์ดที่มี CPU ต่างรุ่นกัน และระบบที่ใช้ชิปแบบ chiplet ซึ่งกำลังเป็นเทรนด์ใหม่ในวงการคอมพิวเตอร์

    การเปิดตัว UBIOS ถือเป็นหนึ่งในความพยายามของจีนตามแผน “Document 79” ที่มีเป้าหมายให้ประเทศเลิกใช้เทคโนโลยีตะวันตกภายในปี 2027 ซึ่งแม้จะเป็นเป้าหมายที่ท้าทาย แต่การมีมาตรฐานเฟิร์มแวร์ของตัวเองก็เป็นก้าวสำคัญที่อาจเปลี่ยนเกมในอนาคต

    การเปิดตัวมาตรฐาน UBIOS
    เป็นเฟิร์มแวร์ใหม่ที่ใช้แทน BIOS และ UEFI
    พัฒนาโดยกลุ่มบริษัทจีน 13 แห่ง เช่น Huawei, CESI
    ไม่พัฒนาต่อจาก UEFI แต่สร้างใหม่ทั้งหมดจาก BIOS เดิม
    รองรับการใช้งานกับ CPU ที่หลากหลาย เช่น ARM, RISC-V, LoongArch
    รองรับการใช้งานแบบ heterogeneous computing และ chiplet
    เตรียมเปิดเผยรายละเอียดเพิ่มเติมในงาน Global Computing Conference ปี 2025 ที่เซินเจิ้น

    เป้าหมายของจีนในการพึ่งพาตนเองด้านเทคโนโลยี
    ลดการพึ่งพามาตรฐานจากสหรัฐฯ เช่น UEFI ที่ควบคุมโดย Intel และ AMD
    สนับสนุนการใช้งานฮาร์ดแวร์ที่ไม่ใช่ x86
    เป็นส่วนหนึ่งของแผน “Document 79” ที่จะเลิกใช้เทคโนโลยีตะวันตกภายในปี 2027

    ความท้าทายและข้อควรระวัง
    ยังไม่แน่ชัดว่า UBIOS จะได้รับการยอมรับในระดับสากลหรือไม่
    อาจเผชิญกับปัญหาความเข้ากันได้กับระบบปฏิบัติการและฮาร์ดแวร์ที่มีอยู่
    การเปลี่ยนมาตรฐานเฟิร์มแวร์อาจส่งผลต่อความมั่นคงของระบบในระยะเริ่มต้น
    หากไม่สามารถสร้าง ecosystem ที่แข็งแรงได้ อาจมีชะตากรรมแบบเดียวกับ LoongArch ที่ไม่เป็นที่นิยม

    https://www.tomshardware.com/software/china-releases-ubios-standard-to-replace-uefi-huawei-backed-bios-firmware-replacement-charges-chinas-domestic-computing-goals
    🇨🇳 จีนเปิดตัวมาตรฐานใหม่ “UBIOS” แทน BIOS และ UEFI เดิม – ก้าวสำคัญสู่การพึ่งพาตนเองด้านเทคโนโลยี จีนเดินหน้าสู่การพึ่งพาตนเองด้านเทคโนโลยีอย่างจริงจัง ล่าสุดได้เปิดตัวมาตรฐานเฟิร์มแวร์ใหม่ชื่อว่า “UBIOS” (Unified Basic Input/Output System) เพื่อแทนที่ BIOS และ UEFI ที่ใช้กันมายาวนานในคอมพิวเตอร์ทั่วโลก โดยมาตรฐานนี้ถูกพัฒนาโดยกลุ่มบริษัทเทคโนโลยีจีน 13 แห่ง รวมถึง Huawei และ CESI โดยมีเป้าหมายหลักคือการลดการพึ่งพามาตรฐานจากสหรัฐฯ และสนับสนุนการใช้งานฮาร์ดแวร์ที่ไม่ใช่ x86 เช่น ARM, RISC-V และ LoongArch UBIOS ถูกสร้างขึ้นใหม่ทั้งหมด ไม่ได้พัฒนาต่อจาก UEFI ซึ่งจีนมองว่ามีความซับซ้อนเกินไปและถูกควบคุมโดยบริษัทอเมริกันอย่าง Intel และ AMD การพัฒนาใหม่นี้ยังรองรับการใช้งานแบบ heterogeneous computing เช่น เมนบอร์ดที่มี CPU ต่างรุ่นกัน และระบบที่ใช้ชิปแบบ chiplet ซึ่งกำลังเป็นเทรนด์ใหม่ในวงการคอมพิวเตอร์ การเปิดตัว UBIOS ถือเป็นหนึ่งในความพยายามของจีนตามแผน “Document 79” ที่มีเป้าหมายให้ประเทศเลิกใช้เทคโนโลยีตะวันตกภายในปี 2027 ซึ่งแม้จะเป็นเป้าหมายที่ท้าทาย แต่การมีมาตรฐานเฟิร์มแวร์ของตัวเองก็เป็นก้าวสำคัญที่อาจเปลี่ยนเกมในอนาคต ✅ การเปิดตัวมาตรฐาน UBIOS ➡️ เป็นเฟิร์มแวร์ใหม่ที่ใช้แทน BIOS และ UEFI ➡️ พัฒนาโดยกลุ่มบริษัทจีน 13 แห่ง เช่น Huawei, CESI ➡️ ไม่พัฒนาต่อจาก UEFI แต่สร้างใหม่ทั้งหมดจาก BIOS เดิม ➡️ รองรับการใช้งานกับ CPU ที่หลากหลาย เช่น ARM, RISC-V, LoongArch ➡️ รองรับการใช้งานแบบ heterogeneous computing และ chiplet ➡️ เตรียมเปิดเผยรายละเอียดเพิ่มเติมในงาน Global Computing Conference ปี 2025 ที่เซินเจิ้น ✅ เป้าหมายของจีนในการพึ่งพาตนเองด้านเทคโนโลยี ➡️ ลดการพึ่งพามาตรฐานจากสหรัฐฯ เช่น UEFI ที่ควบคุมโดย Intel และ AMD ➡️ สนับสนุนการใช้งานฮาร์ดแวร์ที่ไม่ใช่ x86 ➡️ เป็นส่วนหนึ่งของแผน “Document 79” ที่จะเลิกใช้เทคโนโลยีตะวันตกภายในปี 2027 ‼️ ความท้าทายและข้อควรระวัง ⛔ ยังไม่แน่ชัดว่า UBIOS จะได้รับการยอมรับในระดับสากลหรือไม่ ⛔ อาจเผชิญกับปัญหาความเข้ากันได้กับระบบปฏิบัติการและฮาร์ดแวร์ที่มีอยู่ ⛔ การเปลี่ยนมาตรฐานเฟิร์มแวร์อาจส่งผลต่อความมั่นคงของระบบในระยะเริ่มต้น ⛔ หากไม่สามารถสร้าง ecosystem ที่แข็งแรงได้ อาจมีชะตากรรมแบบเดียวกับ LoongArch ที่ไม่เป็นที่นิยม https://www.tomshardware.com/software/china-releases-ubios-standard-to-replace-uefi-huawei-backed-bios-firmware-replacement-charges-chinas-domestic-computing-goals
    WWW.TOMSHARDWARE.COM
    China releases 'UBIOS' standard to replace UEFI — Huawei-backed BIOS firmware replacement charges China's domestic computing goals
    Support for chiplets, heterogeneous computing, and a step away from U.S.-based standards are key features of China's BIOS replacement.
    0 ความคิดเห็น 0 การแบ่งปัน 69 มุมมอง 0 รีวิว
  • “NVIDIA ไม่หวั่นชิป ASIC! เดินเกมรุกด้วยแผนผลิต AI สุดล้ำ พร้อมพันธมิตรระดับโลก”

    ช่วงนี้หลายบริษัทเทคโนโลยียักษ์ใหญ่ เช่น Meta, Amazon และ Google กำลังหันไปพัฒนาชิป ASIC ของตัวเองเพื่อใช้กับงาน AI โดยเฉพาะ ซึ่งเป็นชิปที่ออกแบบมาเฉพาะงาน ทำให้มีประสิทธิภาพสูงและประหยัดพลังงานมากกว่า GPU ทั่วไป แน่นอนว่าการเคลื่อนไหวนี้ส่งผลต่อ NVIDIA โดยตรง เพราะเป็นเจ้าตลาด GPU สำหรับงาน AI มานาน

    แต่ Jensen Huang ซีอีโอของ NVIDIA ก็ไม่ได้นิ่งเฉย เขาเดินเกมรุกด้วยแผนผลิตชิป AI ที่อัปเดตทุก 6–8 เดือน ซึ่งเร็วกว่าคู่แข่งอย่าง AMD ที่อัปเดตปีละครั้ง แถมยังเปิดตัว Rubin CPX ชิปใหม่ที่เน้นงาน inference โดยเฉพาะ ซึ่งเป็นเทรนด์ใหม่ของการประมวลผล AI ในยุคนี้

    นอกจากนี้ NVIDIA ยังจับมือกับพันธมิตรระดับโลก เช่น Intel และ OpenAI เพื่อสร้างระบบ AI ที่ครบวงจร และเปิดตัว NVLink Fusion ที่ช่วยให้ชิปจากค่ายอื่นสามารถเชื่อมต่อกับระบบของ NVIDIA ได้อย่างไร้รอยต่อ เรียกได้ว่าไม่ว่าคุณจะใช้ชิปจากค่ายไหน ถ้าอยากได้ระบบที่ดีที่สุด ก็ต้องพึ่ง NVIDIA อยู่ดี

    Jensen ยังพูดในพอดแคสต์ว่า “ถึงแม้คู่แข่งจะขายชิปฟรี แต่ต้นทุนรวมของระบบ NVIDIA ยังถูกกว่า” เพราะมีการลงทุนด้านโครงสร้างพื้นฐานไปแล้วกว่า 15 พันล้านดอลลาร์

    แม้จะมีคู่แข่งอย่าง Amazon Trainium, Google TPU และ Meta MTIA แต่ด้วยความเร็วในการพัฒนาและพันธมิตรที่แข็งแกร่ง NVIDIA ก็ยังคงเป็นผู้นำในตลาด AI อย่างเหนียวแน่น

    กลยุทธ์ของ NVIDIA ในการรับมือชิป ASIC
    พัฒนาแผนผลิตชิป AI แบบอัปเดตทุก 6–8 เดือน
    เปิดตัว Rubin CPX สำหรับงาน inference โดยเฉพาะ
    จับมือพันธมิตรระดับโลก เช่น Intel และ OpenAI
    เปิดตัว NVLink Fusion เพื่อเชื่อมต่อชิปจากค่ายอื่น
    ลงทุนโครงสร้างพื้นฐานไปแล้วกว่า 15 พันล้านดอลลาร์
    ยืนยันว่าระบบ NVIDIA มีต้นทุนรวมต่ำกว่าคู่แข่ง
    ยังคงเป็นผู้นำในตลาด AI แม้มีคู่แข่งหลายราย

    คู่แข่งและสถานการณ์ในตลาด
    Meta, Amazon, Google พัฒนาชิป ASIC ของตัวเอง
    Amazon มี Trainium, Google มี TPU, Meta มี MTIA
    เทรนด์ใหม่เน้นงาน inference มากกว่าการเทรนโมเดล
    ความเร็วในการพัฒนาคือปัจจัยสำคัญในการแข่งขัน

    ความท้าทายและคำเตือน
    ชิป ASIC มีประสิทธิภาพสูงและประหยัดพลังงาน
    หาก NVIDIA ไม่ปรับตัว อาจเสียส่วนแบ่งตลาด
    การแข่งขันในตลาด AI รุนแรงขึ้นเรื่อย ๆ
    ความเร็วในการพัฒนาอาจกดดันคุณภาพและเสถียรภาพ
    การพึ่งพาพันธมิตรอาจมีความเสี่ยงในระยะยาว

    https://wccftech.com/nvidia-has-already-geared-up-to-challenge-big-tech-custom-ai-chip-ambitions/
    ⚙️ “NVIDIA ไม่หวั่นชิป ASIC! เดินเกมรุกด้วยแผนผลิต AI สุดล้ำ พร้อมพันธมิตรระดับโลก” ช่วงนี้หลายบริษัทเทคโนโลยียักษ์ใหญ่ เช่น Meta, Amazon และ Google กำลังหันไปพัฒนาชิป ASIC ของตัวเองเพื่อใช้กับงาน AI โดยเฉพาะ ซึ่งเป็นชิปที่ออกแบบมาเฉพาะงาน ทำให้มีประสิทธิภาพสูงและประหยัดพลังงานมากกว่า GPU ทั่วไป แน่นอนว่าการเคลื่อนไหวนี้ส่งผลต่อ NVIDIA โดยตรง เพราะเป็นเจ้าตลาด GPU สำหรับงาน AI มานาน แต่ Jensen Huang ซีอีโอของ NVIDIA ก็ไม่ได้นิ่งเฉย เขาเดินเกมรุกด้วยแผนผลิตชิป AI ที่อัปเดตทุก 6–8 เดือน ซึ่งเร็วกว่าคู่แข่งอย่าง AMD ที่อัปเดตปีละครั้ง แถมยังเปิดตัว Rubin CPX ชิปใหม่ที่เน้นงาน inference โดยเฉพาะ ซึ่งเป็นเทรนด์ใหม่ของการประมวลผล AI ในยุคนี้ นอกจากนี้ NVIDIA ยังจับมือกับพันธมิตรระดับโลก เช่น Intel และ OpenAI เพื่อสร้างระบบ AI ที่ครบวงจร และเปิดตัว NVLink Fusion ที่ช่วยให้ชิปจากค่ายอื่นสามารถเชื่อมต่อกับระบบของ NVIDIA ได้อย่างไร้รอยต่อ เรียกได้ว่าไม่ว่าคุณจะใช้ชิปจากค่ายไหน ถ้าอยากได้ระบบที่ดีที่สุด ก็ต้องพึ่ง NVIDIA อยู่ดี Jensen ยังพูดในพอดแคสต์ว่า “ถึงแม้คู่แข่งจะขายชิปฟรี แต่ต้นทุนรวมของระบบ NVIDIA ยังถูกกว่า” เพราะมีการลงทุนด้านโครงสร้างพื้นฐานไปแล้วกว่า 15 พันล้านดอลลาร์ แม้จะมีคู่แข่งอย่าง Amazon Trainium, Google TPU และ Meta MTIA แต่ด้วยความเร็วในการพัฒนาและพันธมิตรที่แข็งแกร่ง NVIDIA ก็ยังคงเป็นผู้นำในตลาด AI อย่างเหนียวแน่น ✅ กลยุทธ์ของ NVIDIA ในการรับมือชิป ASIC ➡️ พัฒนาแผนผลิตชิป AI แบบอัปเดตทุก 6–8 เดือน ➡️ เปิดตัว Rubin CPX สำหรับงาน inference โดยเฉพาะ ➡️ จับมือพันธมิตรระดับโลก เช่น Intel และ OpenAI ➡️ เปิดตัว NVLink Fusion เพื่อเชื่อมต่อชิปจากค่ายอื่น ➡️ ลงทุนโครงสร้างพื้นฐานไปแล้วกว่า 15 พันล้านดอลลาร์ ➡️ ยืนยันว่าระบบ NVIDIA มีต้นทุนรวมต่ำกว่าคู่แข่ง ➡️ ยังคงเป็นผู้นำในตลาด AI แม้มีคู่แข่งหลายราย ✅ คู่แข่งและสถานการณ์ในตลาด ➡️ Meta, Amazon, Google พัฒนาชิป ASIC ของตัวเอง ➡️ Amazon มี Trainium, Google มี TPU, Meta มี MTIA ➡️ เทรนด์ใหม่เน้นงาน inference มากกว่าการเทรนโมเดล ➡️ ความเร็วในการพัฒนาคือปัจจัยสำคัญในการแข่งขัน ‼️ ความท้าทายและคำเตือน ⛔ ชิป ASIC มีประสิทธิภาพสูงและประหยัดพลังงาน ⛔ หาก NVIDIA ไม่ปรับตัว อาจเสียส่วนแบ่งตลาด ⛔ การแข่งขันในตลาด AI รุนแรงขึ้นเรื่อย ๆ ⛔ ความเร็วในการพัฒนาอาจกดดันคุณภาพและเสถียรภาพ ⛔ การพึ่งพาพันธมิตรอาจมีความเสี่ยงในระยะยาว https://wccftech.com/nvidia-has-already-geared-up-to-challenge-big-tech-custom-ai-chip-ambitions/
    WCCFTECH.COM
    NVIDIA Has Already Geared Up to Challenge Big Tech’s Custom AI Chip Ambitions Through AI Alliances & an Unrivaled Product Roadmap
    There's always a concern about how ASICs could pose a challenge to NVIDIA's but it seems like the firm have the prepared 'right weapons'.
    0 ความคิดเห็น 0 การแบ่งปัน 78 มุมมอง 0 รีวิว
  • “Alibaba ลดการใช้ GPU Nvidia ลง 82% ด้วยระบบ Aegaeon — เสิร์ฟ LLM ได้มากขึ้นด้วยทรัพยากรน้อยลง” — เมื่อการจัดสรร GPU แบบใหม่เปลี่ยนเกมการประมวลผล AI ในจีน

    Alibaba Cloud เปิดตัวระบบจัดสรร GPU ใหม่ชื่อว่า “Aegaeon” ซึ่งช่วยลดจำนวน GPU Nvidia ที่ต้องใช้ในการให้บริการโมเดลภาษาใหญ่ (LLM) ลงถึง 82% โดยผลการทดสอบในระบบ Model Studio Marketplace พบว่าเดิมต้องใช้ 1,192 GPU แต่หลังใช้ Aegaeon เหลือเพียง 213 ตัวเท่านั้น

    ระบบนี้ไม่เกี่ยวกับการฝึกโมเดล แต่เน้นช่วง inference — คือการให้โมเดลตอบคำถามหรือสร้างข้อความ โดย Aegaeon ใช้เทคนิค “token-level scheduling” ที่แบ่งงานออกเป็นชิ้นเล็ก ๆ แล้วกระจายไปยัง GPU หลายตัวแบบเสมือน ทำให้ GPU หนึ่งตัวสามารถให้บริการหลายโมเดลพร้อมกันได้

    ผลลัพธ์คือ “goodput” หรือประสิทธิภาพการใช้งานจริงเพิ่มขึ้นถึง 9 เท่าเมื่อเทียบกับระบบ serverless แบบเดิม เช่น ServerlessLLM และ MuxServe

    การทดสอบนี้ใช้ Nvidia H20 ซึ่งเป็นหนึ่งใน GPU ไม่กี่รุ่นที่ยังสามารถขายให้จีนได้ภายใต้ข้อจำกัดจากสหรัฐฯ โดย Alibaba ใช้เทคนิคสองอย่างหลัก ๆ:

    การบรรจุหลายโมเดลลงใน GPU เดียว
    การใช้ autoscaler ที่ปรับการจัดสรรทรัพยากรแบบเรียลไทม์ตามการสร้าง output

    แม้ผลลัพธ์จะน่าประทับใจ แต่ยังไม่ชัดเจนว่าระบบนี้จะใช้ได้ดีนอก Alibaba เพราะอาจต้องพึ่งโครงสร้างพื้นฐานเฉพาะ เช่น eRDMA network และ GPU stack ที่ Alibaba พัฒนาขึ้นเอง

    Alibaba ลดการใช้ GPU Nvidia ลง 82% ด้วยระบบ Aegaeon
    จาก 1,192 ตัวเหลือเพียง 213 ตัวในการให้บริการ LLM

    Aegaeon ใช้ token-level scheduling เพื่อแบ่งงานแบบละเอียด
    ทำให้ GPU หนึ่งตัวสามารถให้บริการหลายโมเดลพร้อมกัน

    ประสิทธิภาพการใช้งานจริง (goodput) เพิ่มขึ้นถึง 9 เท่า
    เมื่อเทียบกับระบบ serverless แบบเดิม

    ใช้ Nvidia H20 ซึ่งยังขายให้จีนได้ภายใต้ข้อจำกัด
    เป็นหนึ่งใน GPU ที่ยังถูกกฎหมายในตลาดจีน

    ใช้ autoscaler ที่จัดสรรทรัพยากรแบบเรียลไทม์
    ไม่ต้องจองทรัพยากรล่วงหน้าแบบเดิม

    ทดสอบในระบบ Model Studio Marketplace ของ Alibaba
    ใช้งานจริงหลายเดือน

    https://www.tomshardware.com/tech-industry/semiconductors/alibaba-says-new-pooling-system-cut-nvidia-gpu-use-by-82-percent
    ⚙️ “Alibaba ลดการใช้ GPU Nvidia ลง 82% ด้วยระบบ Aegaeon — เสิร์ฟ LLM ได้มากขึ้นด้วยทรัพยากรน้อยลง” — เมื่อการจัดสรร GPU แบบใหม่เปลี่ยนเกมการประมวลผล AI ในจีน Alibaba Cloud เปิดตัวระบบจัดสรร GPU ใหม่ชื่อว่า “Aegaeon” ซึ่งช่วยลดจำนวน GPU Nvidia ที่ต้องใช้ในการให้บริการโมเดลภาษาใหญ่ (LLM) ลงถึง 82% โดยผลการทดสอบในระบบ Model Studio Marketplace พบว่าเดิมต้องใช้ 1,192 GPU แต่หลังใช้ Aegaeon เหลือเพียง 213 ตัวเท่านั้น ระบบนี้ไม่เกี่ยวกับการฝึกโมเดล แต่เน้นช่วง inference — คือการให้โมเดลตอบคำถามหรือสร้างข้อความ โดย Aegaeon ใช้เทคนิค “token-level scheduling” ที่แบ่งงานออกเป็นชิ้นเล็ก ๆ แล้วกระจายไปยัง GPU หลายตัวแบบเสมือน ทำให้ GPU หนึ่งตัวสามารถให้บริการหลายโมเดลพร้อมกันได้ ผลลัพธ์คือ “goodput” หรือประสิทธิภาพการใช้งานจริงเพิ่มขึ้นถึง 9 เท่าเมื่อเทียบกับระบบ serverless แบบเดิม เช่น ServerlessLLM และ MuxServe การทดสอบนี้ใช้ Nvidia H20 ซึ่งเป็นหนึ่งใน GPU ไม่กี่รุ่นที่ยังสามารถขายให้จีนได้ภายใต้ข้อจำกัดจากสหรัฐฯ โดย Alibaba ใช้เทคนิคสองอย่างหลัก ๆ: 🎗️ การบรรจุหลายโมเดลลงใน GPU เดียว 🎗️ การใช้ autoscaler ที่ปรับการจัดสรรทรัพยากรแบบเรียลไทม์ตามการสร้าง output แม้ผลลัพธ์จะน่าประทับใจ แต่ยังไม่ชัดเจนว่าระบบนี้จะใช้ได้ดีนอก Alibaba เพราะอาจต้องพึ่งโครงสร้างพื้นฐานเฉพาะ เช่น eRDMA network และ GPU stack ที่ Alibaba พัฒนาขึ้นเอง ✅ Alibaba ลดการใช้ GPU Nvidia ลง 82% ด้วยระบบ Aegaeon ➡️ จาก 1,192 ตัวเหลือเพียง 213 ตัวในการให้บริการ LLM ✅ Aegaeon ใช้ token-level scheduling เพื่อแบ่งงานแบบละเอียด ➡️ ทำให้ GPU หนึ่งตัวสามารถให้บริการหลายโมเดลพร้อมกัน ✅ ประสิทธิภาพการใช้งานจริง (goodput) เพิ่มขึ้นถึง 9 เท่า ➡️ เมื่อเทียบกับระบบ serverless แบบเดิม ✅ ใช้ Nvidia H20 ซึ่งยังขายให้จีนได้ภายใต้ข้อจำกัด ➡️ เป็นหนึ่งใน GPU ที่ยังถูกกฎหมายในตลาดจีน ✅ ใช้ autoscaler ที่จัดสรรทรัพยากรแบบเรียลไทม์ ➡️ ไม่ต้องจองทรัพยากรล่วงหน้าแบบเดิม ✅ ทดสอบในระบบ Model Studio Marketplace ของ Alibaba ➡️ ใช้งานจริงหลายเดือน https://www.tomshardware.com/tech-industry/semiconductors/alibaba-says-new-pooling-system-cut-nvidia-gpu-use-by-82-percent
    WWW.TOMSHARDWARE.COM
    Alibaba Cloud says it cut Nvidia AI GPU use by 82% with new pooling system— up to 9x increase in output lets 213 GPUs perform like 1,192
    A paper presented at SOSP 2025 details how token-level scheduling helped one GPU serve multiple LLMs, reducing demand from 1,192 to 213 H20s.
    0 ความคิดเห็น 0 การแบ่งปัน 96 มุมมอง 0 รีวิว
  • “Gemini 3.0 โผล่ผ่าน A/B Test บน Google AI Studio — เผยศักยภาพผ่านการสร้าง SVG”

    Rick Lamers ได้ทดลองใช้งาน Google AI Studio และพบว่าเขาอาจได้เข้าถึงโมเดล Gemini 3.0 ผ่านระบบ A/B testing โดยไม่ได้ตั้งใจ จุดสังเกตคือคุณภาพของภาพ SVG ที่โมเดลสร้างขึ้นจาก prompt “Create an SVG image of an Xbox 360 controller” ซึ่งให้ผลลัพธ์ที่ “น่าประทับใจมาก” เมื่อเทียบกับโมเดลอื่น ๆ ที่เขาเคยทดสอบ

    เขาใช้การสร้าง SVG เป็นตัวชี้วัดคุณภาพของโมเดล โดยอ้างอิงจากแนวทางของ @simonw ที่ใช้ prompt “pelican riding a bicycle” เป็น benchmark สำหรับทดสอบ reasoning และความสามารถด้านการเข้าใจโครงสร้างภาพ

    แม้ว่าโมเดลจะระบุว่าเป็น Gemini 2.5 Pro แต่ Lamers สันนิษฐานว่าเบื้องหลังอาจเป็น Gemini 3.0 Pro ที่กำลังถูกทดสอบแบบเงียบ ๆ เพราะผลลัพธ์มีลักษณะต่างจาก Gemini 2.5 อย่างชัดเจน เช่น:

    เวลา TTFT (Time To First Token) สูงขึ้นประมาณ 24 วินาที
    ความยาว output เพิ่มขึ้นราว 40% (รวม reasoning tokens)

    เขายังสังเกตว่า model ID ที่ปรากฏคือ “ecpt50a2y6mpgkcn” ซึ่งไม่สามารถยืนยันได้ว่าเป็น Gemini 3.0 จริงหรือไม่ แต่ความแตกต่างในคุณภาพและพฤติกรรมของโมเดลทำให้เขาเชื่อว่า Google กำลังทดสอบ Gemini 3.0 แบบเบื้องหลัง

    Rick Lamers พบโมเดลที่น่าจะเป็น Gemini 3.0 ผ่าน A/B testing บน Google AI Studio
    โดยใช้การสร้าง SVG เป็นตัวชี้วัดคุณภาพ

    Prompt ที่ใช้คือ “Create an SVG image of an Xbox 360 controller”
    ผลลัพธ์น่าประทับใจเมื่อเทียบกับโมเดลอื่น

    ใช้แนวทางของ @simonw ที่ใช้ prompt “pelican riding a bicycle” เป็น benchmark
    เพื่อทดสอบ reasoning และความเข้าใจโครงสร้างภาพ

    โมเดลแสดง model ID ว่า “ecpt50a2y6mpgkcn”
    ไม่สามารถยืนยันได้ว่าเป็น Gemini 3.0 จริงหรือไม่

    TTFT เพิ่มขึ้น 24 วินาที และ output ยาวขึ้น 40%
    บ่งชี้ว่าอาจเป็นโมเดลที่ใหญ่หรือซับซ้อนกว่าเดิม

    https://ricklamers.io/posts/gemini-3-spotted-in-the-wild/
    🧪 “Gemini 3.0 โผล่ผ่าน A/B Test บน Google AI Studio — เผยศักยภาพผ่านการสร้าง SVG” Rick Lamers ได้ทดลองใช้งาน Google AI Studio และพบว่าเขาอาจได้เข้าถึงโมเดล Gemini 3.0 ผ่านระบบ A/B testing โดยไม่ได้ตั้งใจ จุดสังเกตคือคุณภาพของภาพ SVG ที่โมเดลสร้างขึ้นจาก prompt “Create an SVG image of an Xbox 360 controller” ซึ่งให้ผลลัพธ์ที่ “น่าประทับใจมาก” เมื่อเทียบกับโมเดลอื่น ๆ ที่เขาเคยทดสอบ เขาใช้การสร้าง SVG เป็นตัวชี้วัดคุณภาพของโมเดล โดยอ้างอิงจากแนวทางของ @simonw ที่ใช้ prompt “pelican riding a bicycle” เป็น benchmark สำหรับทดสอบ reasoning และความสามารถด้านการเข้าใจโครงสร้างภาพ แม้ว่าโมเดลจะระบุว่าเป็น Gemini 2.5 Pro แต่ Lamers สันนิษฐานว่าเบื้องหลังอาจเป็น Gemini 3.0 Pro ที่กำลังถูกทดสอบแบบเงียบ ๆ เพราะผลลัพธ์มีลักษณะต่างจาก Gemini 2.5 อย่างชัดเจน เช่น: ⭕ เวลา TTFT (Time To First Token) สูงขึ้นประมาณ 24 วินาที ⭕ ความยาว output เพิ่มขึ้นราว 40% (รวม reasoning tokens) เขายังสังเกตว่า model ID ที่ปรากฏคือ “ecpt50a2y6mpgkcn” ซึ่งไม่สามารถยืนยันได้ว่าเป็น Gemini 3.0 จริงหรือไม่ แต่ความแตกต่างในคุณภาพและพฤติกรรมของโมเดลทำให้เขาเชื่อว่า Google กำลังทดสอบ Gemini 3.0 แบบเบื้องหลัง ✅ Rick Lamers พบโมเดลที่น่าจะเป็น Gemini 3.0 ผ่าน A/B testing บน Google AI Studio ➡️ โดยใช้การสร้าง SVG เป็นตัวชี้วัดคุณภาพ ✅ Prompt ที่ใช้คือ “Create an SVG image of an Xbox 360 controller” ➡️ ผลลัพธ์น่าประทับใจเมื่อเทียบกับโมเดลอื่น ✅ ใช้แนวทางของ @simonw ที่ใช้ prompt “pelican riding a bicycle” เป็น benchmark ➡️ เพื่อทดสอบ reasoning และความเข้าใจโครงสร้างภาพ ✅ โมเดลแสดง model ID ว่า “ecpt50a2y6mpgkcn” ➡️ ไม่สามารถยืนยันได้ว่าเป็น Gemini 3.0 จริงหรือไม่ ✅ TTFT เพิ่มขึ้น 24 วินาที และ output ยาวขึ้น 40% ➡️ บ่งชี้ว่าอาจเป็นโมเดลที่ใหญ่หรือซับซ้อนกว่าเดิม https://ricklamers.io/posts/gemini-3-spotted-in-the-wild/
    RICKLAMERS.IO
    Gemini 3.0 Spotted in the Wild Through A/B Testing
    Testing Google's highly anticipated Gemini 3.0 through AI Studio's A/B feature using SVG generation as a quality proxy
    0 ความคิดเห็น 0 การแบ่งปัน 146 มุมมอง 0 รีวิว
  • “Claude Haiku 4.5 เปิดตัวแล้ว” — โมเดลเล็กที่เร็วกว่า ถูกกว่า และฉลาดใกล้เคียงระดับแนวหน้า

    Anthropic เปิดตัว Claude Haiku 4.5 ซึ่งเป็นโมเดลขนาดเล็กที่ให้ประสิทธิภาพใกล้เคียงกับ Claude Sonnet 4.5 แต่มีต้นทุนเพียงหนึ่งในสาม และความเร็วมากกว่าสองเท่า โดยเฉพาะในงานที่ต้องการความเร็วแบบเรียลไทม์ เช่น แชตบอท, ตัวช่วยเขียนโค้ด, หรือผู้ช่วยบริการลูกค้า

    Claude Haiku 4.5 ยังสามารถใช้ร่วมกับ Sonnet 4.5 ได้อย่างมีประสิทธิภาพ เช่น ให้ Sonnet วางแผนหลายขั้นตอน แล้วให้ Haiku 4.5 หลายตัวทำงานย่อยแบบขนานกัน ซึ่งช่วยลดเวลาและต้นทุนในการประมวลผล

    ด้านความปลอดภัย Claude Haiku 4.5 ได้รับการจัดอยู่ในระดับ AI Safety Level 2 (ASL-2) ซึ่งปลอดภัยกว่ารุ่นก่อนหน้า และมีอัตราการเบี่ยงเบนพฤติกรรมต่ำกว่าทั้ง Sonnet 4.5 และ Opus 4.1 โดยผ่านการทดสอบด้าน alignment และความเสี่ยงจากการใช้งานในงานอ่อนไหว เช่น CBRN (เคมี ชีวภาพ รังสี นิวเคลียร์)

    นักพัฒนาและผู้ใช้ทั่วไปสามารถใช้งาน Claude Haiku 4.5 ได้แล้ววันนี้ผ่าน Claude API, Amazon Bedrock และ Google Cloud Vertex AI โดยมีราคาที่ประหยัดที่สุดในกลุ่มผลิตภัณฑ์ Claude

    ข้อมูลในข่าว
    Claude Haiku 4.5 เป็นโมเดลขนาดเล็กที่เปิดตัวล่าสุดจาก Anthropic
    ให้ประสิทธิภาพใกล้เคียง Sonnet 4.5 แต่เร็วกว่าและถูกกว่ามาก
    เหมาะกับงานที่ต้องการความเร็ว เช่น แชตบอทและตัวช่วยเขียนโค้ด
    สามารถใช้ร่วมกับ Sonnet 4.5 เพื่อแบ่งงานย่อยแบบขนาน
    รองรับการใช้งานผ่าน Claude API, Amazon Bedrock และ Google Cloud Vertex AI
    ราคาอยู่ที่ $1/$5 ต่อ input/output tokens หนึ่งล้านหน่วย
    ผ่านการทดสอบด้านความปลอดภัยและ alignment อย่างละเอียด
    ได้รับการจัดอยู่ในระดับ AI Safety Level 2 (ASL-2)
    มีอัตราพฤติกรรมเบี่ยงเบนต่ำกว่ารุ่นก่อนหน้าและรุ่นระดับสูง
    เหมาะกับงานที่ต้องการทั้งความฉลาดและความเร็วแบบเรียลไทม์

    คำเตือนจากข้อมูลข่าว
    แม้จะเร็วและถูกกว่า แต่ Haiku 4.5 ยังไม่เทียบเท่ารุ่นแนวหน้าในทุกด้าน
    การใช้ Haiku 4.5 ในงานที่ซับซ้อนมากอาจต้องพึ่ง Sonnet 4.5 ในการวางแผน
    แม้จะปลอดภัยกว่า แต่ยังต้องมีการควบคุมการใช้งานในบริบทอ่อนไหว
    การใช้งานในระบบที่ต้องการความแม่นยำสูงควรพิจารณาโมเดลที่เหมาะสมกับงาน

    https://www.anthropic.com/news/claude-haiku-4-5
    ⚡ “Claude Haiku 4.5 เปิดตัวแล้ว” — โมเดลเล็กที่เร็วกว่า ถูกกว่า และฉลาดใกล้เคียงระดับแนวหน้า Anthropic เปิดตัว Claude Haiku 4.5 ซึ่งเป็นโมเดลขนาดเล็กที่ให้ประสิทธิภาพใกล้เคียงกับ Claude Sonnet 4.5 แต่มีต้นทุนเพียงหนึ่งในสาม และความเร็วมากกว่าสองเท่า โดยเฉพาะในงานที่ต้องการความเร็วแบบเรียลไทม์ เช่น แชตบอท, ตัวช่วยเขียนโค้ด, หรือผู้ช่วยบริการลูกค้า Claude Haiku 4.5 ยังสามารถใช้ร่วมกับ Sonnet 4.5 ได้อย่างมีประสิทธิภาพ เช่น ให้ Sonnet วางแผนหลายขั้นตอน แล้วให้ Haiku 4.5 หลายตัวทำงานย่อยแบบขนานกัน ซึ่งช่วยลดเวลาและต้นทุนในการประมวลผล ด้านความปลอดภัย Claude Haiku 4.5 ได้รับการจัดอยู่ในระดับ AI Safety Level 2 (ASL-2) ซึ่งปลอดภัยกว่ารุ่นก่อนหน้า และมีอัตราการเบี่ยงเบนพฤติกรรมต่ำกว่าทั้ง Sonnet 4.5 และ Opus 4.1 โดยผ่านการทดสอบด้าน alignment และความเสี่ยงจากการใช้งานในงานอ่อนไหว เช่น CBRN (เคมี ชีวภาพ รังสี นิวเคลียร์) นักพัฒนาและผู้ใช้ทั่วไปสามารถใช้งาน Claude Haiku 4.5 ได้แล้ววันนี้ผ่าน Claude API, Amazon Bedrock และ Google Cloud Vertex AI โดยมีราคาที่ประหยัดที่สุดในกลุ่มผลิตภัณฑ์ Claude ✅ ข้อมูลในข่าว ➡️ Claude Haiku 4.5 เป็นโมเดลขนาดเล็กที่เปิดตัวล่าสุดจาก Anthropic ➡️ ให้ประสิทธิภาพใกล้เคียง Sonnet 4.5 แต่เร็วกว่าและถูกกว่ามาก ➡️ เหมาะกับงานที่ต้องการความเร็ว เช่น แชตบอทและตัวช่วยเขียนโค้ด ➡️ สามารถใช้ร่วมกับ Sonnet 4.5 เพื่อแบ่งงานย่อยแบบขนาน ➡️ รองรับการใช้งานผ่าน Claude API, Amazon Bedrock และ Google Cloud Vertex AI ➡️ ราคาอยู่ที่ $1/$5 ต่อ input/output tokens หนึ่งล้านหน่วย ➡️ ผ่านการทดสอบด้านความปลอดภัยและ alignment อย่างละเอียด ➡️ ได้รับการจัดอยู่ในระดับ AI Safety Level 2 (ASL-2) ➡️ มีอัตราพฤติกรรมเบี่ยงเบนต่ำกว่ารุ่นก่อนหน้าและรุ่นระดับสูง ➡️ เหมาะกับงานที่ต้องการทั้งความฉลาดและความเร็วแบบเรียลไทม์ ‼️ คำเตือนจากข้อมูลข่าว ⛔ แม้จะเร็วและถูกกว่า แต่ Haiku 4.5 ยังไม่เทียบเท่ารุ่นแนวหน้าในทุกด้าน ⛔ การใช้ Haiku 4.5 ในงานที่ซับซ้อนมากอาจต้องพึ่ง Sonnet 4.5 ในการวางแผน ⛔ แม้จะปลอดภัยกว่า แต่ยังต้องมีการควบคุมการใช้งานในบริบทอ่อนไหว ⛔ การใช้งานในระบบที่ต้องการความแม่นยำสูงควรพิจารณาโมเดลที่เหมาะสมกับงาน https://www.anthropic.com/news/claude-haiku-4-5
    WWW.ANTHROPIC.COM
    Introducing Claude Haiku 4.5
    Claude Haiku 4.5, our latest small model, is available today to all users.
    0 ความคิดเห็น 0 การแบ่งปัน 104 มุมมอง 0 รีวิว
  • “MediaTek Dimensity 9500 สอนบทเรียนให้ Google” — เมื่อชิป SoC ราคาประหยัดกลับแซง Tensor G5 แบบไม่ไว้หน้า

    MediaTek สร้างแรงสั่นสะเทือนในวงการสมาร์ตโฟนด้วยชิป Dimensity 9500 ที่สามารถเอาชนะ Tensor G5 ของ Google ได้ในหลายการทดสอบ benchmark โดยใช้เทคโนโลยี ARM แบบทั่วไป ไม่ต้องพึ่งการออกแบบเฉพาะตัวเหมือนที่ Google ทำ

    Dimensity 9500 มาพร้อม CPU แบบ 8 คอร์ที่ใช้ ARM C1 รุ่นล่าสุด โดยมีคอร์ Ultra ที่แรงถึง 4.21GHz และ GPU Mali-G1 Ultra MC12 ที่รองรับ ray-tracing และเล่นเกมได้ลื่นถึง 120fps ในขณะที่ Tensor G5 ใช้ Cortex-X4 ที่เก่ากว่า และ GPU จาก Imagination ที่ไม่มี ray-tracing เลย

    ด้าน AI Dimensity 9500 ใช้ NPU 990 ส่วน Tensor G5 ใช้ TPU ที่ออกแบบเอง แต่กลับมีปัญหาเรื่องความร้อนและ throttling เมื่อเจองานหนัก โดยเฉพาะใน Pixel 10 รุ่นพื้นฐานที่ไม่มี vapor chamber สำหรับระบายความร้อน

    ที่น่าตกใจคือราคาของ Dimensity 9500 อยู่ที่ประมาณ $180–$200 ในขณะที่ Google ตั้งเป้าราคาชิป Tensor G5 ไว้เพียง $65 แต่กลับขาย Pixel 10 ที่ใช้ชิปนี้ในราคาเท่ากับ iPhone 17 คือ $799 โดยไม่มีการลดราคาแม้จะรู้ว่าชิปมีข้อจำกัด

    บทความชี้ว่า Google ควรเรียนรู้จาก MediaTek ในการใช้เทคโนโลยีที่มีอยู่ให้เกิดประโยชน์สูงสุด โดยไม่ต้องลดต้นทุนจนกระทบต่อคุณภาพ และไม่ควรตั้งราคาสินค้าระดับพรีเมียมหากประสิทธิภาพยังไม่ถึงระดับนั้น

    ข้อมูลในข่าว
    Dimensity 9500 เอาชนะ Tensor G5 ในหลายการทดสอบ benchmark
    ใช้ ARM C1 รุ่นล่าสุดและ GPU Mali-G1 Ultra MC12 ที่รองรับ ray-tracing
    Tensor G5 ใช้ Cortex-X4 ที่เก่ากว่า และ GPU ที่ไม่มี ray-tracing
    Dimensity 9500 ใช้ NPU 990 ส่วน Tensor G5 ใช้ TPU ที่ออกแบบเอง
    Pixel 10 รุ่นพื้นฐานไม่มี vapor chamber ทำให้เกิดความร้อนและ throttling
    Dimensity 9500 มีราคาประมาณ $180–$200 ส่วน Tensor G5 ตั้งเป้าไว้ที่ $65
    Pixel 10 ขายราคาเท่ากับ iPhone 17 โดยไม่มีการลดราคา

    คำเตือนจากข้อมูลข่าว
    การลดต้นทุนชิปอาจส่งผลต่อประสิทธิภาพและความร้อนของอุปกรณ์
    การตั้งราคาสูงโดยไม่รองรับประสิทธิภาพระดับพรีเมียม อาจทำให้ผู้บริโภคไม่พอใจ
    การไม่ใส่ vapor chamber ในรุ่นพื้นฐาน อาจทำให้เครื่องร้อนและประสิทธิภาพลดลง
    การใช้ GPU ที่ไม่มี ray-tracing อาจลดคุณภาพการเล่นเกมและกราฟิก

    https://wccftech.com/mediatek-dimensity-9500-shows-google-tensor-g5-the-way/
    📱 “MediaTek Dimensity 9500 สอนบทเรียนให้ Google” — เมื่อชิป SoC ราคาประหยัดกลับแซง Tensor G5 แบบไม่ไว้หน้า MediaTek สร้างแรงสั่นสะเทือนในวงการสมาร์ตโฟนด้วยชิป Dimensity 9500 ที่สามารถเอาชนะ Tensor G5 ของ Google ได้ในหลายการทดสอบ benchmark โดยใช้เทคโนโลยี ARM แบบทั่วไป ไม่ต้องพึ่งการออกแบบเฉพาะตัวเหมือนที่ Google ทำ Dimensity 9500 มาพร้อม CPU แบบ 8 คอร์ที่ใช้ ARM C1 รุ่นล่าสุด โดยมีคอร์ Ultra ที่แรงถึง 4.21GHz และ GPU Mali-G1 Ultra MC12 ที่รองรับ ray-tracing และเล่นเกมได้ลื่นถึง 120fps ในขณะที่ Tensor G5 ใช้ Cortex-X4 ที่เก่ากว่า และ GPU จาก Imagination ที่ไม่มี ray-tracing เลย ด้าน AI Dimensity 9500 ใช้ NPU 990 ส่วน Tensor G5 ใช้ TPU ที่ออกแบบเอง แต่กลับมีปัญหาเรื่องความร้อนและ throttling เมื่อเจองานหนัก โดยเฉพาะใน Pixel 10 รุ่นพื้นฐานที่ไม่มี vapor chamber สำหรับระบายความร้อน ที่น่าตกใจคือราคาของ Dimensity 9500 อยู่ที่ประมาณ $180–$200 ในขณะที่ Google ตั้งเป้าราคาชิป Tensor G5 ไว้เพียง $65 แต่กลับขาย Pixel 10 ที่ใช้ชิปนี้ในราคาเท่ากับ iPhone 17 คือ $799 โดยไม่มีการลดราคาแม้จะรู้ว่าชิปมีข้อจำกัด บทความชี้ว่า Google ควรเรียนรู้จาก MediaTek ในการใช้เทคโนโลยีที่มีอยู่ให้เกิดประโยชน์สูงสุด โดยไม่ต้องลดต้นทุนจนกระทบต่อคุณภาพ และไม่ควรตั้งราคาสินค้าระดับพรีเมียมหากประสิทธิภาพยังไม่ถึงระดับนั้น ✅ ข้อมูลในข่าว ➡️ Dimensity 9500 เอาชนะ Tensor G5 ในหลายการทดสอบ benchmark ➡️ ใช้ ARM C1 รุ่นล่าสุดและ GPU Mali-G1 Ultra MC12 ที่รองรับ ray-tracing ➡️ Tensor G5 ใช้ Cortex-X4 ที่เก่ากว่า และ GPU ที่ไม่มี ray-tracing ➡️ Dimensity 9500 ใช้ NPU 990 ส่วน Tensor G5 ใช้ TPU ที่ออกแบบเอง ➡️ Pixel 10 รุ่นพื้นฐานไม่มี vapor chamber ทำให้เกิดความร้อนและ throttling ➡️ Dimensity 9500 มีราคาประมาณ $180–$200 ส่วน Tensor G5 ตั้งเป้าไว้ที่ $65 ➡️ Pixel 10 ขายราคาเท่ากับ iPhone 17 โดยไม่มีการลดราคา ‼️ คำเตือนจากข้อมูลข่าว ⛔ การลดต้นทุนชิปอาจส่งผลต่อประสิทธิภาพและความร้อนของอุปกรณ์ ⛔ การตั้งราคาสูงโดยไม่รองรับประสิทธิภาพระดับพรีเมียม อาจทำให้ผู้บริโภคไม่พอใจ ⛔ การไม่ใส่ vapor chamber ในรุ่นพื้นฐาน อาจทำให้เครื่องร้อนและประสิทธิภาพลดลง ⛔ การใช้ GPU ที่ไม่มี ray-tracing อาจลดคุณภาพการเล่นเกมและกราฟิก https://wccftech.com/mediatek-dimensity-9500-shows-google-tensor-g5-the-way/
    WCCFTECH.COM
    MediaTek Dimensity 9500 Shows Google's Tensor G5 The Way
    Google is charging Apple-level prices for the Tensor G5, a silicon that shows a proclivity for heating up and throttle.
    0 ความคิดเห็น 0 การแบ่งปัน 157 มุมมอง 0 รีวิว
  • “OpenAI จับมือ Broadcom สร้างชิป AI 10GW – ก้าวใหม่สู่ยุคฮาร์ดแวร์เฉพาะทาง”

    ในโลกที่ AI กำลังกลายเป็นหัวใจของทุกอุตสาหกรรม OpenAI ไม่หยุดอยู่แค่การพัฒนาโมเดลอัจฉริยะ แต่กำลังเดินหน้าสู่การสร้าง “ฮาร์ดแวร์เฉพาะทาง” ด้วยตัวเอง โดยล่าสุดได้ประกาศความร่วมมือกับ Broadcom ในการพัฒนาและติดตั้งระบบเร่งการประมวลผล (accelerators) สำหรับงาน AI ขนาดมหึมา รวมถึงระบบแร็คเซิร์ฟเวอร์ที่รองรับพลังงานรวมถึง 10 กิกะวัตต์

    ข้อตกลงนี้เป็นส่วนหนึ่งของยุทธศาสตร์ระยะยาวของ OpenAI ที่ต้องการลดการพึ่งพา GPU จาก Nvidia และหันมาใช้ชิปที่ออกแบบเอง โดยอาศัยความเชี่ยวชาญด้านเครือข่ายและ IP ฮาร์ดแวร์จาก Broadcom ซึ่งเคยผลิตชิป AI ให้กับ Google TPU มาก่อน

    ระบบใหม่จะใช้โครงสร้างเครือข่ายแบบ Ethernet เพื่อให้สามารถขยายได้ง่าย และไม่ผูกติดกับผู้ผลิตรายใดรายหนึ่ง โดยการติดตั้งจะเริ่มในครึ่งหลังของปี 2026 และคาดว่าจะเสร็จสมบูรณ์ภายในปี 2029

    นอกจากนี้ OpenAI ยังมีดีลกับ AMD และ Nvidia รวมถึง CoreWeave ซึ่งรวมแล้วมีการลงทุนในฮาร์ดแวร์มากกว่า 26 กิกะวัตต์ทั่วโลก ถือเป็นการเตรียมความพร้อมสำหรับการฝึกและใช้งานโมเดล AI ขนาดใหญ่ในอนาคต

    ข้อตกลงระหว่าง OpenAI และ Broadcom
    ร่วมกันพัฒนาและติดตั้งระบบเร่งการประมวลผล AI ขนาด 10GW
    OpenAI ออกแบบตัวเร่งและระบบ ส่วน Broadcom รับผิดชอบการผลิตและติดตั้ง
    เริ่มใช้งานจริงในครึ่งหลังของปี 2026 และเสร็จสิ้นภายในปี 2029

    เป้าหมายของ OpenAI
    ลดการพึ่งพา GPU จาก Nvidia
    สร้างฮาร์ดแวร์เฉพาะทางที่เหมาะกับงานฝึกและใช้งานโมเดล AI
    ใช้โครงสร้าง Ethernet เพื่อความยืดหยุ่นและขยายง่าย

    ความร่วมมือเพิ่มเติม
    มีดีลกับ Nvidia, AMD และ CoreWeave รวมถึง 26GW ของฮาร์ดแวร์
    Broadcom เคยผลิตชิป AI ให้ Google TPU และมีความเชี่ยวชาญด้าน IP
    OpenAI ได้เปรียบจาก supply chain ที่มั่นคงและทีมออกแบบ ASIC ระดับโลก

    ผลกระทบต่ออุตสาหกรรม
    บริษัทใหญ่หลายราย เช่น Amazon, Google, Meta และ Microsoft กำลังพัฒนาชิป AI เอง
    ตลาดกำลังเปลี่ยนจาก GPU-centric ไปสู่ระบบเร่งแบบเฉพาะทาง
    ความสามารถในการผลิตและออกแบบชิปจะเป็นตัวชี้วัดความได้เปรียบในยุค AI

    ความท้าทายและข้อควรระวัง
    ยังไม่มีการเปิดเผยผู้ผลิตชิป (foundry), การบรรจุ (packaging) หรือชนิดหน่วยความจำ
    การออกแบบและผลิตชิปใช้เวลานานและต้องการความแม่นยำสูง
    ความสำเร็จของระบบใหม่ยังต้องพิสูจน์ในระดับการใช้งานจริง
    Ecosystem ของ Broadcom ยังไม่เทียบเท่ากับ CUDA ของ Nvidia ในด้านซอฟต์แวร์และเครื่องมือ

    https://www.tomshardware.com/openai-broadcom-to-co-develop-10gw-of-custom-ai-chips
    🤖 “OpenAI จับมือ Broadcom สร้างชิป AI 10GW – ก้าวใหม่สู่ยุคฮาร์ดแวร์เฉพาะทาง” ในโลกที่ AI กำลังกลายเป็นหัวใจของทุกอุตสาหกรรม OpenAI ไม่หยุดอยู่แค่การพัฒนาโมเดลอัจฉริยะ แต่กำลังเดินหน้าสู่การสร้าง “ฮาร์ดแวร์เฉพาะทาง” ด้วยตัวเอง โดยล่าสุดได้ประกาศความร่วมมือกับ Broadcom ในการพัฒนาและติดตั้งระบบเร่งการประมวลผล (accelerators) สำหรับงาน AI ขนาดมหึมา รวมถึงระบบแร็คเซิร์ฟเวอร์ที่รองรับพลังงานรวมถึง 10 กิกะวัตต์ ข้อตกลงนี้เป็นส่วนหนึ่งของยุทธศาสตร์ระยะยาวของ OpenAI ที่ต้องการลดการพึ่งพา GPU จาก Nvidia และหันมาใช้ชิปที่ออกแบบเอง โดยอาศัยความเชี่ยวชาญด้านเครือข่ายและ IP ฮาร์ดแวร์จาก Broadcom ซึ่งเคยผลิตชิป AI ให้กับ Google TPU มาก่อน ระบบใหม่จะใช้โครงสร้างเครือข่ายแบบ Ethernet เพื่อให้สามารถขยายได้ง่าย และไม่ผูกติดกับผู้ผลิตรายใดรายหนึ่ง โดยการติดตั้งจะเริ่มในครึ่งหลังของปี 2026 และคาดว่าจะเสร็จสมบูรณ์ภายในปี 2029 นอกจากนี้ OpenAI ยังมีดีลกับ AMD และ Nvidia รวมถึง CoreWeave ซึ่งรวมแล้วมีการลงทุนในฮาร์ดแวร์มากกว่า 26 กิกะวัตต์ทั่วโลก ถือเป็นการเตรียมความพร้อมสำหรับการฝึกและใช้งานโมเดล AI ขนาดใหญ่ในอนาคต ✅ ข้อตกลงระหว่าง OpenAI และ Broadcom ➡️ ร่วมกันพัฒนาและติดตั้งระบบเร่งการประมวลผล AI ขนาด 10GW ➡️ OpenAI ออกแบบตัวเร่งและระบบ ส่วน Broadcom รับผิดชอบการผลิตและติดตั้ง ➡️ เริ่มใช้งานจริงในครึ่งหลังของปี 2026 และเสร็จสิ้นภายในปี 2029 ✅ เป้าหมายของ OpenAI ➡️ ลดการพึ่งพา GPU จาก Nvidia ➡️ สร้างฮาร์ดแวร์เฉพาะทางที่เหมาะกับงานฝึกและใช้งานโมเดล AI ➡️ ใช้โครงสร้าง Ethernet เพื่อความยืดหยุ่นและขยายง่าย ✅ ความร่วมมือเพิ่มเติม ➡️ มีดีลกับ Nvidia, AMD และ CoreWeave รวมถึง 26GW ของฮาร์ดแวร์ ➡️ Broadcom เคยผลิตชิป AI ให้ Google TPU และมีความเชี่ยวชาญด้าน IP ➡️ OpenAI ได้เปรียบจาก supply chain ที่มั่นคงและทีมออกแบบ ASIC ระดับโลก ✅ ผลกระทบต่ออุตสาหกรรม ➡️ บริษัทใหญ่หลายราย เช่น Amazon, Google, Meta และ Microsoft กำลังพัฒนาชิป AI เอง ➡️ ตลาดกำลังเปลี่ยนจาก GPU-centric ไปสู่ระบบเร่งแบบเฉพาะทาง ➡️ ความสามารถในการผลิตและออกแบบชิปจะเป็นตัวชี้วัดความได้เปรียบในยุค AI ‼️ ความท้าทายและข้อควรระวัง ⛔ ยังไม่มีการเปิดเผยผู้ผลิตชิป (foundry), การบรรจุ (packaging) หรือชนิดหน่วยความจำ ⛔ การออกแบบและผลิตชิปใช้เวลานานและต้องการความแม่นยำสูง ⛔ ความสำเร็จของระบบใหม่ยังต้องพิสูจน์ในระดับการใช้งานจริง ⛔ Ecosystem ของ Broadcom ยังไม่เทียบเท่ากับ CUDA ของ Nvidia ในด้านซอฟต์แวร์และเครื่องมือ https://www.tomshardware.com/openai-broadcom-to-co-develop-10gw-of-custom-ai-chips
    WWW.TOMSHARDWARE.COM
    OpenAI and Broadcom to co-develop 10GW of custom AI chips in yet another blockbuster AI partnership — deployments start in 2026
    The AI firm’s latest hardware deal locks in another 10 gigawatts of capacity as it moves to design its own accelerators.
    0 ความคิดเห็น 0 การแบ่งปัน 176 มุมมอง 0 รีวิว
  • "Tensor G5: ชิปเรือธงจาก Google ที่สะดุดกลางสนามแข่งสมาร์ตโฟน"

    ลองนึกภาพว่าคุณกำลังรอสมาร์ตโฟน Pixel รุ่นใหม่จาก Google ที่มาพร้อมชิป Tensor G5 ซึ่งผลิตบนเทคโนโลยี 3nm ของ TSMC ฟังดูน่าตื่นเต้นใช่ไหม? แต่เมื่อเปิดตัวจริงกลับพบว่า Tensor G5 มีปัญหาเรื่องความร้อนและการ throttle อย่างหนัก โดยเฉพาะในการเล่นเกมหรือแม้แต่การจำลอง PlayStation 2

    สาเหตุหลักมาจากการออกแบบชิปแบบ “ปะติดปะต่อ” ของ Google ที่ใช้คอร์ CPU จาก ARM แบบสำเร็จรูป ไม่ได้พัฒนาเองเหมือนคู่แข่งอย่าง Qualcomm ที่ใช้คอร์ Oryon แบบ custom ซึ่งมีความเร็วสูงและระบบ cache ที่ปรับแต่งมาอย่างดี

    GPU ที่ใช้ก็เป็น Imagination IMG DXT-48-1536 ซึ่งแม้จะมีประสิทธิภาพใกล้เคียง Adreno หรือ Mali แต่ไม่มี ray-tracing และ Google ยังต้องพึ่งพา Imagination ในการอัปเดตไดรเวอร์ ทำให้ขาดความคล่องตัวในการปรับแต่ง

    แม้ Tensor G5 จะมี TPU รุ่นใหม่สำหรับงาน AI และใช้โมเด็ม Exynos 5G แต่เมื่อเทียบกับ Snapdragon 8 Elite Gen 5 แล้ว ยังห่างไกลในด้านประสิทธิภาพและการควบคุมความร้อน

    สถาปัตยกรรมของ Tensor G5
    CPU แบบ 8-core: Cortex-X4, Cortex-A725, Cortex-A520
    GPU: Imagination IMG DXT-48-1536 ไม่มี ray-tracing
    TPU รุ่นที่ 5 สำหรับงาน AI
    โมเด็ม Exynos 5G
    ผลิตบนเทคโนโลยี 3nm ของ TSMC

    ปัญหาหลักของ Tensor G5
    เกิดความร้อนสูงและ throttle อย่างรวดเร็ว
    ประสิทธิภาพต่ำในการเล่นเกมและ emulation
    คะแนน Geekbench และ 3DMark ต่ำกว่าคู่แข่ง

    ข้อเปรียบเทียบกับ Snapdragon 8 Elite Gen 5
    ใช้คอร์ Oryon แบบ custom ที่มีความเร็วสูง
    มี L2 cache ขนาด 12MB สำหรับทั้ง prime และ performance cores
    ปรับแต่งระบบภายในได้ละเอียดกว่า

    ข้อจำกัดด้าน GPU และไดรเวอร์
    Google ต้องพึ่งพา Imagination ในการอัปเดตไดรเวอร์
    ขาดความสามารถในการควบคุมและปรับแต่งแบบเต็มรูปแบบ

    คำเตือนสำหรับผู้ใช้ Pixel 10 ที่ใช้ Tensor G5
    อาจพบปัญหาความร้อนและประสิทธิภาพตกในการใช้งานหนัก
    การเล่นเกมหรือใช้งาน AI อาจไม่ลื่นไหลเท่าที่คาดหวัง
    การพึ่งพาเทคโนโลยีจากภายนอกทำให้ Google ขาดความยืดหยุ่นในการพัฒนา

    Tensor G5 เป็นตัวอย่างของการพยายามลดต้นทุนด้วยการใช้ส่วนประกอบสำเร็จรูป แต่ในโลกของสมาร์ตโฟนระดับเรือธง ความเร็ว ความร้อน และความเสถียรคือสิ่งที่ผู้ใช้คาดหวังสูงสุด และดูเหมือนว่า Google ยังต้องปรับกลยุทธ์อีกมากหากต้องการแข่งขันกับ Qualcomm และ Apple อย่างเต็มตัว.

    https://wccftech.com/the-flaw-in-tensor-g5/
    📲 "Tensor G5: ชิปเรือธงจาก Google ที่สะดุดกลางสนามแข่งสมาร์ตโฟน" ลองนึกภาพว่าคุณกำลังรอสมาร์ตโฟน Pixel รุ่นใหม่จาก Google ที่มาพร้อมชิป Tensor G5 ซึ่งผลิตบนเทคโนโลยี 3nm ของ TSMC ฟังดูน่าตื่นเต้นใช่ไหม? แต่เมื่อเปิดตัวจริงกลับพบว่า Tensor G5 มีปัญหาเรื่องความร้อนและการ throttle อย่างหนัก โดยเฉพาะในการเล่นเกมหรือแม้แต่การจำลอง PlayStation 2 สาเหตุหลักมาจากการออกแบบชิปแบบ “ปะติดปะต่อ” ของ Google ที่ใช้คอร์ CPU จาก ARM แบบสำเร็จรูป ไม่ได้พัฒนาเองเหมือนคู่แข่งอย่าง Qualcomm ที่ใช้คอร์ Oryon แบบ custom ซึ่งมีความเร็วสูงและระบบ cache ที่ปรับแต่งมาอย่างดี GPU ที่ใช้ก็เป็น Imagination IMG DXT-48-1536 ซึ่งแม้จะมีประสิทธิภาพใกล้เคียง Adreno หรือ Mali แต่ไม่มี ray-tracing และ Google ยังต้องพึ่งพา Imagination ในการอัปเดตไดรเวอร์ ทำให้ขาดความคล่องตัวในการปรับแต่ง แม้ Tensor G5 จะมี TPU รุ่นใหม่สำหรับงาน AI และใช้โมเด็ม Exynos 5G แต่เมื่อเทียบกับ Snapdragon 8 Elite Gen 5 แล้ว ยังห่างไกลในด้านประสิทธิภาพและการควบคุมความร้อน ✅ สถาปัตยกรรมของ Tensor G5 ➡️ CPU แบบ 8-core: Cortex-X4, Cortex-A725, Cortex-A520 ➡️ GPU: Imagination IMG DXT-48-1536 ไม่มี ray-tracing ➡️ TPU รุ่นที่ 5 สำหรับงาน AI ➡️ โมเด็ม Exynos 5G ➡️ ผลิตบนเทคโนโลยี 3nm ของ TSMC ✅ ปัญหาหลักของ Tensor G5 ➡️ เกิดความร้อนสูงและ throttle อย่างรวดเร็ว ➡️ ประสิทธิภาพต่ำในการเล่นเกมและ emulation ➡️ คะแนน Geekbench และ 3DMark ต่ำกว่าคู่แข่ง ✅ ข้อเปรียบเทียบกับ Snapdragon 8 Elite Gen 5 ➡️ ใช้คอร์ Oryon แบบ custom ที่มีความเร็วสูง ➡️ มี L2 cache ขนาด 12MB สำหรับทั้ง prime และ performance cores ➡️ ปรับแต่งระบบภายในได้ละเอียดกว่า ✅ ข้อจำกัดด้าน GPU และไดรเวอร์ ➡️ Google ต้องพึ่งพา Imagination ในการอัปเดตไดรเวอร์ ➡️ ขาดความสามารถในการควบคุมและปรับแต่งแบบเต็มรูปแบบ ‼️ คำเตือนสำหรับผู้ใช้ Pixel 10 ที่ใช้ Tensor G5 ⛔ อาจพบปัญหาความร้อนและประสิทธิภาพตกในการใช้งานหนัก ⛔ การเล่นเกมหรือใช้งาน AI อาจไม่ลื่นไหลเท่าที่คาดหวัง ⛔ การพึ่งพาเทคโนโลยีจากภายนอกทำให้ Google ขาดความยืดหยุ่นในการพัฒนา Tensor G5 เป็นตัวอย่างของการพยายามลดต้นทุนด้วยการใช้ส่วนประกอบสำเร็จรูป แต่ในโลกของสมาร์ตโฟนระดับเรือธง ความเร็ว ความร้อน และความเสถียรคือสิ่งที่ผู้ใช้คาดหวังสูงสุด และดูเหมือนว่า Google ยังต้องปรับกลยุทธ์อีกมากหากต้องการแข่งขันกับ Qualcomm และ Apple อย่างเต็มตัว. https://wccftech.com/the-flaw-in-tensor-g5/
    WCCFTECH.COM
    The Flaw In Google Pixel's New Tensor G5 Chip
    Google's design strategy for the Tensor G5 chip is akin to buying an off-the-rack suit and then paying for some fittings here and there.
    0 ความคิดเห็น 0 การแบ่งปัน 170 มุมมอง 0 รีวิว
  • หัวข้อข่าว: <output> แท็กที่ถูกลืมใน HTML แต่ทรงพลังเกินคาด — ตัวช่วยใหม่เพื่อการเข้าถึงที่แท้จริง

    ลองนึกถึงแท็ก HTML ที่สามารถแสดงผลลัพธ์แบบไดนามิก พร้อมรองรับการเข้าถึง (accessibility) โดยไม่ต้องเขียน ARIA เพิ่มเติม — นั่นคือ <output> แท็กที่อยู่ในสเปก HTML มาตั้งแต่ปี 2008 แต่แทบไม่มีใครพูดถึง

    Den Odell ผู้เขียนบทความนี้เล่าว่าเขาค้นพบแท็ก <output> ขณะทำโปรเจกต์ด้าน accessibility ที่ต้องแสดงคะแนนความเสี่ยงแบบเรียลไทม์ให้ผู้ใช้เห็นและ “ได้ยิน” ผ่าน screen reader เดิมทีเขาใช้ ARIA live region ซึ่งทำงานได้ แต่รู้สึกว่าเป็นการ “แปะ” แก้ปัญหาเฉพาะหน้า จนกระทั่งเขาพบว่า <output> ถูกออกแบบมาเพื่อสิ่งนี้โดยเฉพาะ

    แท็ก <output> จะประกาศค่าที่เปลี่ยนแปลงให้ screen reader โดยอัตโนมัติ โดยไม่รบกวนผู้ใช้ และยังสามารถเชื่อมโยงกับ <input> ได้ด้วย attribute for="" เพื่อระบุว่า output นี้ขึ้นอยู่กับ input ตัวใด

    ตัวอย่างการใช้งานมีตั้งแต่เครื่องคิดเลข, slider ที่แสดงค่าระยะทาง, การแจ้งเตือนความแข็งแรงของรหัสผ่าน ไปจนถึงการแสดงราคาค่าขนส่งที่ดึงมาจาก API แบบเรียลไทม์

    แม้ว่า <output> จะยังมีข้อจำกัด เช่น บาง screen reader ยังไม่รองรับการอ่านค่าที่เปลี่ยนแปลงได้ดีนัก แต่ก็สามารถแก้ได้ด้วยการเพิ่ม role="status" แบบชัดเจน

    สรุปเนื้อหาบทความและข้อมูลเสริม
    <output> คือแท็ก HTML สำหรับแสดงผลลัพธ์แบบไดนามิก
    ใช้แสดงค่าที่คำนวณหรือเกิดจากการกระทำของผู้ใช้
    ถูกแมปไปยัง role="status" ใน accessibility tree โดยอัตโนมัติ

    ความสามารถด้าน accessibility
    screen reader อ่านค่าที่เปลี่ยนแปลงโดยไม่รบกวนผู้ใช้
    อ่านค่าทั้งหมด ไม่ใช่แค่ส่วนที่เปลี่ยน

    การใช้งานร่วมกับ <input>
    ใช้ attribute for="" เพื่อเชื่อมโยงกับ input หลายตัว
    ไม่จำเป็นต้องอยู่ใน <form> ก็ใช้งานได้

    ตัวอย่างการใช้งานจริง
    เครื่องคิดเลขที่แสดงผลลัพธ์ทันที
    การแสดงค่าจาก slider เช่น “10,000 miles/year”
    การแจ้งเตือนความแข็งแรงของรหัสผ่าน
    การแสดงผลลัพธ์จาก API เช่นราคาค่าขนส่ง

    ข้อมูลเสริมจากภายนอก
    <output> อยู่ในสเปก HTML5 มาตั้งแต่ปี 2008
    รองรับในเบราว์เซอร์หลักและ screen reader ส่วนใหญ่
    ใช้งานร่วมกับ React, Vue และเฟรมเวิร์ก JavaScript อื่นได้ดี
    เป็นแท็ก inline โดยดีไซน์ สามารถจัดสไตล์ได้เหมือน <span> หรือ <div>

    คำเตือนเกี่ยวกับการใช้งาน <output>
    บาง screen reader ยังไม่รองรับการประกาศค่าที่เปลี่ยนแปลง
    ควรเพิ่ม role="status" เพื่อให้แน่ใจว่าค่าจะถูกอ่าน
    ไม่ควรใช้ <output> สำหรับการแจ้งเตือนทั่วไป เช่น toast message หรือ error message

    การกลับมาให้ความสนใจกับ <output> คือการย้ำเตือนว่า HTML ยังมีขุมทรัพย์ที่ถูกลืมซ่อนอยู่มากมาย และบางครั้งคำตอบที่ดีที่สุดก็อาจอยู่ตรงหน้าเรามานานแล้ว โดยไม่ต้องพึ่งพา JavaScript หรือ ARIA เสมอไปครับ

    https://denodell.com/blog/html-best-kept-secret-output-tag
    📰 หัวข้อข่าว: <output> แท็กที่ถูกลืมใน HTML แต่ทรงพลังเกินคาด — ตัวช่วยใหม่เพื่อการเข้าถึงที่แท้จริง ลองนึกถึงแท็ก HTML ที่สามารถแสดงผลลัพธ์แบบไดนามิก พร้อมรองรับการเข้าถึง (accessibility) โดยไม่ต้องเขียน ARIA เพิ่มเติม — นั่นคือ <output> แท็กที่อยู่ในสเปก HTML มาตั้งแต่ปี 2008 แต่แทบไม่มีใครพูดถึง Den Odell ผู้เขียนบทความนี้เล่าว่าเขาค้นพบแท็ก <output> ขณะทำโปรเจกต์ด้าน accessibility ที่ต้องแสดงคะแนนความเสี่ยงแบบเรียลไทม์ให้ผู้ใช้เห็นและ “ได้ยิน” ผ่าน screen reader เดิมทีเขาใช้ ARIA live region ซึ่งทำงานได้ แต่รู้สึกว่าเป็นการ “แปะ” แก้ปัญหาเฉพาะหน้า จนกระทั่งเขาพบว่า <output> ถูกออกแบบมาเพื่อสิ่งนี้โดยเฉพาะ แท็ก <output> จะประกาศค่าที่เปลี่ยนแปลงให้ screen reader โดยอัตโนมัติ โดยไม่รบกวนผู้ใช้ และยังสามารถเชื่อมโยงกับ <input> ได้ด้วย attribute for="" เพื่อระบุว่า output นี้ขึ้นอยู่กับ input ตัวใด ตัวอย่างการใช้งานมีตั้งแต่เครื่องคิดเลข, slider ที่แสดงค่าระยะทาง, การแจ้งเตือนความแข็งแรงของรหัสผ่าน ไปจนถึงการแสดงราคาค่าขนส่งที่ดึงมาจาก API แบบเรียลไทม์ แม้ว่า <output> จะยังมีข้อจำกัด เช่น บาง screen reader ยังไม่รองรับการอ่านค่าที่เปลี่ยนแปลงได้ดีนัก แต่ก็สามารถแก้ได้ด้วยการเพิ่ม role="status" แบบชัดเจน 📌 สรุปเนื้อหาบทความและข้อมูลเสริม ✅ <output> คือแท็ก HTML สำหรับแสดงผลลัพธ์แบบไดนามิก ➡️ ใช้แสดงค่าที่คำนวณหรือเกิดจากการกระทำของผู้ใช้ ➡️ ถูกแมปไปยัง role="status" ใน accessibility tree โดยอัตโนมัติ ✅ ความสามารถด้าน accessibility ➡️ screen reader อ่านค่าที่เปลี่ยนแปลงโดยไม่รบกวนผู้ใช้ ➡️ อ่านค่าทั้งหมด ไม่ใช่แค่ส่วนที่เปลี่ยน ✅ การใช้งานร่วมกับ <input> ➡️ ใช้ attribute for="" เพื่อเชื่อมโยงกับ input หลายตัว ➡️ ไม่จำเป็นต้องอยู่ใน <form> ก็ใช้งานได้ ✅ ตัวอย่างการใช้งานจริง ➡️ เครื่องคิดเลขที่แสดงผลลัพธ์ทันที ➡️ การแสดงค่าจาก slider เช่น “10,000 miles/year” ➡️ การแจ้งเตือนความแข็งแรงของรหัสผ่าน ➡️ การแสดงผลลัพธ์จาก API เช่นราคาค่าขนส่ง ✅ ข้อมูลเสริมจากภายนอก ➡️ <output> อยู่ในสเปก HTML5 มาตั้งแต่ปี 2008 ➡️ รองรับในเบราว์เซอร์หลักและ screen reader ส่วนใหญ่ ➡️ ใช้งานร่วมกับ React, Vue และเฟรมเวิร์ก JavaScript อื่นได้ดี ➡️ เป็นแท็ก inline โดยดีไซน์ สามารถจัดสไตล์ได้เหมือน <span> หรือ <div> ‼️ คำเตือนเกี่ยวกับการใช้งาน <output> ⛔ บาง screen reader ยังไม่รองรับการประกาศค่าที่เปลี่ยนแปลง ⛔ ควรเพิ่ม role="status" เพื่อให้แน่ใจว่าค่าจะถูกอ่าน ⛔ ไม่ควรใช้ <output> สำหรับการแจ้งเตือนทั่วไป เช่น toast message หรือ error message การกลับมาให้ความสนใจกับ <output> คือการย้ำเตือนว่า HTML ยังมีขุมทรัพย์ที่ถูกลืมซ่อนอยู่มากมาย และบางครั้งคำตอบที่ดีที่สุดก็อาจอยู่ตรงหน้าเรามานานแล้ว โดยไม่ต้องพึ่งพา JavaScript หรือ ARIA เสมอไปครับ https://denodell.com/blog/html-best-kept-secret-output-tag
    DENODELL.COM
    HTML’s Best Kept Secret: The output Tag
    Make your dynamic content accessible by default with the HTML tag that time forgot.
    0 ความคิดเห็น 0 การแบ่งปัน 110 มุมมอง 0 รีวิว
  • https://youtube.com/shorts/liQaBm2zBRk?si=9ehUBkMYTPu1s8nJ
    https://youtube.com/shorts/liQaBm2zBRk?si=9ehUBkMYTPu1s8nJ
    0 ความคิดเห็น 0 การแบ่งปัน 46 มุมมอง 0 รีวิว
  • “OCuLink แซง Thunderbolt 5 ในการทดสอบ RTX 5070 Ti — เกมเมอร์สาย eGPU อาจต้องคิดใหม่ก่อนเลือกพอร์ต”

    ในยุคที่การใช้ eGPU (external GPU) กลายเป็นทางเลือกยอดนิยมสำหรับผู้ใช้โน้ตบุ๊กและพีซีขนาดเล็ก คำถามสำคัญคือ “จะเชื่อมต่อผ่านอะไรดีที่สุด?” ล่าสุดเว็บไซต์ Tom’s Hardware ได้เผยผลการทดสอบที่ชี้ชัดว่า OCuLink ซึ่งเป็นการเชื่อมต่อแบบ PCIe โดยตรง ให้ประสิทธิภาพเหนือกว่า Thunderbolt 5 อย่างชัดเจน โดยเฉพาะในการเล่นเกม

    OCuLink (Optical-Copper Link) เป็นมาตรฐานที่พัฒนาโดย PCI-SIG เพื่อเชื่อมต่ออุปกรณ์ผ่าน PCIe โดยตรง โดยไม่ต้องผ่านการแปลงโปรโตคอลเหมือน Thunderbolt หรือ USB ซึ่งช่วยลด latency และเพิ่มประสิทธิภาพการส่งข้อมูล โดย OCuLink รองรับ PCIe 3.0 และ 4.0 แบบ 4 เลน ให้แบนด์วิดธ์สูงสุดถึง 64 GT/s

    ในทางกลับกัน Thunderbolt 5 แม้จะมีฟีเจอร์ครบครัน เช่น การชาร์จไฟ การส่งภาพ และการเชื่อมต่อ USB ผ่านสายเดียว แต่ก็ต้องแลกกับ overhead จากการแปลงโปรโตคอล ซึ่งส่งผลให้ประสิทธิภาพลดลง โดยเฉพาะในงานที่ต้องการแบนด์วิดธ์สูงและ latency ต่ำ เช่น การเล่นเกมผ่าน eGPU

    จากการทดสอบด้วย RTX 5070 Ti พบว่า OCuLink ให้ค่า throughput สูงถึง 6.6 GB/s (host-to-device) และ 6.7 GB/s (device-to-host) ขณะที่ Thunderbolt 5 ทำได้เพียง 5.6 และ 5.8 GB/s ตามลำดับ และเมื่อทดสอบเกมจริง 12 เกม Thunderbolt 5 มีค่า FPS เฉลี่ยต่ำกว่า OCuLink ถึง 13–14% โดยเฉพาะในเกมที่ใช้กราฟิกหนัก เช่น Spider-Man: Miles Morales และ Red Dead Redemption 2 ซึ่ง Thunderbolt 5 แพ้ถึง 20–23%

    แม้ Thunderbolt 5 จะสะดวกกว่าในแง่การใช้งานทั่วไป แต่สำหรับผู้ใช้ที่ต้องการประสิทธิภาพสูงสุดในการเล่นเกมผ่าน eGPU OCuLink ยังคงเป็นตัวเลือกที่แรงกว่า — แม้จะยังไม่แพร่หลายในตลาดทั่วไป และต้องใช้ฮาร์ดแวร์เฉพาะทาง

    ข้อมูลสำคัญจากข่าว
    OCuLink เป็นการเชื่อมต่อแบบ PCIe โดยตรง ไม่ผ่านการแปลงโปรโตคอล
    รองรับ PCIe 3.0 และ 4.0 แบบ 4 เลน ให้แบนด์วิดธ์สูงสุด 64 GT/s
    Thunderbolt 5 รองรับ PCIe 4.0 x4 เช่นกัน แต่มี overhead จากการแปลงโปรโตคอล
    OCuLink ให้ throughput สูงถึง 6.6–6.7 GB/s ขณะที่ Thunderbolt 5 ทำได้เพียง 5.6–5.8 GB/s
    ในการทดสอบเกม 12 เกม Thunderbolt 5 มี FPS ต่ำกว่า OCuLink เฉลี่ย 13–14%
    เกมที่ Thunderbolt 5 แพ้หนัก ได้แก่ Spider-Man: Miles Morales (-20%) และ Red Dead Redemption 2 (-23%)
    Ghost of Tsushima เป็นเกมเดียวที่ทั้งสามระบบทำได้ 120 FPS เท่ากัน
    Thunderbolt 5 ยังมีข้อดีด้านความสะดวก เช่น การชาร์จไฟและส่งภาพผ่านสายเดียว

    ข้อมูลเสริมจากภายนอก
    OCuLink เคยใช้ในเซิร์ฟเวอร์และ SSD มาก่อน ก่อนถูกนำมาใช้กับ GPU
    Thunderbolt 5 มีฟีเจอร์ใหม่ เช่น การชาร์จ 240W และส่งภาพระดับ 120 GT/s
    eGPU ที่ใช้ Thunderbolt 5 เช่น Peladn Link S-3 มีพอร์ตหลากหลายแต่ยังมีข้อจำกัดด้านสาย
    OCuLink ไม่รองรับการ hot-swap และไม่มีฟีเจอร์ USB หรือ video output
    โน้ตบุ๊กที่รองรับ OCuLink ยังมีน้อยมาก ส่วนใหญ่ต้องใช้กับพีซีหรือ mini-PC เฉพาะทาง

    https://www.tomshardware.com/pc-components/gpus/oculink-outpaces-thunderbolt-5-in-nvidia-rtx-5070-ti-tests-latter-up-to-14-percent-slower-on-average-in-gaming-benchmarks
    ⚡ “OCuLink แซง Thunderbolt 5 ในการทดสอบ RTX 5070 Ti — เกมเมอร์สาย eGPU อาจต้องคิดใหม่ก่อนเลือกพอร์ต” ในยุคที่การใช้ eGPU (external GPU) กลายเป็นทางเลือกยอดนิยมสำหรับผู้ใช้โน้ตบุ๊กและพีซีขนาดเล็ก คำถามสำคัญคือ “จะเชื่อมต่อผ่านอะไรดีที่สุด?” ล่าสุดเว็บไซต์ Tom’s Hardware ได้เผยผลการทดสอบที่ชี้ชัดว่า OCuLink ซึ่งเป็นการเชื่อมต่อแบบ PCIe โดยตรง ให้ประสิทธิภาพเหนือกว่า Thunderbolt 5 อย่างชัดเจน โดยเฉพาะในการเล่นเกม OCuLink (Optical-Copper Link) เป็นมาตรฐานที่พัฒนาโดย PCI-SIG เพื่อเชื่อมต่ออุปกรณ์ผ่าน PCIe โดยตรง โดยไม่ต้องผ่านการแปลงโปรโตคอลเหมือน Thunderbolt หรือ USB ซึ่งช่วยลด latency และเพิ่มประสิทธิภาพการส่งข้อมูล โดย OCuLink รองรับ PCIe 3.0 และ 4.0 แบบ 4 เลน ให้แบนด์วิดธ์สูงสุดถึง 64 GT/s ในทางกลับกัน Thunderbolt 5 แม้จะมีฟีเจอร์ครบครัน เช่น การชาร์จไฟ การส่งภาพ และการเชื่อมต่อ USB ผ่านสายเดียว แต่ก็ต้องแลกกับ overhead จากการแปลงโปรโตคอล ซึ่งส่งผลให้ประสิทธิภาพลดลง โดยเฉพาะในงานที่ต้องการแบนด์วิดธ์สูงและ latency ต่ำ เช่น การเล่นเกมผ่าน eGPU จากการทดสอบด้วย RTX 5070 Ti พบว่า OCuLink ให้ค่า throughput สูงถึง 6.6 GB/s (host-to-device) และ 6.7 GB/s (device-to-host) ขณะที่ Thunderbolt 5 ทำได้เพียง 5.6 และ 5.8 GB/s ตามลำดับ และเมื่อทดสอบเกมจริง 12 เกม Thunderbolt 5 มีค่า FPS เฉลี่ยต่ำกว่า OCuLink ถึง 13–14% โดยเฉพาะในเกมที่ใช้กราฟิกหนัก เช่น Spider-Man: Miles Morales และ Red Dead Redemption 2 ซึ่ง Thunderbolt 5 แพ้ถึง 20–23% แม้ Thunderbolt 5 จะสะดวกกว่าในแง่การใช้งานทั่วไป แต่สำหรับผู้ใช้ที่ต้องการประสิทธิภาพสูงสุดในการเล่นเกมผ่าน eGPU OCuLink ยังคงเป็นตัวเลือกที่แรงกว่า — แม้จะยังไม่แพร่หลายในตลาดทั่วไป และต้องใช้ฮาร์ดแวร์เฉพาะทาง ✅ ข้อมูลสำคัญจากข่าว ➡️ OCuLink เป็นการเชื่อมต่อแบบ PCIe โดยตรง ไม่ผ่านการแปลงโปรโตคอล ➡️ รองรับ PCIe 3.0 และ 4.0 แบบ 4 เลน ให้แบนด์วิดธ์สูงสุด 64 GT/s ➡️ Thunderbolt 5 รองรับ PCIe 4.0 x4 เช่นกัน แต่มี overhead จากการแปลงโปรโตคอล ➡️ OCuLink ให้ throughput สูงถึง 6.6–6.7 GB/s ขณะที่ Thunderbolt 5 ทำได้เพียง 5.6–5.8 GB/s ➡️ ในการทดสอบเกม 12 เกม Thunderbolt 5 มี FPS ต่ำกว่า OCuLink เฉลี่ย 13–14% ➡️ เกมที่ Thunderbolt 5 แพ้หนัก ได้แก่ Spider-Man: Miles Morales (-20%) และ Red Dead Redemption 2 (-23%) ➡️ Ghost of Tsushima เป็นเกมเดียวที่ทั้งสามระบบทำได้ 120 FPS เท่ากัน ➡️ Thunderbolt 5 ยังมีข้อดีด้านความสะดวก เช่น การชาร์จไฟและส่งภาพผ่านสายเดียว ✅ ข้อมูลเสริมจากภายนอก ➡️ OCuLink เคยใช้ในเซิร์ฟเวอร์และ SSD มาก่อน ก่อนถูกนำมาใช้กับ GPU ➡️ Thunderbolt 5 มีฟีเจอร์ใหม่ เช่น การชาร์จ 240W และส่งภาพระดับ 120 GT/s ➡️ eGPU ที่ใช้ Thunderbolt 5 เช่น Peladn Link S-3 มีพอร์ตหลากหลายแต่ยังมีข้อจำกัดด้านสาย ➡️ OCuLink ไม่รองรับการ hot-swap และไม่มีฟีเจอร์ USB หรือ video output ➡️ โน้ตบุ๊กที่รองรับ OCuLink ยังมีน้อยมาก ส่วนใหญ่ต้องใช้กับพีซีหรือ mini-PC เฉพาะทาง https://www.tomshardware.com/pc-components/gpus/oculink-outpaces-thunderbolt-5-in-nvidia-rtx-5070-ti-tests-latter-up-to-14-percent-slower-on-average-in-gaming-benchmarks
    0 ความคิดเห็น 0 การแบ่งปัน 295 มุมมอง 0 รีวิว
  • “Stanford เปิดตัว Megakernel สำหรับ Llama-70B — ใช้ GPU เต็มประสิทธิภาพ แซง SGLang ไปกว่า 22%”

    ทีมนักวิจัยจาก Hazy Research แห่งมหาวิทยาลัย Stanford ได้เปิดตัว “Megakernel” สำหรับการ inference โมเดล Llama-70B โดยใช้ GPU H100 แบบเต็มประสิทธิภาพ ซึ่งสามารถแซงระบบยอดนิยมอย่าง SGLang ได้ถึง 22% ในการทดสอบชุดคำสั่งจาก ShareGPT

    แนวคิดหลักคือการรวมการประมวลผลทั้งหมดของโมเดลไว้ใน “megakernel” เดียว แทนที่จะใช้หลาย kernel แบบเดิม ซึ่งมักมีช่วงเวลาที่ GPU ว่างเปล่าและไม่ได้ทำงาน ทีมงานจึงออกแบบระบบ interpreter ที่สามารถ pipeline คำสั่งต่าง ๆ ได้อย่างต่อเนื่อง ทั้งในระดับ SM (Streaming Multiprocessor), ระหว่าง SM หลายตัว และระหว่าง GPU หลายตัว

    การออกแบบนี้ช่วยให้สามารถ overlap การโหลดข้อมูล, การคำนวณ, และการสื่อสารระหว่าง GPU ได้พร้อมกัน ทำให้ใช้ทรัพยากรของ GPU ได้เต็มที่ ไม่ว่าจะเป็น tensor core, memory bandwidth หรือ NVLink

    นอกจากนี้ยังมีการปรับโครงสร้างของ Llama-70B ให้เหมาะกับการทำงานแบบ parallel โดยใช้เทคนิค “distributed transpose” แทน reduce-scatter เพื่อลดการสื่อสารระหว่าง GPU ลงถึง 8 เท่า แม้จะแลกกับการใช้หน่วยความจำเพิ่มขึ้น 9GB ต่อ GPU

    ระบบนี้ถูกนำไปใช้ใน Tokasaurus ซึ่งเป็น inference engine ที่ออกแบบมาเพื่องาน throughput สูง โดยสามารถจัดการ batch ขนาดใหญ่ได้อย่างมีประสิทธิภาพ และใช้ CPU เพียงเล็กน้อยในการจัดคิวคำสั่ง

    ผลการทดสอบแสดงให้เห็นว่า Megakernel สามารถประมวลผลคำสั่งได้เร็วกว่า SGLang อย่างชัดเจน ทั้งในด้าน input, output และ throughput รวม โดยเฉพาะเมื่อใช้ batch ขนาดใหญ่ เช่น 8,192 prompt

    ข้อมูลสำคัญจากข่าว
    Megakernel ถูกออกแบบเพื่อ inference Llama-70B บน GPU H100
    ใช้ระบบ interpreter ที่ pipeline คำสั่งได้ทั้งใน SM, ระหว่าง SM และ GPU
    ลดช่วงเวลาที่ GPU ไม่ได้ทำงาน ด้วยการ overlap การโหลด, คำนวณ และสื่อสาร
    ใช้ distributed transpose แทน reduce-scatter เพื่อลด network traffic
    เพิ่มประสิทธิภาพการทำงานแบบ data-parallel โดย replicate O-projection matrix
    Megakernel ถูกนำไปใช้ใน Tokasaurus ซึ่งเป็น engine สำหรับงาน throughput สูง
    ผลการทดสอบแสดงว่า Megakernel แซง SGLang ไปกว่า 22% ในชุดคำสั่ง ShareGPT
    ใช้ global work queue และ interleaving เพื่อจัดการคำสั่งแบบ dynamic

    ข้อมูลเสริมจากภายนอก
    SM (Streaming Multiprocessor) คือหน่วยย่อยของ GPU ที่ทำงานแบบ parallel
    NVLink เป็นเทคโนโลยีเชื่อมต่อระหว่าง GPU ที่มี bandwidth สูง
    Reduce-scatter เป็นเทคนิคการรวมข้อมูลจากหลาย GPU แต่มีค่าใช้จ่ายด้าน network
    Distributed transpose ช่วยลดการสื่อสารโดยเปลี่ยนรูปแบบการจัดข้อมูล
    Tokasaurus รองรับการทำงานแบบ tensor-parallel และ pipeline-parallel

    https://hazyresearch.stanford.edu/blog/2025-09-28-tp-llama-main
    ⚙️ “Stanford เปิดตัว Megakernel สำหรับ Llama-70B — ใช้ GPU เต็มประสิทธิภาพ แซง SGLang ไปกว่า 22%” ทีมนักวิจัยจาก Hazy Research แห่งมหาวิทยาลัย Stanford ได้เปิดตัว “Megakernel” สำหรับการ inference โมเดล Llama-70B โดยใช้ GPU H100 แบบเต็มประสิทธิภาพ ซึ่งสามารถแซงระบบยอดนิยมอย่าง SGLang ได้ถึง 22% ในการทดสอบชุดคำสั่งจาก ShareGPT แนวคิดหลักคือการรวมการประมวลผลทั้งหมดของโมเดลไว้ใน “megakernel” เดียว แทนที่จะใช้หลาย kernel แบบเดิม ซึ่งมักมีช่วงเวลาที่ GPU ว่างเปล่าและไม่ได้ทำงาน ทีมงานจึงออกแบบระบบ interpreter ที่สามารถ pipeline คำสั่งต่าง ๆ ได้อย่างต่อเนื่อง ทั้งในระดับ SM (Streaming Multiprocessor), ระหว่าง SM หลายตัว และระหว่าง GPU หลายตัว การออกแบบนี้ช่วยให้สามารถ overlap การโหลดข้อมูล, การคำนวณ, และการสื่อสารระหว่าง GPU ได้พร้อมกัน ทำให้ใช้ทรัพยากรของ GPU ได้เต็มที่ ไม่ว่าจะเป็น tensor core, memory bandwidth หรือ NVLink นอกจากนี้ยังมีการปรับโครงสร้างของ Llama-70B ให้เหมาะกับการทำงานแบบ parallel โดยใช้เทคนิค “distributed transpose” แทน reduce-scatter เพื่อลดการสื่อสารระหว่าง GPU ลงถึง 8 เท่า แม้จะแลกกับการใช้หน่วยความจำเพิ่มขึ้น 9GB ต่อ GPU ระบบนี้ถูกนำไปใช้ใน Tokasaurus ซึ่งเป็น inference engine ที่ออกแบบมาเพื่องาน throughput สูง โดยสามารถจัดการ batch ขนาดใหญ่ได้อย่างมีประสิทธิภาพ และใช้ CPU เพียงเล็กน้อยในการจัดคิวคำสั่ง ผลการทดสอบแสดงให้เห็นว่า Megakernel สามารถประมวลผลคำสั่งได้เร็วกว่า SGLang อย่างชัดเจน ทั้งในด้าน input, output และ throughput รวม โดยเฉพาะเมื่อใช้ batch ขนาดใหญ่ เช่น 8,192 prompt ✅ ข้อมูลสำคัญจากข่าว ➡️ Megakernel ถูกออกแบบเพื่อ inference Llama-70B บน GPU H100 ➡️ ใช้ระบบ interpreter ที่ pipeline คำสั่งได้ทั้งใน SM, ระหว่าง SM และ GPU ➡️ ลดช่วงเวลาที่ GPU ไม่ได้ทำงาน ด้วยการ overlap การโหลด, คำนวณ และสื่อสาร ➡️ ใช้ distributed transpose แทน reduce-scatter เพื่อลด network traffic ➡️ เพิ่มประสิทธิภาพการทำงานแบบ data-parallel โดย replicate O-projection matrix ➡️ Megakernel ถูกนำไปใช้ใน Tokasaurus ซึ่งเป็น engine สำหรับงาน throughput สูง ➡️ ผลการทดสอบแสดงว่า Megakernel แซง SGLang ไปกว่า 22% ในชุดคำสั่ง ShareGPT ➡️ ใช้ global work queue และ interleaving เพื่อจัดการคำสั่งแบบ dynamic ✅ ข้อมูลเสริมจากภายนอก ➡️ SM (Streaming Multiprocessor) คือหน่วยย่อยของ GPU ที่ทำงานแบบ parallel ➡️ NVLink เป็นเทคโนโลยีเชื่อมต่อระหว่าง GPU ที่มี bandwidth สูง ➡️ Reduce-scatter เป็นเทคนิคการรวมข้อมูลจากหลาย GPU แต่มีค่าใช้จ่ายด้าน network ➡️ Distributed transpose ช่วยลดการสื่อสารโดยเปลี่ยนรูปแบบการจัดข้อมูล ➡️ Tokasaurus รองรับการทำงานแบบ tensor-parallel และ pipeline-parallel https://hazyresearch.stanford.edu/blog/2025-09-28-tp-llama-main
    0 ความคิดเห็น 0 การแบ่งปัน 232 มุมมอง 0 รีวิว
  • “Sam Altman เดินเกมลับในเอเชีย — จับมือ TSMC, Foxconn และเกาหลีใต้ ปูทางผลิตชิป AI ของตัวเองแทน Nvidia”

    Sam Altman ซีอีโอของ OpenAI เดินทางเยือนเอเชียอย่างเงียบ ๆ ในช่วงปลายเดือนกันยายน 2025 โดยมีจุดหมายสำคัญคือไต้หวันและเกาหลีใต้ เพื่อเจรจาความร่วมมือด้านการผลิตชิป AI และโครงสร้างพื้นฐานดาต้าเซ็นเตอร์ระดับโลก โดยเฉพาะโครงการ “Stargate” ที่มีมูลค่ากว่า 500,000 ล้านดอลลาร์ ซึ่งจะสร้างดาต้าเซ็นเตอร์และโรงงาน AI จำนวนมากในหลายประเทศ

    ในไต้หวัน Altman ได้พบกับผู้บริหารของ TSMC และ Foxconn เพื่อหารือเรื่องการออกแบบและผลิตชิป AI แบบ ASIC ที่ OpenAI กำลังพัฒนาร่วมกับ Broadcom โดยใช้เทคโนโลยี 3nm และการบรรจุชิปขั้นสูงแบบ CoWoS พร้อมหน่วยความจำ HBM ซึ่งคาดว่าจะเข้าสู่การผลิตจำนวนมากในไตรมาส 3 ปี 2026

    Foxconn ซึ่งเป็นผู้ผลิตเซิร์ฟเวอร์รายใหญ่ของ Oracle จะมีบทบาทสำคัญในการผลิตฮาร์ดแวร์สำหรับ Stargate โดยเฉพาะในโรงงานที่ SoftBank เข้าซื้อในรัฐโอไฮโอ เพื่อใช้เป็นฐานการผลิตร่วมกับ OpenAI

    หลังจากนั้น Altman เดินทางต่อไปยังเกาหลีใต้เพื่อพบกับประธานาธิบดี Lee Jae Myung และผู้บริหารของ Samsung และ SK hynix โดยมีการลงนามข้อตกลงเบื้องต้นในการสร้างดาต้าเซ็นเตอร์ขนาด 20 เมกะวัตต์ในเมือง Phang และอีกแห่งในจังหวัด South Jeolla

    เป้าหมายของ Altman คือการลดการพึ่งพา Nvidia ซึ่งปัจจุบันเป็นผู้ผลิต GPU รายใหญ่ที่ OpenAI ใช้ในการฝึกและรันโมเดล AI โดยการพัฒนาชิปของตัวเองจะช่วยให้ OpenAI ควบคุมทั้งฮาร์ดแวร์และซอฟต์แวร์ได้เหมือนที่ Apple ทำกับ Apple Silicon

    ข้อมูลสำคัญจากข่าว
    Sam Altman เดินทางเยือนไต้หวันและเกาหลีใต้เพื่อเจรจาความร่วมมือด้านชิปและดาต้าเซ็นเตอร์
    พบกับ TSMC และ Foxconn เพื่อหารือการผลิตชิป AI แบบ ASIC ด้วยเทคโนโลยี 3nm และ CoWoS
    ชิป AI ของ OpenAI จะใช้หน่วยความจำ HBM และคาดว่าจะผลิตจำนวนมากใน Q3 ปี 2026
    Foxconn จะผลิตเซิร์ฟเวอร์สำหรับโครงการ Stargate โดยใช้โรงงานในรัฐโอไฮโอที่ SoftBank ซื้อไว้
    Altman พบประธานาธิบดีเกาหลีใต้และผู้บริหาร Samsung, SK hynix เพื่อสร้างดาต้าเซ็นเตอร์ 20MW
    ดาต้าเซ็นเตอร์จะตั้งอยู่ในเมือง Phang และจังหวัด South Jeolla
    เป้าหมายคือลดการพึ่งพา Nvidia และควบคุมห่วงโซ่ฮาร์ดแวร์ของตัวเอง
    OpenAI ตั้งทีมออกแบบชิป ASIC ตั้งแต่ปี 2024 และดึงทีมงานจากโครงการ TPU ของ Google

    ข้อมูลเสริมจากภายนอก
    Stargate เป็นโครงการสร้างโครงสร้างพื้นฐาน AI มูลค่ากว่า $500 พันล้านของ OpenAI
    Oracle ลงทุน $300 พันล้านใน compute capacity ให้กับ OpenAI
    SoftBank เป็นพันธมิตรสำคัญของ OpenAI และมีบทบาทในโรงงานและดาต้าเซ็นเตอร์
    TSMC เป็นผู้ผลิตชิปอันดับหนึ่งของโลก และมีเทคโนโลยี 3nm ที่ล้ำหน้าที่สุด
    การพัฒนาชิปของตัวเองช่วยให้ OpenAI สร้างโมเดลที่เหมาะกับฮาร์ดแวร์โดยตรง

    https://www.tomshardware.com/tech-industry/openais-sam-altman-had-secret-tsmc-meeting-over-future-chip-supply-report-claims-ai-pioneer-in-asia-as-south-korea-confirms-20mw-data-center-deal-with-chatgpt-maker
    🧠 “Sam Altman เดินเกมลับในเอเชีย — จับมือ TSMC, Foxconn และเกาหลีใต้ ปูทางผลิตชิป AI ของตัวเองแทน Nvidia” Sam Altman ซีอีโอของ OpenAI เดินทางเยือนเอเชียอย่างเงียบ ๆ ในช่วงปลายเดือนกันยายน 2025 โดยมีจุดหมายสำคัญคือไต้หวันและเกาหลีใต้ เพื่อเจรจาความร่วมมือด้านการผลิตชิป AI และโครงสร้างพื้นฐานดาต้าเซ็นเตอร์ระดับโลก โดยเฉพาะโครงการ “Stargate” ที่มีมูลค่ากว่า 500,000 ล้านดอลลาร์ ซึ่งจะสร้างดาต้าเซ็นเตอร์และโรงงาน AI จำนวนมากในหลายประเทศ ในไต้หวัน Altman ได้พบกับผู้บริหารของ TSMC และ Foxconn เพื่อหารือเรื่องการออกแบบและผลิตชิป AI แบบ ASIC ที่ OpenAI กำลังพัฒนาร่วมกับ Broadcom โดยใช้เทคโนโลยี 3nm และการบรรจุชิปขั้นสูงแบบ CoWoS พร้อมหน่วยความจำ HBM ซึ่งคาดว่าจะเข้าสู่การผลิตจำนวนมากในไตรมาส 3 ปี 2026 Foxconn ซึ่งเป็นผู้ผลิตเซิร์ฟเวอร์รายใหญ่ของ Oracle จะมีบทบาทสำคัญในการผลิตฮาร์ดแวร์สำหรับ Stargate โดยเฉพาะในโรงงานที่ SoftBank เข้าซื้อในรัฐโอไฮโอ เพื่อใช้เป็นฐานการผลิตร่วมกับ OpenAI หลังจากนั้น Altman เดินทางต่อไปยังเกาหลีใต้เพื่อพบกับประธานาธิบดี Lee Jae Myung และผู้บริหารของ Samsung และ SK hynix โดยมีการลงนามข้อตกลงเบื้องต้นในการสร้างดาต้าเซ็นเตอร์ขนาด 20 เมกะวัตต์ในเมือง Phang และอีกแห่งในจังหวัด South Jeolla เป้าหมายของ Altman คือการลดการพึ่งพา Nvidia ซึ่งปัจจุบันเป็นผู้ผลิต GPU รายใหญ่ที่ OpenAI ใช้ในการฝึกและรันโมเดล AI โดยการพัฒนาชิปของตัวเองจะช่วยให้ OpenAI ควบคุมทั้งฮาร์ดแวร์และซอฟต์แวร์ได้เหมือนที่ Apple ทำกับ Apple Silicon ✅ ข้อมูลสำคัญจากข่าว ➡️ Sam Altman เดินทางเยือนไต้หวันและเกาหลีใต้เพื่อเจรจาความร่วมมือด้านชิปและดาต้าเซ็นเตอร์ ➡️ พบกับ TSMC และ Foxconn เพื่อหารือการผลิตชิป AI แบบ ASIC ด้วยเทคโนโลยี 3nm และ CoWoS ➡️ ชิป AI ของ OpenAI จะใช้หน่วยความจำ HBM และคาดว่าจะผลิตจำนวนมากใน Q3 ปี 2026 ➡️ Foxconn จะผลิตเซิร์ฟเวอร์สำหรับโครงการ Stargate โดยใช้โรงงานในรัฐโอไฮโอที่ SoftBank ซื้อไว้ ➡️ Altman พบประธานาธิบดีเกาหลีใต้และผู้บริหาร Samsung, SK hynix เพื่อสร้างดาต้าเซ็นเตอร์ 20MW ➡️ ดาต้าเซ็นเตอร์จะตั้งอยู่ในเมือง Phang และจังหวัด South Jeolla ➡️ เป้าหมายคือลดการพึ่งพา Nvidia และควบคุมห่วงโซ่ฮาร์ดแวร์ของตัวเอง ➡️ OpenAI ตั้งทีมออกแบบชิป ASIC ตั้งแต่ปี 2024 และดึงทีมงานจากโครงการ TPU ของ Google ✅ ข้อมูลเสริมจากภายนอก ➡️ Stargate เป็นโครงการสร้างโครงสร้างพื้นฐาน AI มูลค่ากว่า $500 พันล้านของ OpenAI ➡️ Oracle ลงทุน $300 พันล้านใน compute capacity ให้กับ OpenAI ➡️ SoftBank เป็นพันธมิตรสำคัญของ OpenAI และมีบทบาทในโรงงานและดาต้าเซ็นเตอร์ ➡️ TSMC เป็นผู้ผลิตชิปอันดับหนึ่งของโลก และมีเทคโนโลยี 3nm ที่ล้ำหน้าที่สุด ➡️ การพัฒนาชิปของตัวเองช่วยให้ OpenAI สร้างโมเดลที่เหมาะกับฮาร์ดแวร์โดยตรง https://www.tomshardware.com/tech-industry/openais-sam-altman-had-secret-tsmc-meeting-over-future-chip-supply-report-claims-ai-pioneer-in-asia-as-south-korea-confirms-20mw-data-center-deal-with-chatgpt-maker
    0 ความคิดเห็น 0 การแบ่งปัน 241 มุมมอง 0 รีวิว
  • “OpenAI ทุ่มสร้าง Stargate — โครงการดาต้าเซ็นเตอร์ AI ใหญ่ที่สุดในโลก กิน DRAM ถึง 40% ของกำลังผลิตโลก”

    OpenAI กำลังเดินหน้าโครงการ “Stargate” ซึ่งเป็นโครงการสร้างโครงสร้างพื้นฐานด้าน AI ที่ใหญ่ที่สุดในประวัติศาสตร์ ด้วยงบประมาณกว่า 500,000 ล้านดอลลาร์ โดยร่วมมือกับพันธมิตรระดับโลกอย่าง Oracle, SoftBank และล่าสุดคือ Samsung และ SK hynix สองยักษ์ใหญ่ด้านหน่วยความจำจากเกาหลีใต้

    Stargate มีเป้าหมายในการสร้างดาต้าเซ็นเตอร์ขนาดมหึมาหลายแห่งทั่วโลก เพื่อรองรับการทำงานของชิป AI จำนวนมหาศาล โดยแต่ละเซิร์ฟเวอร์จะมี GPU หลายร้อยถึงหลายพันตัว เช่น Nvidia Blackwell ซึ่งต้องการหน่วยความจำความเร็วสูงอย่าง HBM และ DDR5 ในปริมาณมหาศาล

    ล่าสุด Samsung และ SK hynix ได้ลงนามในข้อตกลงเบื้องต้นเพื่อจัดส่งแผ่นเวเฟอร์ DRAM ให้กับ OpenAI มากถึง 900,000 แผ่นต่อเดือน ซึ่งคิดเป็นประมาณ 40% ของกำลังผลิต DRAM ทั่วโลกในปี 2025 โดยจะจัดส่งในรูปแบบ “เวเฟอร์ยังไม่ตัด” เพื่อให้ OpenAI สามารถควบคุมการผลิตและบรรจุชิปได้เองตามความต้องการ

    นอกจากการจัดส่งหน่วยความจำแล้ว Samsung SDS ยังร่วมมือกับ OpenAI ในการออกแบบและบริหารดาต้าเซ็นเตอร์ในเกาหลีใต้ พร้อมให้บริการ ChatGPT Enterprise กับองค์กรในประเทศ ขณะที่ Samsung Heavy Industries และ Samsung C&T จะร่วมพัฒนา “ดาต้าเซ็นเตอร์ลอยน้ำ” เพื่อเพิ่มประสิทธิภาพการระบายความร้อนและลดการปล่อยคาร์บอน

    การขยายตัวของ Stargate ยังรวมถึงการเปิดสำนักงาน OpenAI ในกรุงโซล ซึ่งปัจจุบันมีผู้สมัครใช้งาน ChatGPT แบบเสียเงินมากที่สุดเป็นอันดับสองของโลก รองจากสหรัฐฯ

    ข้อมูลสำคัญจากข่าว
    OpenAI สร้างโครงการ Stargate ด้วยงบประมาณกว่า $500 พันล้าน เพื่อสร้างดาต้าเซ็นเตอร์ AI ขนาดใหญ่
    Samsung และ SK hynix จะจัดส่งเวเฟอร์ DRAM ให้ OpenAI มากถึง 900,000 แผ่นต่อเดือน
    ปริมาณนี้คิดเป็นประมาณ 40% ของกำลังผลิต DRAM ทั่วโลกในปี 2025
    เวเฟอร์จะถูกส่งในรูปแบบยังไม่ตัด เพื่อให้ OpenAI ควบคุมการผลิตชิปเอง
    หน่วยความจำที่ใช้รวมถึง DDR5 และ HBM สำหรับชิป AI เช่น Nvidia Blackwell
    Samsung SDS จะร่วมออกแบบและบริหารดาต้าเซ็นเตอร์ในเกาหลีใต้
    Samsung Heavy Industries และ Samsung C&T จะร่วมพัฒนาดาต้าเซ็นเตอร์ลอยน้ำ
    OpenAI เปิดสำนักงานในกรุงโซล ซึ่งมีผู้ใช้ ChatGPT แบบเสียเงินมากเป็นอันดับสองของโลก

    ข้อมูลเสริมจากภายนอก
    HBM (High Bandwidth Memory) เป็นหน่วยความจำที่ซ้อนชิปในแนวตั้ง เพื่อเพิ่มความเร็วและลดการใช้พลังงาน
    Nvidia ลงทุนใน Stargate มากถึง $100 พันล้าน เพื่อจัดหาชิปและกำลังประมวลผล
    Oracle ขาย compute capacity ให้ OpenAI มูลค่า $300 พันล้านในระยะเวลา 5 ปี
    ดาต้าเซ็นเตอร์ของ Stargate อาจต้องใช้โรงไฟฟ้าเฉพาะเพื่อรองรับการใช้พลังงาน
    การใช้เวเฟอร์แบบยังไม่ตัดช่วยให้ OpenAI ปรับแต่งการผลิตได้ตามโมเดล AI ที่ต้องการ

    https://www.tomshardware.com/pc-components/dram/openais-stargate-project-to-consume-up-to-40-percent-of-global-dram-output-inks-deal-with-samsung-and-sk-hynix-to-the-tune-of-up-to-900-000-wafers-per-month
    🌐 “OpenAI ทุ่มสร้าง Stargate — โครงการดาต้าเซ็นเตอร์ AI ใหญ่ที่สุดในโลก กิน DRAM ถึง 40% ของกำลังผลิตโลก” OpenAI กำลังเดินหน้าโครงการ “Stargate” ซึ่งเป็นโครงการสร้างโครงสร้างพื้นฐานด้าน AI ที่ใหญ่ที่สุดในประวัติศาสตร์ ด้วยงบประมาณกว่า 500,000 ล้านดอลลาร์ โดยร่วมมือกับพันธมิตรระดับโลกอย่าง Oracle, SoftBank และล่าสุดคือ Samsung และ SK hynix สองยักษ์ใหญ่ด้านหน่วยความจำจากเกาหลีใต้ Stargate มีเป้าหมายในการสร้างดาต้าเซ็นเตอร์ขนาดมหึมาหลายแห่งทั่วโลก เพื่อรองรับการทำงานของชิป AI จำนวนมหาศาล โดยแต่ละเซิร์ฟเวอร์จะมี GPU หลายร้อยถึงหลายพันตัว เช่น Nvidia Blackwell ซึ่งต้องการหน่วยความจำความเร็วสูงอย่าง HBM และ DDR5 ในปริมาณมหาศาล ล่าสุด Samsung และ SK hynix ได้ลงนามในข้อตกลงเบื้องต้นเพื่อจัดส่งแผ่นเวเฟอร์ DRAM ให้กับ OpenAI มากถึง 900,000 แผ่นต่อเดือน ซึ่งคิดเป็นประมาณ 40% ของกำลังผลิต DRAM ทั่วโลกในปี 2025 โดยจะจัดส่งในรูปแบบ “เวเฟอร์ยังไม่ตัด” เพื่อให้ OpenAI สามารถควบคุมการผลิตและบรรจุชิปได้เองตามความต้องการ นอกจากการจัดส่งหน่วยความจำแล้ว Samsung SDS ยังร่วมมือกับ OpenAI ในการออกแบบและบริหารดาต้าเซ็นเตอร์ในเกาหลีใต้ พร้อมให้บริการ ChatGPT Enterprise กับองค์กรในประเทศ ขณะที่ Samsung Heavy Industries และ Samsung C&T จะร่วมพัฒนา “ดาต้าเซ็นเตอร์ลอยน้ำ” เพื่อเพิ่มประสิทธิภาพการระบายความร้อนและลดการปล่อยคาร์บอน การขยายตัวของ Stargate ยังรวมถึงการเปิดสำนักงาน OpenAI ในกรุงโซล ซึ่งปัจจุบันมีผู้สมัครใช้งาน ChatGPT แบบเสียเงินมากที่สุดเป็นอันดับสองของโลก รองจากสหรัฐฯ ✅ ข้อมูลสำคัญจากข่าว ➡️ OpenAI สร้างโครงการ Stargate ด้วยงบประมาณกว่า $500 พันล้าน เพื่อสร้างดาต้าเซ็นเตอร์ AI ขนาดใหญ่ ➡️ Samsung และ SK hynix จะจัดส่งเวเฟอร์ DRAM ให้ OpenAI มากถึง 900,000 แผ่นต่อเดือน ➡️ ปริมาณนี้คิดเป็นประมาณ 40% ของกำลังผลิต DRAM ทั่วโลกในปี 2025 ➡️ เวเฟอร์จะถูกส่งในรูปแบบยังไม่ตัด เพื่อให้ OpenAI ควบคุมการผลิตชิปเอง ➡️ หน่วยความจำที่ใช้รวมถึง DDR5 และ HBM สำหรับชิป AI เช่น Nvidia Blackwell ➡️ Samsung SDS จะร่วมออกแบบและบริหารดาต้าเซ็นเตอร์ในเกาหลีใต้ ➡️ Samsung Heavy Industries และ Samsung C&T จะร่วมพัฒนาดาต้าเซ็นเตอร์ลอยน้ำ ➡️ OpenAI เปิดสำนักงานในกรุงโซล ซึ่งมีผู้ใช้ ChatGPT แบบเสียเงินมากเป็นอันดับสองของโลก ✅ ข้อมูลเสริมจากภายนอก ➡️ HBM (High Bandwidth Memory) เป็นหน่วยความจำที่ซ้อนชิปในแนวตั้ง เพื่อเพิ่มความเร็วและลดการใช้พลังงาน ➡️ Nvidia ลงทุนใน Stargate มากถึง $100 พันล้าน เพื่อจัดหาชิปและกำลังประมวลผล ➡️ Oracle ขาย compute capacity ให้ OpenAI มูลค่า $300 พันล้านในระยะเวลา 5 ปี ➡️ ดาต้าเซ็นเตอร์ของ Stargate อาจต้องใช้โรงไฟฟ้าเฉพาะเพื่อรองรับการใช้พลังงาน ➡️ การใช้เวเฟอร์แบบยังไม่ตัดช่วยให้ OpenAI ปรับแต่งการผลิตได้ตามโมเดล AI ที่ต้องการ https://www.tomshardware.com/pc-components/dram/openais-stargate-project-to-consume-up-to-40-percent-of-global-dram-output-inks-deal-with-samsung-and-sk-hynix-to-the-tune-of-up-to-900-000-wafers-per-month
    0 ความคิดเห็น 0 การแบ่งปัน 239 มุมมอง 0 รีวิว
  • “Grok 4 เปิดตัวบน Azure AI Foundry — เมื่อ AI ของ Elon Musk กลายเป็นตัวเลือกใหม่สำหรับงานวิเคราะห์ระดับลึก”

    Microsoft ประกาศเปิดให้ใช้งาน Grok 4 บนแพลตฟอร์ม Azure AI Foundry อย่างเป็นทางการ หลังจากผ่านการทดลองใช้งานแบบส่วนตัว โดย Grok 4 เป็นโมเดล AI จาก xAI ของ Elon Musk ที่เน้นด้าน “frontier-level reasoning” หรือการวิเคราะห์เชิงตรรกะ วิทยาศาสตร์ คณิตศาสตร์ และการเขียนโค้ดขั้นสูง มากกว่าการสร้างสรรค์เนื้อหาแบบทั่วไป

    แม้ Grok 4 จะยังด้อยกว่าคู่แข่งอย่าง GPT-4 และ Gemini ในด้านความเข้าใจภาพและความสามารถแบบมัลติโหมด แต่จุดแข็งของมันคือการประมวลผลข้อมูลเชิงลึกในบริบทที่ซับซ้อน โดยมี context window ขนาดใหญ่ถึง 128,000 tokens ซึ่งเทียบเท่ากับ GPT-4 Turbo และเหนือกว่าหลายโมเดลในตลาด

    Microsoft เปิดให้ใช้งาน Grok 4 ผ่าน Azure ในรูปแบบ “AI supermarket” ที่ให้ลูกค้าเลือกโมเดลจากหลายผู้พัฒนาได้อย่างอิสระ โดยมี 3 รุ่นให้เลือกใช้งาน ได้แก่ Grok 4 Fast Reasoning สำหรับงานวิเคราะห์, Grok 4 Fast Non-Reasoning สำหรับงานทั่วไป และ Grok Code Fast 1 สำหรับนักพัฒนา โดยทั้งหมดมีจุดเด่นด้านความเร็วและการควบคุมความปลอดภัยระดับองค์กร

    ราคาการใช้งานอยู่ที่ $5.5 ต่อ input tokens หนึ่งล้าน และ $27.5 ต่อ output tokens หนึ่งล้าน ซึ่งถือว่าอยู่ในระดับแข่งขันได้เมื่อเทียบกับโมเดลระดับสูงอื่น ๆ

    แม้ Grok 4 จะมีประสิทธิภาพสูง แต่ก็ไม่ใช่โมเดลที่ “deploy แล้วลืม” เพราะ Microsoft เน้นให้ผู้ใช้งานตั้งระบบ guardrails และตรวจสอบผลลัพธ์อย่างต่อเนื่อง โดยจะมีการเผยแพร่คะแนนความปลอดภัยใหม่ในอนาคต

    ก่อนหน้านี้ Grok เคยมีประเด็นด้านความปลอดภัย เช่น การตอบคำถามที่ไม่เหมาะสมในเวอร์ชันก่อน ทำให้ Microsoftเลือกใช้แนวทาง “ระมัดระวัง” ในการเปิดตัวบน Azure เพื่อให้มั่นใจว่าการใช้งานจะอยู่ภายใต้การควบคุมที่เหมาะสม

    ข้อมูลสำคัญจากข่าว
    Microsoft เปิดให้ใช้งาน Grok 4 บน Azure AI Foundry อย่างเป็นทางการ
    Grok 4 เป็นโมเดลจาก xAI ที่เน้นการวิเคราะห์เชิงตรรกะ วิทยาศาสตร์ และโค้ด
    มี context window ขนาด 128,000 tokens เทียบเท่า GPT-4 Turbo
    มี 3 รุ่นให้เลือกใช้งาน: Fast Reasoning, Fast Non-Reasoning, และ Code Fast 1
    ราคาอยู่ที่ $5.5 ต่อ input tokens หนึ่งล้าน และ $27.5 ต่อ output tokens หนึ่งล้าน
    Microsoft เน้นให้ผู้ใช้ตั้งระบบ guardrails และตรวจสอบผลลัพธ์
    Grok 4 เป็นส่วนหนึ่งของแนวคิด “AI supermarket” บน Azure
    เปิดใช้งานทั่วโลกภายใต้หมวด Global Standard Deployment
    xAI เซ็นสัญญากับรัฐบาลสหรัฐฯ เพื่อใช้งาน Grok ในหน่วยงานต่าง ๆ

    ข้อมูลเสริมจากภายนอก
    Grok 4 ถูกพัฒนาโดยทีมของ Elon Musk เพื่อแข่งขันกับ OpenAI และ Google
    xAI มีแผนใช้ GPU H100 จำนวน 50 ล้านตัวใน 5 ปีข้างหน้าเพื่อขยายการใช้งาน Grok
    Grok 2.5 เคยเปิดให้ใช้งานแบบโอเพ่นซอร์สเพื่อให้ชุมชนร่วมพัฒนา
    Azure AI Foundry เป็นแพลตฟอร์มที่รวมโมเดลจากหลายผู้พัฒนา เช่น OpenAI, Meta, Mistral
    การใช้ context window ขนาดใหญ่ช่วยให้โมเดลเข้าใจข้อมูลต่อเนื่องได้ดีขึ้นในงานวิเคราะห์

    https://www.tomshardware.com/tech-industry/artificial-intelligence/microsoft-adds-grok-4-to-azure-ai-foundry-following-cautious-trials-elon-musks-latest-ai-model-is-now-available-to-deploy-for-frontier-level-reasoning
    🧠 “Grok 4 เปิดตัวบน Azure AI Foundry — เมื่อ AI ของ Elon Musk กลายเป็นตัวเลือกใหม่สำหรับงานวิเคราะห์ระดับลึก” Microsoft ประกาศเปิดให้ใช้งาน Grok 4 บนแพลตฟอร์ม Azure AI Foundry อย่างเป็นทางการ หลังจากผ่านการทดลองใช้งานแบบส่วนตัว โดย Grok 4 เป็นโมเดล AI จาก xAI ของ Elon Musk ที่เน้นด้าน “frontier-level reasoning” หรือการวิเคราะห์เชิงตรรกะ วิทยาศาสตร์ คณิตศาสตร์ และการเขียนโค้ดขั้นสูง มากกว่าการสร้างสรรค์เนื้อหาแบบทั่วไป แม้ Grok 4 จะยังด้อยกว่าคู่แข่งอย่าง GPT-4 และ Gemini ในด้านความเข้าใจภาพและความสามารถแบบมัลติโหมด แต่จุดแข็งของมันคือการประมวลผลข้อมูลเชิงลึกในบริบทที่ซับซ้อน โดยมี context window ขนาดใหญ่ถึง 128,000 tokens ซึ่งเทียบเท่ากับ GPT-4 Turbo และเหนือกว่าหลายโมเดลในตลาด Microsoft เปิดให้ใช้งาน Grok 4 ผ่าน Azure ในรูปแบบ “AI supermarket” ที่ให้ลูกค้าเลือกโมเดลจากหลายผู้พัฒนาได้อย่างอิสระ โดยมี 3 รุ่นให้เลือกใช้งาน ได้แก่ Grok 4 Fast Reasoning สำหรับงานวิเคราะห์, Grok 4 Fast Non-Reasoning สำหรับงานทั่วไป และ Grok Code Fast 1 สำหรับนักพัฒนา โดยทั้งหมดมีจุดเด่นด้านความเร็วและการควบคุมความปลอดภัยระดับองค์กร ราคาการใช้งานอยู่ที่ $5.5 ต่อ input tokens หนึ่งล้าน และ $27.5 ต่อ output tokens หนึ่งล้าน ซึ่งถือว่าอยู่ในระดับแข่งขันได้เมื่อเทียบกับโมเดลระดับสูงอื่น ๆ แม้ Grok 4 จะมีประสิทธิภาพสูง แต่ก็ไม่ใช่โมเดลที่ “deploy แล้วลืม” เพราะ Microsoft เน้นให้ผู้ใช้งานตั้งระบบ guardrails และตรวจสอบผลลัพธ์อย่างต่อเนื่อง โดยจะมีการเผยแพร่คะแนนความปลอดภัยใหม่ในอนาคต ก่อนหน้านี้ Grok เคยมีประเด็นด้านความปลอดภัย เช่น การตอบคำถามที่ไม่เหมาะสมในเวอร์ชันก่อน ทำให้ Microsoftเลือกใช้แนวทาง “ระมัดระวัง” ในการเปิดตัวบน Azure เพื่อให้มั่นใจว่าการใช้งานจะอยู่ภายใต้การควบคุมที่เหมาะสม ✅ ข้อมูลสำคัญจากข่าว ➡️ Microsoft เปิดให้ใช้งาน Grok 4 บน Azure AI Foundry อย่างเป็นทางการ ➡️ Grok 4 เป็นโมเดลจาก xAI ที่เน้นการวิเคราะห์เชิงตรรกะ วิทยาศาสตร์ และโค้ด ➡️ มี context window ขนาด 128,000 tokens เทียบเท่า GPT-4 Turbo ➡️ มี 3 รุ่นให้เลือกใช้งาน: Fast Reasoning, Fast Non-Reasoning, และ Code Fast 1 ➡️ ราคาอยู่ที่ $5.5 ต่อ input tokens หนึ่งล้าน และ $27.5 ต่อ output tokens หนึ่งล้าน ➡️ Microsoft เน้นให้ผู้ใช้ตั้งระบบ guardrails และตรวจสอบผลลัพธ์ ➡️ Grok 4 เป็นส่วนหนึ่งของแนวคิด “AI supermarket” บน Azure ➡️ เปิดใช้งานทั่วโลกภายใต้หมวด Global Standard Deployment ➡️ xAI เซ็นสัญญากับรัฐบาลสหรัฐฯ เพื่อใช้งาน Grok ในหน่วยงานต่าง ๆ ✅ ข้อมูลเสริมจากภายนอก ➡️ Grok 4 ถูกพัฒนาโดยทีมของ Elon Musk เพื่อแข่งขันกับ OpenAI และ Google ➡️ xAI มีแผนใช้ GPU H100 จำนวน 50 ล้านตัวใน 5 ปีข้างหน้าเพื่อขยายการใช้งาน Grok ➡️ Grok 2.5 เคยเปิดให้ใช้งานแบบโอเพ่นซอร์สเพื่อให้ชุมชนร่วมพัฒนา ➡️ Azure AI Foundry เป็นแพลตฟอร์มที่รวมโมเดลจากหลายผู้พัฒนา เช่น OpenAI, Meta, Mistral ➡️ การใช้ context window ขนาดใหญ่ช่วยให้โมเดลเข้าใจข้อมูลต่อเนื่องได้ดีขึ้นในงานวิเคราะห์ https://www.tomshardware.com/tech-industry/artificial-intelligence/microsoft-adds-grok-4-to-azure-ai-foundry-following-cautious-trials-elon-musks-latest-ai-model-is-now-available-to-deploy-for-frontier-level-reasoning
    0 ความคิดเห็น 0 การแบ่งปัน 232 มุมมอง 0 รีวิว
  • “AI ดันศูนย์ข้อมูลสู่ยุค 1 เมกะวัตต์ต่อแร็ค — เมื่อพลังงานและความร้อนกลายเป็นศูนย์กลางของโครงสร้างดิจิทัล”

    ในอดีต แร็คในศูนย์ข้อมูลเคยใช้พลังงานเพียงไม่กี่กิโลวัตต์ แต่ด้วยการเติบโตของงานประมวลผล AI ที่ต้องการพลังมหาศาล ข้อมูลล่าสุดจาก Lennox Data Centre Solutions ระบุว่า ภายในปี 2030 แร็คที่เน้นงาน AI อาจใช้พลังงานสูงถึง 1 เมกะวัตต์ต่อแร็ค ซึ่งเทียบเท่ากับการใช้พลังงานของศูนย์ข้อมูลทั้งแห่งในอดีต

    แร็คทั่วไปจะขยับขึ้นไปอยู่ที่ 30–50 กิโลวัตต์ในช่วงเวลาเดียวกัน แต่แร็ค AI จะใช้พลังงานมากกว่าถึง 20–30 เท่า ทำให้ “การจ่ายไฟ” และ “การระบายความร้อน” กลายเป็นหัวใจของการออกแบบศูนย์ข้อมูลยุคใหม่

    Ted Pulfer จาก Lennox ระบุว่า อุตสาหกรรมกำลังเปลี่ยนจากการใช้ไฟฟ้า AC แบบเดิม ไปสู่ระบบ DC แรงสูง เช่น +/-400V เพื่อลดการสูญเสียพลังงานและขนาดสายไฟ พร้อมทั้งใช้ระบบระบายความร้อนแบบ liquid cooling ที่ควบคุมโดย CDU (Coolant Distribution Unit) ซึ่งส่งน้ำหล่อเย็นไปยัง cold plate ที่ติดตั้งตรงจุดร้อนของเซิร์ฟเวอร์

    Microsoft กำลังทดลองระบบ microfluidics ที่ฝังร่องเล็ก ๆ บนชิปเพื่อให้น้ำหล่อเย็นไหลผ่านโดยตรง ซึ่งช่วยลดอุณหภูมิ GPU ได้ถึง 65% และเพิ่มประสิทธิภาพการระบายความร้อนถึง 3 เท่า เมื่อรวมกับ AI ที่ช่วยตรวจจับจุดร้อนบนชิป ระบบนี้สามารถควบคุมการไหลของน้ำได้แม่นยำยิ่งขึ้น

    แม้ hyperscaler อย่าง Google และ Microsoft จะเป็นผู้นำในด้านนี้ แต่ Ted เชื่อว่าผู้ให้บริการรายเล็กยังมีโอกาส เพราะความคล่องตัวและนวัตกรรมยังเป็นจุดแข็งที่สำคัญในตลาดที่เปลี่ยนแปลงเร็ว

    ข้อมูลสำคัญจากข่าว
    แร็ค AI อาจใช้พลังงานถึง 1 เมกะวัตต์ต่อแร็คภายในปี 2030
    แร็คทั่วไปจะขยับขึ้นไปอยู่ที่ 30–50 กิโลวัตต์ในช่วงเดียวกัน
    แร็ค AI ใช้พลังงานมากกว่ารุ่นทั่วไปถึง 20–30 เท่า
    อุตสาหกรรมเปลี่ยนไปใช้ระบบไฟฟ้า DC แรงสูง เช่น +/-400V
    ระบบระบายความร้อนแบบ liquid cooling ถูกควบคุมโดย CDU
    Microsoft ทดลองระบบ microfluidics ที่ฝังร่องบนชิปเพื่อให้น้ำไหลผ่านโดยตรง
    ระบบใหม่ช่วยลดอุณหภูมิ GPU ได้ถึง 65% และเพิ่มประสิทธิภาพการระบายความร้อนถึง 3 เท่า
    AI ถูกนำมาใช้ร่วมกับระบบระบายความร้อนเพื่อควบคุมการไหลของน้ำอย่างแม่นยำ
    ผู้ให้บริการรายเล็กยังมีโอกาสแข่งขันในตลาดผ่านความคล่องตัวและนวัตกรรม

    ข้อมูลเสริมจากภายนอก
    น้ำมีความสามารถในการนำความร้อนสูงกว่าอากาศถึง 30 เท่า และบรรจุพลังงานความร้อนได้มากกว่า 4,000 เท่า
    Google ใช้ liquid cooling กับ TPU Pods มากกว่า 2,000 ชุด และมี uptime ถึง 99.999% ตลอด 7 ปี
    การใช้ +/-400V DC ช่วยลดขนาดสายไฟและเพิ่มประสิทธิภาพการจ่ายไฟ
    ระบบ AC-to-DC sidecar ช่วยแยกส่วนพลังงานออกจากแร็ค ทำให้พื้นที่ภายในแร็คใช้สำหรับ compute ได้เต็มที่
    การออกแบบแร็คใหม่อาจเป็นตัวกำหนดอนาคตของโครงสร้างดิจิทัลทั้งหมด

    https://www.techradar.com/pro/security/this-graph-alone-shows-how-global-ai-power-consumption-is-getting-out-of-hand-very-quickly-and-its-not-just-about-hyperscalers-or-openai
    🔥 “AI ดันศูนย์ข้อมูลสู่ยุค 1 เมกะวัตต์ต่อแร็ค — เมื่อพลังงานและความร้อนกลายเป็นศูนย์กลางของโครงสร้างดิจิทัล” ในอดีต แร็คในศูนย์ข้อมูลเคยใช้พลังงานเพียงไม่กี่กิโลวัตต์ แต่ด้วยการเติบโตของงานประมวลผล AI ที่ต้องการพลังมหาศาล ข้อมูลล่าสุดจาก Lennox Data Centre Solutions ระบุว่า ภายในปี 2030 แร็คที่เน้นงาน AI อาจใช้พลังงานสูงถึง 1 เมกะวัตต์ต่อแร็ค ซึ่งเทียบเท่ากับการใช้พลังงานของศูนย์ข้อมูลทั้งแห่งในอดีต แร็คทั่วไปจะขยับขึ้นไปอยู่ที่ 30–50 กิโลวัตต์ในช่วงเวลาเดียวกัน แต่แร็ค AI จะใช้พลังงานมากกว่าถึง 20–30 เท่า ทำให้ “การจ่ายไฟ” และ “การระบายความร้อน” กลายเป็นหัวใจของการออกแบบศูนย์ข้อมูลยุคใหม่ Ted Pulfer จาก Lennox ระบุว่า อุตสาหกรรมกำลังเปลี่ยนจากการใช้ไฟฟ้า AC แบบเดิม ไปสู่ระบบ DC แรงสูง เช่น +/-400V เพื่อลดการสูญเสียพลังงานและขนาดสายไฟ พร้อมทั้งใช้ระบบระบายความร้อนแบบ liquid cooling ที่ควบคุมโดย CDU (Coolant Distribution Unit) ซึ่งส่งน้ำหล่อเย็นไปยัง cold plate ที่ติดตั้งตรงจุดร้อนของเซิร์ฟเวอร์ Microsoft กำลังทดลองระบบ microfluidics ที่ฝังร่องเล็ก ๆ บนชิปเพื่อให้น้ำหล่อเย็นไหลผ่านโดยตรง ซึ่งช่วยลดอุณหภูมิ GPU ได้ถึง 65% และเพิ่มประสิทธิภาพการระบายความร้อนถึง 3 เท่า เมื่อรวมกับ AI ที่ช่วยตรวจจับจุดร้อนบนชิป ระบบนี้สามารถควบคุมการไหลของน้ำได้แม่นยำยิ่งขึ้น แม้ hyperscaler อย่าง Google และ Microsoft จะเป็นผู้นำในด้านนี้ แต่ Ted เชื่อว่าผู้ให้บริการรายเล็กยังมีโอกาส เพราะความคล่องตัวและนวัตกรรมยังเป็นจุดแข็งที่สำคัญในตลาดที่เปลี่ยนแปลงเร็ว ✅ ข้อมูลสำคัญจากข่าว ➡️ แร็ค AI อาจใช้พลังงานถึง 1 เมกะวัตต์ต่อแร็คภายในปี 2030 ➡️ แร็คทั่วไปจะขยับขึ้นไปอยู่ที่ 30–50 กิโลวัตต์ในช่วงเดียวกัน ➡️ แร็ค AI ใช้พลังงานมากกว่ารุ่นทั่วไปถึง 20–30 เท่า ➡️ อุตสาหกรรมเปลี่ยนไปใช้ระบบไฟฟ้า DC แรงสูง เช่น +/-400V ➡️ ระบบระบายความร้อนแบบ liquid cooling ถูกควบคุมโดย CDU ➡️ Microsoft ทดลองระบบ microfluidics ที่ฝังร่องบนชิปเพื่อให้น้ำไหลผ่านโดยตรง ➡️ ระบบใหม่ช่วยลดอุณหภูมิ GPU ได้ถึง 65% และเพิ่มประสิทธิภาพการระบายความร้อนถึง 3 เท่า ➡️ AI ถูกนำมาใช้ร่วมกับระบบระบายความร้อนเพื่อควบคุมการไหลของน้ำอย่างแม่นยำ ➡️ ผู้ให้บริการรายเล็กยังมีโอกาสแข่งขันในตลาดผ่านความคล่องตัวและนวัตกรรม ✅ ข้อมูลเสริมจากภายนอก ➡️ น้ำมีความสามารถในการนำความร้อนสูงกว่าอากาศถึง 30 เท่า และบรรจุพลังงานความร้อนได้มากกว่า 4,000 เท่า ➡️ Google ใช้ liquid cooling กับ TPU Pods มากกว่า 2,000 ชุด และมี uptime ถึง 99.999% ตลอด 7 ปี ➡️ การใช้ +/-400V DC ช่วยลดขนาดสายไฟและเพิ่มประสิทธิภาพการจ่ายไฟ ➡️ ระบบ AC-to-DC sidecar ช่วยแยกส่วนพลังงานออกจากแร็ค ทำให้พื้นที่ภายในแร็คใช้สำหรับ compute ได้เต็มที่ ➡️ การออกแบบแร็คใหม่อาจเป็นตัวกำหนดอนาคตของโครงสร้างดิจิทัลทั้งหมด https://www.techradar.com/pro/security/this-graph-alone-shows-how-global-ai-power-consumption-is-getting-out-of-hand-very-quickly-and-its-not-just-about-hyperscalers-or-openai
    WWW.TECHRADAR.COM
    Projections show AI racks may consume 20 to 30 times the energy of traditional racks by 2030
    AI racks could consume 20 to 30 times the energy of traditional racks by 2030
    0 ความคิดเห็น 0 การแบ่งปัน 199 มุมมอง 0 รีวิว
  • Anthropic เปิดเบื้องหลัง 3 บั๊กใหญ่ที่ทำให้ Claude ตอบผิดเพี้ยน — เมื่อ AI ไม่ได้ “เนิร์ฟ” แต่โครงสร้างพื้นฐานพัง

    ระหว่างเดือนสิงหาคมถึงต้นกันยายน 2025 ผู้ใช้ Claude หลายคนเริ่มสังเกตว่าคุณภาพการตอบกลับของโมเดลลดลงอย่างผิดปกติ บางคนได้รับคำตอบที่แปลกประหลาด เช่นมีตัวอักษรไทยโผล่กลางข้อความภาษาอังกฤษ หรือโค้ดที่ผิดไวยากรณ์อย่างชัดเจน จนเกิดข้อสงสัยว่า Anthropic กำลัง “ลดคุณภาพ” ของโมเดลเพื่อจัดการกับโหลดหรือควบคุมต้นทุน

    แต่ล่าสุด Anthropic ได้ออกมาเปิดเผยอย่างตรงไปตรงมาว่า ปัญหาทั้งหมดเกิดจาก “บั๊กในโครงสร้างพื้นฐาน” ไม่ใช่การลดคุณภาพโดยเจตนา โดยมีทั้งหมด 3 บั๊กที่เกิดขึ้นพร้อมกันและส่งผลกระทบต่อโมเดล Claude หลายรุ่น ได้แก่ Sonnet 4, Opus 4.1, Haiku 3.5 และ Opus 3

    บั๊กแรกคือการ “ส่งคำขอผิดเซิร์ฟเวอร์” โดยคำขอที่ควรใช้ context window แบบสั้น กลับถูกส่งไปยังเซิร์ฟเวอร์ที่เตรียมไว้สำหรับ context window ขนาด 1 ล้านโทเคน ซึ่งยังไม่พร้อมใช้งาน ทำให้การตอบกลับผิดเพี้ยนและช้า โดยเฉพาะในช่วงปลายเดือนสิงหาคมที่มีการเปลี่ยนแปลงระบบ load balancing ทำให้คำขอผิดพลาดเพิ่มขึ้นถึง 16%

    บั๊กที่สองคือ “การสร้างโทเคนผิดพลาด” บนเซิร์ฟเวอร์ TPU ซึ่งเกิดจากการปรับแต่งประสิทธิภาพที่ทำให้โมเดลเลือกโทเคนที่ไม่ควรปรากฏ เช่น ตัวอักษรจีนหรือไทยในคำตอบภาษาอังกฤษ หรือโค้ดที่มี syntax ผิดอย่างชัดเจน

    บั๊กสุดท้ายคือ “การคอมไพล์ผิดพลาดใน XLA:TPU” ซึ่งเกิดจากการใช้การคำนวณแบบ approximate top-k ที่ควรช่วยเพิ่มประสิทธิภาพ แต่กลับทำให้โมเดลเลือกโทเคนผิด โดยเฉพาะเมื่อใช้ precision ที่ไม่ตรงกันระหว่าง bf16 และ fp32 ทำให้โทเคนที่ควรมีโอกาสสูงสุดถูกตัดออกไปโดยไม่ตั้งใจ

    Anthropic ได้แก้ไขบั๊กทั้งหมดแล้ว และประกาศแผนปรับปรุงระบบตรวจสอบคุณภาพให้ละเอียดขึ้น รวมถึงพัฒนาเครื่องมือ debug ที่ไม่ละเมิดความเป็นส่วนตัวของผู้ใช้ พร้อมขอความร่วมมือจากผู้ใช้ให้ส่ง feedback เมื่อพบปัญหา เพื่อช่วยให้ทีมงานตรวจสอบได้เร็วขึ้น

    Claude ตอบผิดเพี้ยนจาก 3 บั๊กในโครงสร้างพื้นฐาน
    ไม่ใช่การลดคุณภาพโดยเจตนา
    ส่งผลกระทบต่อหลายรุ่น เช่น Sonnet 4, Opus 4.1, Haiku 3.5

    บั๊กที่ 1: Context window routing error
    คำขอถูกส่งไปยังเซิร์ฟเวอร์ที่ใช้ context window 1M โดยผิดพลาด
    ส่งผลให้คำตอบผิดเพี้ยน โดยเฉพาะช่วงปลายเดือนสิงหาคม

    บั๊กที่ 2: Output corruption บน TPU
    โทเคนที่ไม่ควรปรากฏถูกเลือก เช่น “สวัสดี” ในคำตอบภาษาอังกฤษ
    เกิดจากการปรับแต่งประสิทธิภาพที่ผิดพลาด

    บั๊กที่ 3: XLA:TPU miscompilation
    การใช้ approximate top-k ทำให้โทเคนที่ควรมีโอกาสสูงสุดถูกตัดออก
    เกิดจาก precision mismatch ระหว่าง bf16 และ fp32

    Anthropic แก้ไขบั๊กทั้งหมดแล้ว
    ปรับ routing logic / rollback การเปลี่ยนแปลง / ใช้ exact top-k แทน
    เพิ่มการตรวจสอบคุณภาพและเครื่องมือ debug ใหม่

    ผู้ใช้สามารถช่วยแจ้งปัญหาได้โดยใช้ /bug หรือปุ่ม thumbs down
    Feedback จากผู้ใช้ช่วยให้ทีมงานตรวจสอบได้เร็วขึ้น
    Anthropic ยืนยันความโปร่งใสและขอบคุณชุมชนที่ช่วยเหลือ

    https://www.anthropic.com/engineering/a-postmortem-of-three-recent-issues
    📰 Anthropic เปิดเบื้องหลัง 3 บั๊กใหญ่ที่ทำให้ Claude ตอบผิดเพี้ยน — เมื่อ AI ไม่ได้ “เนิร์ฟ” แต่โครงสร้างพื้นฐานพัง ระหว่างเดือนสิงหาคมถึงต้นกันยายน 2025 ผู้ใช้ Claude หลายคนเริ่มสังเกตว่าคุณภาพการตอบกลับของโมเดลลดลงอย่างผิดปกติ บางคนได้รับคำตอบที่แปลกประหลาด เช่นมีตัวอักษรไทยโผล่กลางข้อความภาษาอังกฤษ หรือโค้ดที่ผิดไวยากรณ์อย่างชัดเจน จนเกิดข้อสงสัยว่า Anthropic กำลัง “ลดคุณภาพ” ของโมเดลเพื่อจัดการกับโหลดหรือควบคุมต้นทุน แต่ล่าสุด Anthropic ได้ออกมาเปิดเผยอย่างตรงไปตรงมาว่า ปัญหาทั้งหมดเกิดจาก “บั๊กในโครงสร้างพื้นฐาน” ไม่ใช่การลดคุณภาพโดยเจตนา โดยมีทั้งหมด 3 บั๊กที่เกิดขึ้นพร้อมกันและส่งผลกระทบต่อโมเดล Claude หลายรุ่น ได้แก่ Sonnet 4, Opus 4.1, Haiku 3.5 และ Opus 3 บั๊กแรกคือการ “ส่งคำขอผิดเซิร์ฟเวอร์” โดยคำขอที่ควรใช้ context window แบบสั้น กลับถูกส่งไปยังเซิร์ฟเวอร์ที่เตรียมไว้สำหรับ context window ขนาด 1 ล้านโทเคน ซึ่งยังไม่พร้อมใช้งาน ทำให้การตอบกลับผิดเพี้ยนและช้า โดยเฉพาะในช่วงปลายเดือนสิงหาคมที่มีการเปลี่ยนแปลงระบบ load balancing ทำให้คำขอผิดพลาดเพิ่มขึ้นถึง 16% บั๊กที่สองคือ “การสร้างโทเคนผิดพลาด” บนเซิร์ฟเวอร์ TPU ซึ่งเกิดจากการปรับแต่งประสิทธิภาพที่ทำให้โมเดลเลือกโทเคนที่ไม่ควรปรากฏ เช่น ตัวอักษรจีนหรือไทยในคำตอบภาษาอังกฤษ หรือโค้ดที่มี syntax ผิดอย่างชัดเจน บั๊กสุดท้ายคือ “การคอมไพล์ผิดพลาดใน XLA:TPU” ซึ่งเกิดจากการใช้การคำนวณแบบ approximate top-k ที่ควรช่วยเพิ่มประสิทธิภาพ แต่กลับทำให้โมเดลเลือกโทเคนผิด โดยเฉพาะเมื่อใช้ precision ที่ไม่ตรงกันระหว่าง bf16 และ fp32 ทำให้โทเคนที่ควรมีโอกาสสูงสุดถูกตัดออกไปโดยไม่ตั้งใจ Anthropic ได้แก้ไขบั๊กทั้งหมดแล้ว และประกาศแผนปรับปรุงระบบตรวจสอบคุณภาพให้ละเอียดขึ้น รวมถึงพัฒนาเครื่องมือ debug ที่ไม่ละเมิดความเป็นส่วนตัวของผู้ใช้ พร้อมขอความร่วมมือจากผู้ใช้ให้ส่ง feedback เมื่อพบปัญหา เพื่อช่วยให้ทีมงานตรวจสอบได้เร็วขึ้น ✅ Claude ตอบผิดเพี้ยนจาก 3 บั๊กในโครงสร้างพื้นฐาน ➡️ ไม่ใช่การลดคุณภาพโดยเจตนา ➡️ ส่งผลกระทบต่อหลายรุ่น เช่น Sonnet 4, Opus 4.1, Haiku 3.5 ✅ บั๊กที่ 1: Context window routing error ➡️ คำขอถูกส่งไปยังเซิร์ฟเวอร์ที่ใช้ context window 1M โดยผิดพลาด ➡️ ส่งผลให้คำตอบผิดเพี้ยน โดยเฉพาะช่วงปลายเดือนสิงหาคม ✅ บั๊กที่ 2: Output corruption บน TPU ➡️ โทเคนที่ไม่ควรปรากฏถูกเลือก เช่น “สวัสดี” ในคำตอบภาษาอังกฤษ ➡️ เกิดจากการปรับแต่งประสิทธิภาพที่ผิดพลาด ✅ บั๊กที่ 3: XLA:TPU miscompilation ➡️ การใช้ approximate top-k ทำให้โทเคนที่ควรมีโอกาสสูงสุดถูกตัดออก ➡️ เกิดจาก precision mismatch ระหว่าง bf16 และ fp32 ✅ Anthropic แก้ไขบั๊กทั้งหมดแล้ว ➡️ ปรับ routing logic / rollback การเปลี่ยนแปลง / ใช้ exact top-k แทน ➡️ เพิ่มการตรวจสอบคุณภาพและเครื่องมือ debug ใหม่ ✅ ผู้ใช้สามารถช่วยแจ้งปัญหาได้โดยใช้ /bug หรือปุ่ม thumbs down ➡️ Feedback จากผู้ใช้ช่วยให้ทีมงานตรวจสอบได้เร็วขึ้น ➡️ Anthropic ยืนยันความโปร่งใสและขอบคุณชุมชนที่ช่วยเหลือ https://www.anthropic.com/engineering/a-postmortem-of-three-recent-issues
    WWW.ANTHROPIC.COM
    A postmortem of three recent issues
    This is a technical report on three bugs that intermittently degraded responses from Claude. Below we explain what happened, why it took time to fix, and what we're changing.
    0 ความคิดเห็น 0 การแบ่งปัน 282 มุมมอง 0 รีวิว
  • เรื่องเล่าจาก 3 ล้าน IOPS สู่ 100 ล้าน IOPS: เมื่อ SSD กลายเป็นหัวใจของการประมวลผล AI

    ในปี 2027 Kioxia เตรียมเปิดตัว SSD ที่สามารถทำงานได้ถึง 100 ล้าน IOPS (Input/Output Operations Per Second) ซึ่งมากกว่าความสามารถของ SSD ปัจจุบันถึง 33 เท่า โดยจะใช้ร่วมกับ GPU ของ Nvidia เพื่อเร่งการประมวลผล AI โดยเฉพาะ

    SSD รุ่นใหม่นี้จะเชื่อมต่อผ่าน PCIe 7.0 แบบ peer-to-peer กับ GPU โดยตรง ซึ่งช่วยลด latency และเพิ่ม throughput อย่างมหาศาล เหมาะกับงาน AI ที่ต้องอ่านข้อมูลแบบสุ่มขนาดเล็ก เช่น embeddings, model weights หรือ database entries

    Kioxia วางแผนใช้ XL-Flash ซึ่งเป็น NAND แบบ SLC ที่มี latency ต่ำและ endurance สูง โดยอาจต้องใช้ถึง 915 NAND dies เพื่อให้ได้ความเร็วระดับนั้น ซึ่งจะต้องใช้ controller แบบพิเศษ และอาจต้องใช้เทคโนโลยีใหม่อย่าง High Bandwidth Flash (HBF) ที่รวม NAND หลายตัวไว้ใน stack เดียว

    แม้จะมีความท้าทายด้านการออกแบบ เช่น การจัดการ channel bandwidth, queue depth และ firmware แต่ Kioxia เชื่อว่าการพัฒนา SSD แบบนี้จะเป็นก้าวสำคัญในการรองรับ AI server รุ่นใหม่ที่ต้องการความเร็วระดับ “Giga IOPS”

    ความร่วมมือระหว่าง Kioxia และ Nvidia
    พัฒนา SSD ที่มีความเร็ว 100 ล้าน IOPS สำหรับ AI server
    ใช้ร่วมกับ GPU ของ Nvidia เพื่อเร่งการประมวลผลแบบ peer-to-peer
    เป้าหมายคือการเพิ่มประสิทธิภาพการอ่านข้อมูลแบบสุ่มขนาดเล็ก

    เทคโนโลยีที่ใช้ใน SSD รุ่นใหม่
    ใช้ XL-Flash ซึ่งเป็น SLC NAND ที่มี latency ต่ำ
    อาจต้องใช้ถึง 915 NAND dies เพื่อให้ได้ความเร็วระดับนั้น
    เชื่อมต่อผ่าน PCIe 7.0 และอาจใช้ multi-controller module

    ความสำคัญของ 512B IOPS สำหรับ AI
    AI workloads ต้องการการอ่านข้อมูลแบบสุ่มขนาดเล็กมาก
    512-byte blocks ให้ latency ต่ำกว่า 4K blocks
    การเพิ่ม sequential bandwidth ง่ายกว่าการลด latency

    ทางเลือกใหม่: High Bandwidth Flash (HBF)
    ใช้ TSVs และ microbumps เชื่อม NAND หลายตัวใน stack เดียว
    เพิ่ม parallelism และลด bottleneck ของ controller
    อาจเป็นทางออกสำหรับ SSD ที่ต้องการความเร็วระดับสูง

    https://www.tomshardware.com/tech-industry/nvidia-and-kioxia-target-100-million-iops-ssd-in-2027-33-times-more-than-existing-drives-for-exclusive-use-in-ai-servers
    🎙️ เรื่องเล่าจาก 3 ล้าน IOPS สู่ 100 ล้าน IOPS: เมื่อ SSD กลายเป็นหัวใจของการประมวลผล AI ในปี 2027 Kioxia เตรียมเปิดตัว SSD ที่สามารถทำงานได้ถึง 100 ล้าน IOPS (Input/Output Operations Per Second) ซึ่งมากกว่าความสามารถของ SSD ปัจจุบันถึง 33 เท่า โดยจะใช้ร่วมกับ GPU ของ Nvidia เพื่อเร่งการประมวลผล AI โดยเฉพาะ SSD รุ่นใหม่นี้จะเชื่อมต่อผ่าน PCIe 7.0 แบบ peer-to-peer กับ GPU โดยตรง ซึ่งช่วยลด latency และเพิ่ม throughput อย่างมหาศาล เหมาะกับงาน AI ที่ต้องอ่านข้อมูลแบบสุ่มขนาดเล็ก เช่น embeddings, model weights หรือ database entries Kioxia วางแผนใช้ XL-Flash ซึ่งเป็น NAND แบบ SLC ที่มี latency ต่ำและ endurance สูง โดยอาจต้องใช้ถึง 915 NAND dies เพื่อให้ได้ความเร็วระดับนั้น ซึ่งจะต้องใช้ controller แบบพิเศษ และอาจต้องใช้เทคโนโลยีใหม่อย่าง High Bandwidth Flash (HBF) ที่รวม NAND หลายตัวไว้ใน stack เดียว แม้จะมีความท้าทายด้านการออกแบบ เช่น การจัดการ channel bandwidth, queue depth และ firmware แต่ Kioxia เชื่อว่าการพัฒนา SSD แบบนี้จะเป็นก้าวสำคัญในการรองรับ AI server รุ่นใหม่ที่ต้องการความเร็วระดับ “Giga IOPS” ✅ ความร่วมมือระหว่าง Kioxia และ Nvidia ➡️ พัฒนา SSD ที่มีความเร็ว 100 ล้าน IOPS สำหรับ AI server ➡️ ใช้ร่วมกับ GPU ของ Nvidia เพื่อเร่งการประมวลผลแบบ peer-to-peer ➡️ เป้าหมายคือการเพิ่มประสิทธิภาพการอ่านข้อมูลแบบสุ่มขนาดเล็ก ✅ เทคโนโลยีที่ใช้ใน SSD รุ่นใหม่ ➡️ ใช้ XL-Flash ซึ่งเป็น SLC NAND ที่มี latency ต่ำ ➡️ อาจต้องใช้ถึง 915 NAND dies เพื่อให้ได้ความเร็วระดับนั้น ➡️ เชื่อมต่อผ่าน PCIe 7.0 และอาจใช้ multi-controller module ✅ ความสำคัญของ 512B IOPS สำหรับ AI ➡️ AI workloads ต้องการการอ่านข้อมูลแบบสุ่มขนาดเล็กมาก ➡️ 512-byte blocks ให้ latency ต่ำกว่า 4K blocks ➡️ การเพิ่ม sequential bandwidth ง่ายกว่าการลด latency ✅ ทางเลือกใหม่: High Bandwidth Flash (HBF) ➡️ ใช้ TSVs และ microbumps เชื่อม NAND หลายตัวใน stack เดียว ➡️ เพิ่ม parallelism และลด bottleneck ของ controller ➡️ อาจเป็นทางออกสำหรับ SSD ที่ต้องการความเร็วระดับสูง https://www.tomshardware.com/tech-industry/nvidia-and-kioxia-target-100-million-iops-ssd-in-2027-33-times-more-than-existing-drives-for-exclusive-use-in-ai-servers
    0 ความคิดเห็น 0 การแบ่งปัน 217 มุมมอง 0 รีวิว
  • “มัลแวร์ยุคใหม่ไม่ต้องคลิก — เมื่อ AI ถูกหลอกด้วยคำสั่งซ่อนในไฟล์ Word และแมโคร”

    ภัยคุกคามไซเบอร์กำลังเปลี่ยนโฉมหน้าอย่างเงียบ ๆ และน่ากลัวกว่าที่เคย เมื่อผู้โจมตีเริ่มใช้เทคนิค “AI Prompt Injection” ผ่านไฟล์เอกสารทั่วไป เช่น Word, PDF หรือแม้แต่เรซูเม่ โดยฝังคำสั่งลับไว้ในแมโครหรือ metadata เพื่อหลอกให้ระบบ AI ที่ใช้วิเคราะห์ไฟล์หรือช่วยงานอัตโนมัติทำตามคำสั่งของผู้โจมตีโดยไม่รู้ตัว

    รายงานล่าสุดจาก CSO Online เปิดเผยว่าเทคนิคนี้ถูกใช้จริงแล้วในหลายกรณี เช่น ช่องโหว่ EchoLeak (CVE-2025-32711) ที่พบใน Microsoft 365 Copilot ซึ่งสามารถฝังคำสั่งในอีเมลหรือไฟล์ Word ให้ Copilot ประมวลผลและรันคำสั่งโดยอัตโนมัติ โดยไม่ต้องคลิกหรือเปิดไฟล์เลยด้วยซ้ำ — นี่คือ “zero-click prompt injection” ที่แท้จริง

    อีกกรณีคือ CurXecute (CVE-2025-54135) ซึ่งโจมตี Cursor IDE โดยใช้ prompt injection ผ่านไฟล์ config ที่ถูกเขียนใหม่แบบเงียบ ๆ เพื่อรันคำสั่งในเครื่องของนักพัฒนาโดยไม่รู้ตัว และ Skynet malware ที่ใช้เทคนิค “Jedi mind trick” เพื่อหลอก AI scanner ให้มองข้ามมัลแวร์

    นักวิจัยด้านความปลอดภัยเตือนว่า prompt injection ไม่ใช่แค่เรื่องของการหลอกให้ AI ตอบผิด — แต่มันคือการควบคุมพฤติกรรมของระบบ AI ทั้งชุด เช่น การสั่งให้เปิดช่องหลัง, ส่งข้อมูลลับ, หรือแม้แต่รันโค้ดอันตราย โดยที่ผู้ใช้ไม่รู้เลยว่ามีคำสั่งซ่อนอยู่ในไฟล์

    รูปแบบการโจมตีแบบใหม่ด้วย AI Prompt Injection
    ฝังคำสั่งในแมโคร, VBA script หรือ metadata ของไฟล์ เช่น DOCX, PDF, EXIF
    เมื่อ AI parser อ่านไฟล์ จะรันคำสั่งโดยไม่ต้องคลิกหรือเปิดไฟล์
    ใช้เทคนิค ASCII smuggling, ฟอนต์ขนาดเล็ก, สีพื้นหลังกลืนกับข้อความ
    ตัวอย่างเช่น EchoLeak ใน Microsoft 365 Copilot และ CurXecute ใน Cursor IDE

    ผลกระทบต่อระบบ AI และองค์กร
    AI ถูกหลอกให้ส่งข้อมูลลับ, เปิดช่องทางเข้าระบบ หรือรันโค้ดอันตราย
    Skynet malware ใช้ prompt injection เพื่อหลอก AI scanner ให้มองข้ามมัลแวร์
    ผู้โจมตีสามารถฝังคำสั่งในเรซูเม่เพื่อให้ AI job portal ดันขึ้นอันดับต้น
    การโจมตีแบบนี้ไม่ต้องใช้ payload แบบเดิม — ใช้คำสั่งแทน

    แนวทางป้องกันที่แนะนำ
    ตรวจสอบไฟล์จากแหล่งที่ไม่เชื่อถือด้วย sandbox และ static analysis
    ใช้ Content Disarm & Reconstruction (CDR) เพื่อลบเนื้อหาที่ฝังคำสั่ง
    แยกการรันแมโครออกจากระบบหลัก เช่น ใช้ protected view หรือ sandbox
    สร้างระบบ AI ที่มี guardrails และการตรวจสอบ input/output อย่างเข้มงวด

    ข้อมูลเสริมจากภายนอก
    Prompt injection เคยเป็นแค่การทดลอง แต่ตอนนี้เริ่มถูกใช้จริงในมัลแวร์
    ช่องโหว่แบบ zero-click ทำให้ผู้ใช้ไม่รู้ตัวเลยว่าถูกโจมตี
    AI agent ที่เชื่อมต่อกับระบบภายนอก เช่น Slack, GitHub, database ยิ่งเสี่ย
    นักวิจัยแนะนำให้องค์กรปฏิบัติต่อ AI pipeline เหมือน CI/CD pipeline — ต้องมี Zero Trust

    https://www.csoonline.com/article/4053107/ai-prompt-injection-gets-real-with-macros-the-latest-hidden-threat.html
    🧠 “มัลแวร์ยุคใหม่ไม่ต้องคลิก — เมื่อ AI ถูกหลอกด้วยคำสั่งซ่อนในไฟล์ Word และแมโคร” ภัยคุกคามไซเบอร์กำลังเปลี่ยนโฉมหน้าอย่างเงียบ ๆ และน่ากลัวกว่าที่เคย เมื่อผู้โจมตีเริ่มใช้เทคนิค “AI Prompt Injection” ผ่านไฟล์เอกสารทั่วไป เช่น Word, PDF หรือแม้แต่เรซูเม่ โดยฝังคำสั่งลับไว้ในแมโครหรือ metadata เพื่อหลอกให้ระบบ AI ที่ใช้วิเคราะห์ไฟล์หรือช่วยงานอัตโนมัติทำตามคำสั่งของผู้โจมตีโดยไม่รู้ตัว รายงานล่าสุดจาก CSO Online เปิดเผยว่าเทคนิคนี้ถูกใช้จริงแล้วในหลายกรณี เช่น ช่องโหว่ EchoLeak (CVE-2025-32711) ที่พบใน Microsoft 365 Copilot ซึ่งสามารถฝังคำสั่งในอีเมลหรือไฟล์ Word ให้ Copilot ประมวลผลและรันคำสั่งโดยอัตโนมัติ โดยไม่ต้องคลิกหรือเปิดไฟล์เลยด้วยซ้ำ — นี่คือ “zero-click prompt injection” ที่แท้จริง อีกกรณีคือ CurXecute (CVE-2025-54135) ซึ่งโจมตี Cursor IDE โดยใช้ prompt injection ผ่านไฟล์ config ที่ถูกเขียนใหม่แบบเงียบ ๆ เพื่อรันคำสั่งในเครื่องของนักพัฒนาโดยไม่รู้ตัว และ Skynet malware ที่ใช้เทคนิค “Jedi mind trick” เพื่อหลอก AI scanner ให้มองข้ามมัลแวร์ นักวิจัยด้านความปลอดภัยเตือนว่า prompt injection ไม่ใช่แค่เรื่องของการหลอกให้ AI ตอบผิด — แต่มันคือการควบคุมพฤติกรรมของระบบ AI ทั้งชุด เช่น การสั่งให้เปิดช่องหลัง, ส่งข้อมูลลับ, หรือแม้แต่รันโค้ดอันตราย โดยที่ผู้ใช้ไม่รู้เลยว่ามีคำสั่งซ่อนอยู่ในไฟล์ ✅ รูปแบบการโจมตีแบบใหม่ด้วย AI Prompt Injection ➡️ ฝังคำสั่งในแมโคร, VBA script หรือ metadata ของไฟล์ เช่น DOCX, PDF, EXIF ➡️ เมื่อ AI parser อ่านไฟล์ จะรันคำสั่งโดยไม่ต้องคลิกหรือเปิดไฟล์ ➡️ ใช้เทคนิค ASCII smuggling, ฟอนต์ขนาดเล็ก, สีพื้นหลังกลืนกับข้อความ ➡️ ตัวอย่างเช่น EchoLeak ใน Microsoft 365 Copilot และ CurXecute ใน Cursor IDE ✅ ผลกระทบต่อระบบ AI และองค์กร ➡️ AI ถูกหลอกให้ส่งข้อมูลลับ, เปิดช่องทางเข้าระบบ หรือรันโค้ดอันตราย ➡️ Skynet malware ใช้ prompt injection เพื่อหลอก AI scanner ให้มองข้ามมัลแวร์ ➡️ ผู้โจมตีสามารถฝังคำสั่งในเรซูเม่เพื่อให้ AI job portal ดันขึ้นอันดับต้น ➡️ การโจมตีแบบนี้ไม่ต้องใช้ payload แบบเดิม — ใช้คำสั่งแทน ✅ แนวทางป้องกันที่แนะนำ ➡️ ตรวจสอบไฟล์จากแหล่งที่ไม่เชื่อถือด้วย sandbox และ static analysis ➡️ ใช้ Content Disarm & Reconstruction (CDR) เพื่อลบเนื้อหาที่ฝังคำสั่ง ➡️ แยกการรันแมโครออกจากระบบหลัก เช่น ใช้ protected view หรือ sandbox ➡️ สร้างระบบ AI ที่มี guardrails และการตรวจสอบ input/output อย่างเข้มงวด ✅ ข้อมูลเสริมจากภายนอก ➡️ Prompt injection เคยเป็นแค่การทดลอง แต่ตอนนี้เริ่มถูกใช้จริงในมัลแวร์ ➡️ ช่องโหว่แบบ zero-click ทำให้ผู้ใช้ไม่รู้ตัวเลยว่าถูกโจมตี ➡️ AI agent ที่เชื่อมต่อกับระบบภายนอก เช่น Slack, GitHub, database ยิ่งเสี่ย ➡️ นักวิจัยแนะนำให้องค์กรปฏิบัติต่อ AI pipeline เหมือน CI/CD pipeline — ต้องมี Zero Trust https://www.csoonline.com/article/4053107/ai-prompt-injection-gets-real-with-macros-the-latest-hidden-threat.html
    WWW.CSOONLINE.COM
    AI prompt injection gets real — with macros the latest hidden threat
    Attackers are evolving their malware delivery tactics by weaponing malicious prompts embedded in document macros to hack AI systems.
    0 ความคิดเห็น 0 การแบ่งปัน 366 มุมมอง 0 รีวิว
  • “OpenAI ผนึก Broadcom สร้างชิป Titan — ยุทธศาสตร์ใหม่ลดพึ่งพา Nvidia ด้วยคำสั่งซื้อ $10 พันล้าน และเป้าหมายสู่ AGI”

    ในยุคที่การแข่งขันด้าน AI รุนแรงขึ้นทุกวัน OpenAI กำลังเดินเกมใหม่ที่อาจเปลี่ยนสมดุลของอุตสาหกรรมฮาร์ดแวร์ ด้วยการร่วมมือกับ Broadcom เพื่อพัฒนาชิปประมวลผล AI แบบกำหนดเอง (custom ASIC) ภายใต้ชื่อ “Titan” โดยมีเป้าหมายเพื่อลดการพึ่งพา GPU จาก Nvidia ซึ่งมีราคาสูงและขาดแคลนอย่างต่อเนื่อง

    Broadcom ซึ่งเคยเป็นผู้ผลิตชิปสำหรับสมาร์ตโฟน ได้ขยายเข้าสู่ตลาด data center และกลายเป็นผู้นำด้านการออกแบบ XPU สำหรับงาน AI โดยก่อนหน้านี้มีลูกค้าระดับยักษ์อย่าง Google, Meta และ ByteDance ล่าสุด OpenAI กลายเป็นลูกค้ารายที่สี่ พร้อมสั่งซื้อ rack ระบบ AI มูลค่ากว่า $10 พันล้าน ซึ่งจะเริ่มส่งมอบในไตรมาสที่ 3 ปีงบประมาณ 20262

    ชิป Titan จะถูกใช้สำหรับงาน inference โดยเฉพาะ และนำโดย Richard Ho อดีตวิศวกรผู้ออกแบบ Google TPU ซึ่งแสดงให้เห็นว่า OpenAI ต้องการควบคุมโครงสร้างพื้นฐานของตนเองอย่างจริงจัง เพื่อรองรับโมเดลขนาดใหญ่ เช่น GPT-4.5 และโครงการ Stargate ที่มีเป้าหมายสู่ AGI ภายใน 4 ปี

    การตัดสินใจนี้เกิดขึ้นหลังจาก OpenAI ประสบปัญหาขาดแคลน GPU อย่างหนักในช่วงต้นปี 2025 ซึ่งส่งผลให้การเปิดตัว GPT-4.5 ล่าช้า แม้จะมีเงินทุนจาก Microsoft และการระดมทุนรอบ Series F และการขายหุ้นภายในที่ดันมูลค่าบริษัทขึ้นถึง $500 พันล้าน แต่การลงทุนในโครงสร้างพื้นฐานยังเป็นภาระที่ต้องจัดการอย่างเร่งด่วน

    ความร่วมมือระหว่าง OpenAI และ Broadcom
    OpenAI เป็นลูกค้ารายที่ 4 ของ Broadcom ในโครงการ custom XPU
    สั่งซื้อ rack ระบบ AI มูลค่า $10 พันล้าน เริ่มส่งมอบปี 2026
    ชิป Titan ออกแบบสำหรับงาน inference โดยเฉพาะ
    นำโดย Richard Ho อดีตวิศวกร Google TPU

    เหตุผลเบื้องหลังการพัฒนา Titan
    ลดการพึ่งพา Nvidia ที่มีราคาสูงและขาดแคลน
    รองรับโมเดลขนาดใหญ่ เช่น GPT-4.5 และโครงการ Stargate
    เพิ่มประสิทธิภาพและควบคุมต้นทุนโครงสร้างพื้นฐาน
    ตอบสนองความต้องการด้าน compute ที่เพิ่มขึ้นอย่างรวดเร็ว

    ข้อมูลเสริมจากภายนอก
    Broadcom ขยายจากตลาดสมาร์ตโฟนสู่ data center และ AI infrastructure
    Titan เป็นส่วนหนึ่งของยุทธศาสตร์ AGI ภายใน 4 ปีของ OpenAI
    OpenAI เคยพึ่ง Azure cloud ของ Microsoft แต่ต้องการควบคุมระบบมากขึ้น
    การระดมทุน Series F และการขายหุ้นภายในดันมูลค่าบริษัทถึง $500 พันล้าน

    https://www.techradar.com/ai-platforms-assistants/chatgpt/nvidias-biggest-customers-are-lining-up-to-take-it-down-using-asics-and-broadcom-could-be-the-winner-of-that-battle
    💥 “OpenAI ผนึก Broadcom สร้างชิป Titan — ยุทธศาสตร์ใหม่ลดพึ่งพา Nvidia ด้วยคำสั่งซื้อ $10 พันล้าน และเป้าหมายสู่ AGI” ในยุคที่การแข่งขันด้าน AI รุนแรงขึ้นทุกวัน OpenAI กำลังเดินเกมใหม่ที่อาจเปลี่ยนสมดุลของอุตสาหกรรมฮาร์ดแวร์ ด้วยการร่วมมือกับ Broadcom เพื่อพัฒนาชิปประมวลผล AI แบบกำหนดเอง (custom ASIC) ภายใต้ชื่อ “Titan” โดยมีเป้าหมายเพื่อลดการพึ่งพา GPU จาก Nvidia ซึ่งมีราคาสูงและขาดแคลนอย่างต่อเนื่อง Broadcom ซึ่งเคยเป็นผู้ผลิตชิปสำหรับสมาร์ตโฟน ได้ขยายเข้าสู่ตลาด data center และกลายเป็นผู้นำด้านการออกแบบ XPU สำหรับงาน AI โดยก่อนหน้านี้มีลูกค้าระดับยักษ์อย่าง Google, Meta และ ByteDance ล่าสุด OpenAI กลายเป็นลูกค้ารายที่สี่ พร้อมสั่งซื้อ rack ระบบ AI มูลค่ากว่า $10 พันล้าน ซึ่งจะเริ่มส่งมอบในไตรมาสที่ 3 ปีงบประมาณ 20262 ชิป Titan จะถูกใช้สำหรับงาน inference โดยเฉพาะ และนำโดย Richard Ho อดีตวิศวกรผู้ออกแบบ Google TPU ซึ่งแสดงให้เห็นว่า OpenAI ต้องการควบคุมโครงสร้างพื้นฐานของตนเองอย่างจริงจัง เพื่อรองรับโมเดลขนาดใหญ่ เช่น GPT-4.5 และโครงการ Stargate ที่มีเป้าหมายสู่ AGI ภายใน 4 ปี การตัดสินใจนี้เกิดขึ้นหลังจาก OpenAI ประสบปัญหาขาดแคลน GPU อย่างหนักในช่วงต้นปี 2025 ซึ่งส่งผลให้การเปิดตัว GPT-4.5 ล่าช้า แม้จะมีเงินทุนจาก Microsoft และการระดมทุนรอบ Series F และการขายหุ้นภายในที่ดันมูลค่าบริษัทขึ้นถึง $500 พันล้าน แต่การลงทุนในโครงสร้างพื้นฐานยังเป็นภาระที่ต้องจัดการอย่างเร่งด่วน ✅ ความร่วมมือระหว่าง OpenAI และ Broadcom ➡️ OpenAI เป็นลูกค้ารายที่ 4 ของ Broadcom ในโครงการ custom XPU ➡️ สั่งซื้อ rack ระบบ AI มูลค่า $10 พันล้าน เริ่มส่งมอบปี 2026 ➡️ ชิป Titan ออกแบบสำหรับงาน inference โดยเฉพาะ ➡️ นำโดย Richard Ho อดีตวิศวกร Google TPU ✅ เหตุผลเบื้องหลังการพัฒนา Titan ➡️ ลดการพึ่งพา Nvidia ที่มีราคาสูงและขาดแคลน ➡️ รองรับโมเดลขนาดใหญ่ เช่น GPT-4.5 และโครงการ Stargate ➡️ เพิ่มประสิทธิภาพและควบคุมต้นทุนโครงสร้างพื้นฐาน ➡️ ตอบสนองความต้องการด้าน compute ที่เพิ่มขึ้นอย่างรวดเร็ว ✅ ข้อมูลเสริมจากภายนอก ➡️ Broadcom ขยายจากตลาดสมาร์ตโฟนสู่ data center และ AI infrastructure ➡️ Titan เป็นส่วนหนึ่งของยุทธศาสตร์ AGI ภายใน 4 ปีของ OpenAI ➡️ OpenAI เคยพึ่ง Azure cloud ของ Microsoft แต่ต้องการควบคุมระบบมากขึ้น ➡️ การระดมทุน Series F และการขายหุ้นภายในดันมูลค่าบริษัทถึง $500 พันล้าน https://www.techradar.com/ai-platforms-assistants/chatgpt/nvidias-biggest-customers-are-lining-up-to-take-it-down-using-asics-and-broadcom-could-be-the-winner-of-that-battle
    0 ความคิดเห็น 0 การแบ่งปัน 251 มุมมอง 0 รีวิว
  • “AI Data Center: เบื้องหลังเทคโนโลยีล้ำยุคที่อาจกลายเป็นจุดอ่อนด้านความมั่นคงไซเบอร์ระดับโลก”

    ลองนึกภาพว่าคุณกำลังพัฒนาโมเดล AI ที่ซับซ้อนระดับ GPT-5 หรือระบบวิเคราะห์ภาพทางการแพทย์ที่ต้องใช้พลังประมวลผลมหาศาล คุณอาจคิดถึง GPU, TPU หรือคลาวด์ที่เร็วแรง แต่สิ่งที่คุณอาจมองข้ามคือ “AI Data Center” ที่อยู่เบื้องหลังทั้งหมด — และนั่นคือจุดที่ภัยคุกคามไซเบอร์กำลังพุ่งเป้าเข้าใส่

    ในปี 2025 การลงทุนใน AI Data Center พุ่งสูงอย่างไม่เคยมีมาก่อน เช่น Amazon ทุ่มเงินกว่า $20 พันล้านในเพนซิลเวเนีย และ Meta เตรียมเปิดศูนย์ Prometheus ขนาดหลายกิกะวัตต์ในปี 2026 ขณะเดียวกัน รัฐบาลสหรัฐฯ โดยประธานาธิบดีทรัมป์ ได้ออกแผน AI Action Plan เพื่อเร่งพัฒนาโครงสร้างพื้นฐาน AI ทั้งในประเทศและต่างประเทศ

    แต่เบื้องหลังความก้าวหน้าเหล่านี้คือความเสี่ยงที่เพิ่มขึ้นอย่างมหาศาล ทั้งด้านพลังงาน (คาดว่าใช้ไฟฟ้ากว่า 612 เทราวัตต์ชั่วโมงใน 5 ปี) และด้านความปลอดภัยไซเบอร์ โดยเฉพาะการโจมตีแบบ side-channel, memory-level, model exfiltration และ supply chain sabotage ที่กำลังกลายเป็นเรื่องจริง

    AI Data Center ไม่ได้แค่เก็บข้อมูล แต่ยังเป็นที่อยู่ของโมเดล, น้ำหนักการเรียนรู้, และชุดข้อมูลฝึก ซึ่งหากถูกขโมยหรือถูกแก้ไข อาจส่งผลต่อความแม่นยำ ความน่าเชื่อถือ และแม้แต่ความมั่นคงของประเทศ

    การเติบโตของ AI Data Center
    Amazon ลงทุน $20 พันล้านในเพนซิลเวเนีย
    Meta เตรียมเปิดศูนย์ Prometheus ขนาดหลายกิกะวัตต์ในปี 2026
    รัฐบาลสหรัฐฯ สนับสนุนผ่าน AI Action Plan โดยประธานาธิบดีทรัมป์
    ความต้องการพลังงานสูงถึง 612 เทราวัตต์ชั่วโมงใน 5 ปี
    คาดว่าจะเพิ่มการปล่อยคาร์บอนทั่วโลก 3–4%

    ความเสี่ยงด้านไซเบอร์ที่เพิ่มขึ้น
    โจมตีแบบ DDoS, ransomware, supply chain และ social engineering
    side-channel attack จากฮาร์ดแวร์ เช่น CPU, GPU, TPU
    ตัวอย่าง: AMD พบช่องโหว่ 4 จุดในเดือนกรกฎาคม 2025
    TPUXtract โจมตี TPU โดยเจาะข้อมูลโมเดล AI โดยตรง
    GPU เสี่ยงต่อ memory-level attack และ malware ที่รันในหน่วยความจำ GPU
    ความเสี่ยงจาก model exfiltration, data poisoning, model inversion และ model stealing

    ความเสี่ยงด้านภูมิรัฐศาสตร์และ supply chain
    การโจมตีจากรัฐต่างชาติ เช่น การแทรกซึมจากจีนผ่าน Digital Silk Road 2.0
    การใช้เทคโนโลยี 5G และระบบเฝ้าระวังในภูมิภาคอ่าวเปอร์เซีย
    ความเสี่ยงจากการใช้ชิ้นส่วนที่ผลิตโดยบริษัทจีน
    การโจมตี supply chain ก่อนศูนย์จะเปิดใช้งานจริง

    แนวทางที่ผู้บริหารด้านความปลอดภัยควรพิจารณา
    ตรวจสอบนโยบายของผู้ให้บริการ AI Data Center อย่างละเอียด
    ใช้ Faraday cage หรือ shield chamber เพื่อลด side-channel attack
    ทำ AI audit อย่างต่อเนื่องเพื่อตรวจหาช่องโหว่และ backdoor
    ตรวจสอบตำแหน่งที่ตั้งของศูนย์และแหล่งที่มาของอุปกรณ์
    คัดกรองบุคลากรเพื่อป้องกันการแทรกซึมจากรัฐต่างชาติ

    https://www.csoonline.com/article/4051849/the-importance-of-reviewing-ai-data-centers-policies.html
    🏭 “AI Data Center: เบื้องหลังเทคโนโลยีล้ำยุคที่อาจกลายเป็นจุดอ่อนด้านความมั่นคงไซเบอร์ระดับโลก” ลองนึกภาพว่าคุณกำลังพัฒนาโมเดล AI ที่ซับซ้อนระดับ GPT-5 หรือระบบวิเคราะห์ภาพทางการแพทย์ที่ต้องใช้พลังประมวลผลมหาศาล คุณอาจคิดถึง GPU, TPU หรือคลาวด์ที่เร็วแรง แต่สิ่งที่คุณอาจมองข้ามคือ “AI Data Center” ที่อยู่เบื้องหลังทั้งหมด — และนั่นคือจุดที่ภัยคุกคามไซเบอร์กำลังพุ่งเป้าเข้าใส่ ในปี 2025 การลงทุนใน AI Data Center พุ่งสูงอย่างไม่เคยมีมาก่อน เช่น Amazon ทุ่มเงินกว่า $20 พันล้านในเพนซิลเวเนีย และ Meta เตรียมเปิดศูนย์ Prometheus ขนาดหลายกิกะวัตต์ในปี 2026 ขณะเดียวกัน รัฐบาลสหรัฐฯ โดยประธานาธิบดีทรัมป์ ได้ออกแผน AI Action Plan เพื่อเร่งพัฒนาโครงสร้างพื้นฐาน AI ทั้งในประเทศและต่างประเทศ แต่เบื้องหลังความก้าวหน้าเหล่านี้คือความเสี่ยงที่เพิ่มขึ้นอย่างมหาศาล ทั้งด้านพลังงาน (คาดว่าใช้ไฟฟ้ากว่า 612 เทราวัตต์ชั่วโมงใน 5 ปี) และด้านความปลอดภัยไซเบอร์ โดยเฉพาะการโจมตีแบบ side-channel, memory-level, model exfiltration และ supply chain sabotage ที่กำลังกลายเป็นเรื่องจริง AI Data Center ไม่ได้แค่เก็บข้อมูล แต่ยังเป็นที่อยู่ของโมเดล, น้ำหนักการเรียนรู้, และชุดข้อมูลฝึก ซึ่งหากถูกขโมยหรือถูกแก้ไข อาจส่งผลต่อความแม่นยำ ความน่าเชื่อถือ และแม้แต่ความมั่นคงของประเทศ ✅ การเติบโตของ AI Data Center ➡️ Amazon ลงทุน $20 พันล้านในเพนซิลเวเนีย ➡️ Meta เตรียมเปิดศูนย์ Prometheus ขนาดหลายกิกะวัตต์ในปี 2026 ➡️ รัฐบาลสหรัฐฯ สนับสนุนผ่าน AI Action Plan โดยประธานาธิบดีทรัมป์ ➡️ ความต้องการพลังงานสูงถึง 612 เทราวัตต์ชั่วโมงใน 5 ปี ➡️ คาดว่าจะเพิ่มการปล่อยคาร์บอนทั่วโลก 3–4% ✅ ความเสี่ยงด้านไซเบอร์ที่เพิ่มขึ้น ➡️ โจมตีแบบ DDoS, ransomware, supply chain และ social engineering ➡️ side-channel attack จากฮาร์ดแวร์ เช่น CPU, GPU, TPU ➡️ ตัวอย่าง: AMD พบช่องโหว่ 4 จุดในเดือนกรกฎาคม 2025 ➡️ TPUXtract โจมตี TPU โดยเจาะข้อมูลโมเดล AI โดยตรง ➡️ GPU เสี่ยงต่อ memory-level attack และ malware ที่รันในหน่วยความจำ GPU ➡️ ความเสี่ยงจาก model exfiltration, data poisoning, model inversion และ model stealing ✅ ความเสี่ยงด้านภูมิรัฐศาสตร์และ supply chain ➡️ การโจมตีจากรัฐต่างชาติ เช่น การแทรกซึมจากจีนผ่าน Digital Silk Road 2.0 ➡️ การใช้เทคโนโลยี 5G และระบบเฝ้าระวังในภูมิภาคอ่าวเปอร์เซีย ➡️ ความเสี่ยงจากการใช้ชิ้นส่วนที่ผลิตโดยบริษัทจีน ➡️ การโจมตี supply chain ก่อนศูนย์จะเปิดใช้งานจริง ✅ แนวทางที่ผู้บริหารด้านความปลอดภัยควรพิจารณา ➡️ ตรวจสอบนโยบายของผู้ให้บริการ AI Data Center อย่างละเอียด ➡️ ใช้ Faraday cage หรือ shield chamber เพื่อลด side-channel attack ➡️ ทำ AI audit อย่างต่อเนื่องเพื่อตรวจหาช่องโหว่และ backdoor ➡️ ตรวจสอบตำแหน่งที่ตั้งของศูนย์และแหล่งที่มาของอุปกรณ์ ➡️ คัดกรองบุคลากรเพื่อป้องกันการแทรกซึมจากรัฐต่างชาติ https://www.csoonline.com/article/4051849/the-importance-of-reviewing-ai-data-centers-policies.html
    WWW.CSOONLINE.COM
    The importance of reviewing AI data centers’ policies
    As the race to invest in AI tools, technologies and capabilities continues, it is critical for cybersecurity leaders to not only look at whether the AI-embedded software is secure but also to scrutinize whether the AI data centers are secure as well.
    0 ความคิดเห็น 0 การแบ่งปัน 319 มุมมอง 0 รีวิว
  • เรื่องเล่าจาก ETH Zurich ถึง 1811 ภาษา: เมื่อโมเดลภาษาไม่ได้ถูกสร้างเพื่อแข่งขัน แต่เพื่อให้ทุกคนเข้าถึงได้

    Apertus เป็นโมเดลภาษาใหญ่ (LLM) ที่พัฒนาโดย Swiss National AI Institute (SNAI) ซึ่งเป็นความร่วมมือระหว่าง ETH Zurich และ EPFL โดยมีเป้าหมายเพื่อสร้างโมเดลที่เปิดทุกส่วน—ตั้งแต่โค้ด, น้ำหนักโมเดล, ข้อมูลเทรน, ไปจนถึงสูตรการเทรนเอง

    โมเดลมีสองขนาดคือ 8B และ 70B พารามิเตอร์ โดยเวอร์ชัน 70B ถูกเทรนด้วยข้อมูล 15 ล้านล้าน token จากเว็บ, โค้ด, และคณิตศาสตร์ ผ่านกระบวนการ curriculum learning ที่จัดลำดับเนื้อหาอย่างเป็นระบบ

    Apertus รองรับภาษามากถึง 1811 ภาษา โดย 40% ของข้อมูลเทรนเป็นภาษาที่ไม่ใช่ภาษาอังกฤษ เช่น Swiss German, Romansh และภาษาอื่น ๆ ที่มักถูกละเลยในโมเดลทั่วไป

    โมเดลใช้สถาปัตยกรรม decoder-only transformer พร้อมฟังก์ชัน activation ใหม่ชื่อ xIELU และ optimizer แบบ AdEMAMix ซึ่งออกแบบมาเพื่อเพิ่มประสิทธิภาพการเทรนในระดับ bfloat16 บน GPU GH200 จำนวน 4096 ตัว

    หลังการเทรน โมเดลยังผ่านการ fine-tune แบบมีผู้ดูแล และ alignment ด้วยเทคนิค QRPO เพื่อให้ตอบสนองต่อผู้ใช้ได้ดีขึ้น โดยไม่ละเมิดความเป็นกลางหรือความปลอดภัย

    สิ่งที่โดดเด่นคือ Apertus เคารพสิทธิ์ของเจ้าของข้อมูลอย่างเข้มงวด โดยใช้ระบบ opt-out ที่สามารถย้อนกลับได้ และมีระบบ output filter ที่ผู้ใช้สามารถดาวน์โหลดทุก 6 เดือน เพื่อกรองข้อมูลส่วนบุคคลออกจากผลลัพธ์ของโมเดล

    นอกจากนี้ Apertus ยังถูกออกแบบให้สอดคล้องกับกฎหมายความโปร่งใสของ EU AI Act และกฎหมายคุ้มครองข้อมูลของสวิตเซอร์แลนด์ โดยมีเอกสารสาธารณะและโค้ดการเทรนให้ตรวจสอบได้ทั้งหมด

    ข้อมูลพื้นฐานของ Apertus
    พัฒนาโดย SNAI ซึ่งเป็นความร่วมมือระหว่าง ETH Zurich และ EPFL
    มีสองขนาด: 8B และ 70B พารามิเตอร์
    เทรนด้วยข้อมูล 15T token จากเว็บ, โค้ด, และคณิตศาสตร์

    สถาปัตยกรรมและเทคนิคการเทรน
    ใช้ decoder-only transformer พร้อมฟังก์ชัน xIELU
    ใช้ optimizer AdEMAMix และ precision แบบ bfloat16
    เทรนบน GPU GH200 จำนวน 4096 ตัว

    ความสามารถด้านภาษาและความโปร่งใส
    รองรับ 1811 ภาษา โดย 40% เป็นภาษาที่ไม่ใช่ภาษาอังกฤษ
    ใช้ข้อมูลที่เปิดและเคารพ opt-out ของเจ้าของข้อมูล
    มีระบบ output filter สำหรับลบข้อมูลส่วนบุคคลจากผลลัพธ์

    การใช้งานและการ deploy
    รองรับ context ยาวถึง 65,536 token
    ใช้งานผ่าน Transformers v4.56.0, vLLM, SGLang และ MLX
    มีอินเทอร์เฟซผ่าน Swisscom และ PublicAI สำหรับผู้ใช้ทั่วไป

    การปฏิบัติตามกฎหมายและจริยธรรม
    สอดคล้องกับ EU AI Act และกฎหมายสวิตเซอร์แลนด์
    มีเอกสารสาธารณะและโค้ดการเทรนให้ตรวจสอบได้
    ไม่ใช้ข้อมูลที่ละเมิดสิทธิ์หรือมีเนื้อหาที่ไม่เหมาะสม

    https://huggingface.co/swiss-ai/Apertus-70B-2509
    🎙️ เรื่องเล่าจาก ETH Zurich ถึง 1811 ภาษา: เมื่อโมเดลภาษาไม่ได้ถูกสร้างเพื่อแข่งขัน แต่เพื่อให้ทุกคนเข้าถึงได้ Apertus เป็นโมเดลภาษาใหญ่ (LLM) ที่พัฒนาโดย Swiss National AI Institute (SNAI) ซึ่งเป็นความร่วมมือระหว่าง ETH Zurich และ EPFL โดยมีเป้าหมายเพื่อสร้างโมเดลที่เปิดทุกส่วน—ตั้งแต่โค้ด, น้ำหนักโมเดล, ข้อมูลเทรน, ไปจนถึงสูตรการเทรนเอง โมเดลมีสองขนาดคือ 8B และ 70B พารามิเตอร์ โดยเวอร์ชัน 70B ถูกเทรนด้วยข้อมูล 15 ล้านล้าน token จากเว็บ, โค้ด, และคณิตศาสตร์ ผ่านกระบวนการ curriculum learning ที่จัดลำดับเนื้อหาอย่างเป็นระบบ Apertus รองรับภาษามากถึง 1811 ภาษา โดย 40% ของข้อมูลเทรนเป็นภาษาที่ไม่ใช่ภาษาอังกฤษ เช่น Swiss German, Romansh และภาษาอื่น ๆ ที่มักถูกละเลยในโมเดลทั่วไป โมเดลใช้สถาปัตยกรรม decoder-only transformer พร้อมฟังก์ชัน activation ใหม่ชื่อ xIELU และ optimizer แบบ AdEMAMix ซึ่งออกแบบมาเพื่อเพิ่มประสิทธิภาพการเทรนในระดับ bfloat16 บน GPU GH200 จำนวน 4096 ตัว หลังการเทรน โมเดลยังผ่านการ fine-tune แบบมีผู้ดูแล และ alignment ด้วยเทคนิค QRPO เพื่อให้ตอบสนองต่อผู้ใช้ได้ดีขึ้น โดยไม่ละเมิดความเป็นกลางหรือความปลอดภัย สิ่งที่โดดเด่นคือ Apertus เคารพสิทธิ์ของเจ้าของข้อมูลอย่างเข้มงวด โดยใช้ระบบ opt-out ที่สามารถย้อนกลับได้ และมีระบบ output filter ที่ผู้ใช้สามารถดาวน์โหลดทุก 6 เดือน เพื่อกรองข้อมูลส่วนบุคคลออกจากผลลัพธ์ของโมเดล นอกจากนี้ Apertus ยังถูกออกแบบให้สอดคล้องกับกฎหมายความโปร่งใสของ EU AI Act และกฎหมายคุ้มครองข้อมูลของสวิตเซอร์แลนด์ โดยมีเอกสารสาธารณะและโค้ดการเทรนให้ตรวจสอบได้ทั้งหมด ✅ ข้อมูลพื้นฐานของ Apertus ➡️ พัฒนาโดย SNAI ซึ่งเป็นความร่วมมือระหว่าง ETH Zurich และ EPFL ➡️ มีสองขนาด: 8B และ 70B พารามิเตอร์ ➡️ เทรนด้วยข้อมูล 15T token จากเว็บ, โค้ด, และคณิตศาสตร์ ✅ สถาปัตยกรรมและเทคนิคการเทรน ➡️ ใช้ decoder-only transformer พร้อมฟังก์ชัน xIELU ➡️ ใช้ optimizer AdEMAMix และ precision แบบ bfloat16 ➡️ เทรนบน GPU GH200 จำนวน 4096 ตัว ✅ ความสามารถด้านภาษาและความโปร่งใส ➡️ รองรับ 1811 ภาษา โดย 40% เป็นภาษาที่ไม่ใช่ภาษาอังกฤษ ➡️ ใช้ข้อมูลที่เปิดและเคารพ opt-out ของเจ้าของข้อมูล ➡️ มีระบบ output filter สำหรับลบข้อมูลส่วนบุคคลจากผลลัพธ์ ✅ การใช้งานและการ deploy ➡️ รองรับ context ยาวถึง 65,536 token ➡️ ใช้งานผ่าน Transformers v4.56.0, vLLM, SGLang และ MLX ➡️ มีอินเทอร์เฟซผ่าน Swisscom และ PublicAI สำหรับผู้ใช้ทั่วไป ✅ การปฏิบัติตามกฎหมายและจริยธรรม ➡️ สอดคล้องกับ EU AI Act และกฎหมายสวิตเซอร์แลนด์ ➡️ มีเอกสารสาธารณะและโค้ดการเทรนให้ตรวจสอบได้ ➡️ ไม่ใช้ข้อมูลที่ละเมิดสิทธิ์หรือมีเนื้อหาที่ไม่เหมาะสม https://huggingface.co/swiss-ai/Apertus-70B-2509
    HUGGINGFACE.CO
    swiss-ai/Apertus-70B-2509 · Hugging Face
    We’re on a journey to advance and democratize artificial intelligence through open source and open science.
    0 ความคิดเห็น 0 การแบ่งปัน 280 มุมมอง 0 รีวิว
  • เรื่องเล่าจาก logits ถึง embedding: เมื่อคณิตศาสตร์พื้นฐานกลายเป็นภาษาที่ LLM ใช้คิด

    บทความจาก Giles Thomas อธิบายว่า หากคุณเคยเรียนคณิตศาสตร์ระดับมัธยม—โดยเฉพาะเรื่องเวกเตอร์, เมทริกซ์, และการคูณเมทริกซ์—คุณมีพื้นฐานเพียงพอที่จะเข้าใจการทำงานของ LLM ในขั้นตอน “inference” หรือการใช้งานโมเดลที่เทรนมาแล้ว

    เริ่มจาก “เวกเตอร์” ซึ่งใน LLM หมายถึงชุดตัวเลขที่แทนความน่าจะเป็นของคำถัดไปในลำดับข้อความ เช่น โมเดล GPT-2 มีคำศัพท์ 50,257 คำ ดังนั้นเวกเตอร์ logits ที่ออกมาจะมี 50,257 ค่า โดยแต่ละค่าคือความน่าจะเป็นของคำหนึ่ง ๆ ที่จะถูกเลือกเป็นคำถัดไป

    เพื่อแปลงเวกเตอร์นี้ให้กลายเป็น “ความน่าจะเป็นจริง” เราใช้ฟังก์ชัน softmax ซึ่งจะเปลี่ยนค่าทั้งหมดให้รวมกันเป็น 1 และกระจายเป็นเปอร์เซ็นต์ของแต่ละคำ เช่น เวกเตอร์ (1, 2, 3) และ (–9, –8, –7) อาจให้ผล softmax เดียวกันคือ (0.09, 0.24, 0.66) เพราะแม้ค่าจะต่างกัน แต่ “ลำดับความน่าจะเป็น” เหมือนกัน

    จากนั้นเรามี “embedding space” ซึ่งเป็นพื้นที่หลายมิติที่ใช้แทน “ความหมาย” ของคำ โดยคำที่มีความหมายใกล้กันจะอยู่ใกล้กันในพื้นที่นี้ เช่น “แมวบ้าน”, “เสือ”, และ “สิงโต” อาจอยู่ในกลุ่มเดียวกัน ส่วน “หมา”, “หมาป่า”, และ “โคโยตี้” อยู่ในอีกกลุ่มหนึ่ง

    การแปลงจาก vocab space ไปยัง embedding space และกลับมาใช้เมทริกซ์คูณ เช่น การใช้เมทริกซ์ขนาด 50,257 × 768 เพื่อแปลงเวกเตอร์จาก vocab space ไปยัง embedding space และเมทริกซ์ 768 × 50,257 เพื่อแปลงกลับ

    สุดท้าย Giles อธิบายว่า “layer” ใน neural network ก็คือการคูณเมทริกซ์เช่นกัน โดย input เป็นเวกเตอร์ n × d และ weight เป็นเมทริกซ์ d_out × d_in ซึ่งเมื่อคูณกันจะได้ output เป็น n × d_out ซึ่งเป็นการ “project” จากพื้นที่หนึ่งไปยังอีกพื้นที่หนึ่ง

    คณิตศาสตร์พื้นฐานที่ใช้ใน LLM
    เวกเตอร์แทนความน่าจะเป็นของคำถัดไป
    softmax ใช้แปลง logits ให้เป็นความน่าจะเป็นจริง
    embedding space ใช้แทนความหมายของคำในหลายมิติ

    การแปลงระหว่าง vocab space และ embedding space
    ใช้เมทริกซ์ขนาดใหญ่ เช่น 50,257 × 768 เพื่อแปลงเวกเตอร์
    การแปลงกลับใช้เมทริกซ์ 768 × 50,257
    การแปลงนี้อาจ “สูญเสียข้อมูล” หากลดจำนวนมิติ

    การคำนวณใน neural network
    layer หนึ่งคือการคูณเมทริกซ์ระหว่าง input และ weight
    ผลลัพธ์คือการ project จาก input space ไปยัง output space
    bias และ activation function เป็นส่วนเสริมที่ทำให้ระบบไม่เป็นเชิงเส้น

    ตัวอย่างการใช้งานจริง
    เวกเตอร์ logits จาก GPT-2 มี 50,257 ค่า
    softmax แปลงเวกเตอร์ให้รวมเป็น 1 และกระจายเป็นเปอร์เซ็นต์
    embedding space ใช้จัดกลุ่มคำที่มีความหมายใกล้กัน

    https://www.gilesthomas.com/2025/09/maths-for-llms
    🎙️ เรื่องเล่าจาก logits ถึง embedding: เมื่อคณิตศาสตร์พื้นฐานกลายเป็นภาษาที่ LLM ใช้คิด บทความจาก Giles Thomas อธิบายว่า หากคุณเคยเรียนคณิตศาสตร์ระดับมัธยม—โดยเฉพาะเรื่องเวกเตอร์, เมทริกซ์, และการคูณเมทริกซ์—คุณมีพื้นฐานเพียงพอที่จะเข้าใจการทำงานของ LLM ในขั้นตอน “inference” หรือการใช้งานโมเดลที่เทรนมาแล้ว เริ่มจาก “เวกเตอร์” ซึ่งใน LLM หมายถึงชุดตัวเลขที่แทนความน่าจะเป็นของคำถัดไปในลำดับข้อความ เช่น โมเดล GPT-2 มีคำศัพท์ 50,257 คำ ดังนั้นเวกเตอร์ logits ที่ออกมาจะมี 50,257 ค่า โดยแต่ละค่าคือความน่าจะเป็นของคำหนึ่ง ๆ ที่จะถูกเลือกเป็นคำถัดไป เพื่อแปลงเวกเตอร์นี้ให้กลายเป็น “ความน่าจะเป็นจริง” เราใช้ฟังก์ชัน softmax ซึ่งจะเปลี่ยนค่าทั้งหมดให้รวมกันเป็น 1 และกระจายเป็นเปอร์เซ็นต์ของแต่ละคำ เช่น เวกเตอร์ (1, 2, 3) และ (–9, –8, –7) อาจให้ผล softmax เดียวกันคือ (0.09, 0.24, 0.66) เพราะแม้ค่าจะต่างกัน แต่ “ลำดับความน่าจะเป็น” เหมือนกัน จากนั้นเรามี “embedding space” ซึ่งเป็นพื้นที่หลายมิติที่ใช้แทน “ความหมาย” ของคำ โดยคำที่มีความหมายใกล้กันจะอยู่ใกล้กันในพื้นที่นี้ เช่น “แมวบ้าน”, “เสือ”, และ “สิงโต” อาจอยู่ในกลุ่มเดียวกัน ส่วน “หมา”, “หมาป่า”, และ “โคโยตี้” อยู่ในอีกกลุ่มหนึ่ง การแปลงจาก vocab space ไปยัง embedding space และกลับมาใช้เมทริกซ์คูณ เช่น การใช้เมทริกซ์ขนาด 50,257 × 768 เพื่อแปลงเวกเตอร์จาก vocab space ไปยัง embedding space และเมทริกซ์ 768 × 50,257 เพื่อแปลงกลับ สุดท้าย Giles อธิบายว่า “layer” ใน neural network ก็คือการคูณเมทริกซ์เช่นกัน โดย input เป็นเวกเตอร์ n × d และ weight เป็นเมทริกซ์ d_out × d_in ซึ่งเมื่อคูณกันจะได้ output เป็น n × d_out ซึ่งเป็นการ “project” จากพื้นที่หนึ่งไปยังอีกพื้นที่หนึ่ง ✅ คณิตศาสตร์พื้นฐานที่ใช้ใน LLM ➡️ เวกเตอร์แทนความน่าจะเป็นของคำถัดไป ➡️ softmax ใช้แปลง logits ให้เป็นความน่าจะเป็นจริง ➡️ embedding space ใช้แทนความหมายของคำในหลายมิติ ✅ การแปลงระหว่าง vocab space และ embedding space ➡️ ใช้เมทริกซ์ขนาดใหญ่ เช่น 50,257 × 768 เพื่อแปลงเวกเตอร์ ➡️ การแปลงกลับใช้เมทริกซ์ 768 × 50,257 ➡️ การแปลงนี้อาจ “สูญเสียข้อมูล” หากลดจำนวนมิติ ✅ การคำนวณใน neural network ➡️ layer หนึ่งคือการคูณเมทริกซ์ระหว่าง input และ weight ➡️ ผลลัพธ์คือการ project จาก input space ไปยัง output space ➡️ bias และ activation function เป็นส่วนเสริมที่ทำให้ระบบไม่เป็นเชิงเส้น ✅ ตัวอย่างการใช้งานจริง ➡️ เวกเตอร์ logits จาก GPT-2 มี 50,257 ค่า ➡️ softmax แปลงเวกเตอร์ให้รวมเป็น 1 และกระจายเป็นเปอร์เซ็นต์ ➡️ embedding space ใช้จัดกลุ่มคำที่มีความหมายใกล้กัน https://www.gilesthomas.com/2025/09/maths-for-llms
    WWW.GILESTHOMAS.COM
    The maths you need to start understanding LLMs
    A quick refresher on the maths behind LLMs: vectors, matrices, projections, embeddings, logits and softmax.
    0 ความคิดเห็น 0 การแบ่งปัน 218 มุมมอง 0 รีวิว
  • เรื่องเล่าจาก Ironwood: เมื่อ Google สร้างซูเปอร์คอมพิวเตอร์ที่ไม่ใช่แค่เร็ว แต่ “ฉลาดและยืดหยุ่น” ที่สุดเท่าที่เคยมีมา

    ในงาน Hot Chips 2025 Google ได้เปิดเผยรายละเอียดของ Ironwood TPU ซึ่งเป็นชิปรุ่นที่ 7 ของตระกูล Tensor Processing Unit โดยออกแบบมาเพื่อรองรับงาน inference ขนาดใหญ่โดยเฉพาะ ไม่ใช่การเทรนโมเดลเหมือนรุ่นก่อน ๆ

    แต่ละชิป Ironwood มีสถาปัตยกรรมแบบ dual-die ให้กำลังประมวลผล FP8 สูงถึง 4,614 TFLOPs และมาพร้อมกับหน่วยความจำ HBM3e ขนาด 192GB ต่อชิป โดยมีแบนด์วิดธ์สูงถึง 7.3TB/s

    ระบบสามารถขยายได้ถึง 9,216 ชิปต่อหนึ่ง pod โดยไม่ต้องใช้ glue logic และมี I/O bandwidth รวมถึง 1.2TBps ทำให้สามารถสร้างระบบที่มี shared memory ขนาด 1.77PB ได้—ซึ่งถือเป็นสถิติโลกใหม่สำหรับระบบ multi-CPU ที่ใช้ shared memory

    การเชื่อมต่อระหว่างแร็คใช้ optical circuit switch ที่สามารถ reconfigure ได้เมื่อมี node เสีย พร้อมระบบ checkpoint recovery และฟีเจอร์ด้านความปลอดภัย เช่น root of trust, built-in self test, และการตรวจจับ silent data corruption

    Ironwood ยังใช้ AI ในการออกแบบตัวเอง เช่น การ optimize ALU circuits และ floorplan พร้อมเพิ่ม SparseCore รุ่นที่ 4 เพื่อเร่งงาน embedding และ collective operations เช่น recommendation engine

    ระบบระบายความร้อนใช้ cold plate รุ่นที่ 3 ของ Google ซึ่งเป็น liquid cooling แบบเต็มรูปแบบ และมีการปรับแรงดันไฟฟ้าและความถี่แบบ dynamic เพื่อเพิ่มประสิทธิภาพต่อวัตต์ให้ดีกว่ารุ่น Trillium ถึง 2 เท่า

    สเปกหลักของ Ironwood TPU
    Dual-die architecture ให้ 4,614 TFLOPs FP8 ต่อชิป
    หน่วยความจำ HBM3e ขนาด 192GB ต่อชิป พร้อมแบนด์วิดธ์ 7.3TB/s
    รองรับการขยายถึง 9,216 ชิปต่อ pod ด้วย I/O bandwidth 1.2TBps

    สถิติโลกด้าน shared memory
    ระบบมี shared memory ขนาด 1.77PB แบบ addressable โดยตรง
    ใช้ optical circuit switch เชื่อมต่อแร็คแบบ dynamic
    รองรับ workload recovery และ node reconfiguration

    ฟีเจอร์ด้านความปลอดภัยและเสถียรภาพ
    มี root of trust, built-in self test, และ logic repair
    ตรวจจับและป้องกัน silent data corruption
    ออกแบบเพื่อ RAS: reliability, availability, serviceability

    การออกแบบด้วย AI และการใช้งาน
    ใช้ AI ในการ optimize ALU และ floorplan
    เพิ่ม SparseCore รุ่นที่ 4 สำหรับ embedding และ collective ops
    รองรับงาน inference เช่น LLM, recommendation, simulation

    ระบบระบายความร้อนและประสิทธิภาพ
    ใช้ cold plate liquid cooling รุ่นที่ 3 ของ Google
    ปรับแรงดันและความถี่แบบ dynamic เพื่อเพิ่ม efficiency
    ประสิทธิภาพต่อวัตต์ดีกว่ารุ่น Trillium ถึง 2 เท่า

    https://www.techradar.com/pro/googles-most-powerful-supercomputer-ever-has-a-combined-memory-of-1-77pb-apparently-a-new-world-record-for-shared-memory-multi-cpu-setups
    🎙️ เรื่องเล่าจาก Ironwood: เมื่อ Google สร้างซูเปอร์คอมพิวเตอร์ที่ไม่ใช่แค่เร็ว แต่ “ฉลาดและยืดหยุ่น” ที่สุดเท่าที่เคยมีมา ในงาน Hot Chips 2025 Google ได้เปิดเผยรายละเอียดของ Ironwood TPU ซึ่งเป็นชิปรุ่นที่ 7 ของตระกูล Tensor Processing Unit โดยออกแบบมาเพื่อรองรับงาน inference ขนาดใหญ่โดยเฉพาะ ไม่ใช่การเทรนโมเดลเหมือนรุ่นก่อน ๆ แต่ละชิป Ironwood มีสถาปัตยกรรมแบบ dual-die ให้กำลังประมวลผล FP8 สูงถึง 4,614 TFLOPs และมาพร้อมกับหน่วยความจำ HBM3e ขนาด 192GB ต่อชิป โดยมีแบนด์วิดธ์สูงถึง 7.3TB/s ระบบสามารถขยายได้ถึง 9,216 ชิปต่อหนึ่ง pod โดยไม่ต้องใช้ glue logic และมี I/O bandwidth รวมถึง 1.2TBps ทำให้สามารถสร้างระบบที่มี shared memory ขนาด 1.77PB ได้—ซึ่งถือเป็นสถิติโลกใหม่สำหรับระบบ multi-CPU ที่ใช้ shared memory การเชื่อมต่อระหว่างแร็คใช้ optical circuit switch ที่สามารถ reconfigure ได้เมื่อมี node เสีย พร้อมระบบ checkpoint recovery และฟีเจอร์ด้านความปลอดภัย เช่น root of trust, built-in self test, และการตรวจจับ silent data corruption Ironwood ยังใช้ AI ในการออกแบบตัวเอง เช่น การ optimize ALU circuits และ floorplan พร้อมเพิ่ม SparseCore รุ่นที่ 4 เพื่อเร่งงาน embedding และ collective operations เช่น recommendation engine ระบบระบายความร้อนใช้ cold plate รุ่นที่ 3 ของ Google ซึ่งเป็น liquid cooling แบบเต็มรูปแบบ และมีการปรับแรงดันไฟฟ้าและความถี่แบบ dynamic เพื่อเพิ่มประสิทธิภาพต่อวัตต์ให้ดีกว่ารุ่น Trillium ถึง 2 เท่า ✅ สเปกหลักของ Ironwood TPU ➡️ Dual-die architecture ให้ 4,614 TFLOPs FP8 ต่อชิป ➡️ หน่วยความจำ HBM3e ขนาด 192GB ต่อชิป พร้อมแบนด์วิดธ์ 7.3TB/s ➡️ รองรับการขยายถึง 9,216 ชิปต่อ pod ด้วย I/O bandwidth 1.2TBps ✅ สถิติโลกด้าน shared memory ➡️ ระบบมี shared memory ขนาด 1.77PB แบบ addressable โดยตรง ➡️ ใช้ optical circuit switch เชื่อมต่อแร็คแบบ dynamic ➡️ รองรับ workload recovery และ node reconfiguration ✅ ฟีเจอร์ด้านความปลอดภัยและเสถียรภาพ ➡️ มี root of trust, built-in self test, และ logic repair ➡️ ตรวจจับและป้องกัน silent data corruption ➡️ ออกแบบเพื่อ RAS: reliability, availability, serviceability ✅ การออกแบบด้วย AI และการใช้งาน ➡️ ใช้ AI ในการ optimize ALU และ floorplan ➡️ เพิ่ม SparseCore รุ่นที่ 4 สำหรับ embedding และ collective ops ➡️ รองรับงาน inference เช่น LLM, recommendation, simulation ✅ ระบบระบายความร้อนและประสิทธิภาพ ➡️ ใช้ cold plate liquid cooling รุ่นที่ 3 ของ Google ➡️ ปรับแรงดันและความถี่แบบ dynamic เพื่อเพิ่ม efficiency ➡️ ประสิทธิภาพต่อวัตต์ดีกว่ารุ่น Trillium ถึง 2 เท่า https://www.techradar.com/pro/googles-most-powerful-supercomputer-ever-has-a-combined-memory-of-1-77pb-apparently-a-new-world-record-for-shared-memory-multi-cpu-setups
    0 ความคิดเห็น 0 การแบ่งปัน 343 มุมมอง 0 รีวิว
Pages Boosts