• เรื่องเล่าจาก 3 ล้าน IOPS สู่ 100 ล้าน IOPS: เมื่อ SSD กลายเป็นหัวใจของการประมวลผล AI

    ในปี 2027 Kioxia เตรียมเปิดตัว SSD ที่สามารถทำงานได้ถึง 100 ล้าน IOPS (Input/Output Operations Per Second) ซึ่งมากกว่าความสามารถของ SSD ปัจจุบันถึง 33 เท่า โดยจะใช้ร่วมกับ GPU ของ Nvidia เพื่อเร่งการประมวลผล AI โดยเฉพาะ

    SSD รุ่นใหม่นี้จะเชื่อมต่อผ่าน PCIe 7.0 แบบ peer-to-peer กับ GPU โดยตรง ซึ่งช่วยลด latency และเพิ่ม throughput อย่างมหาศาล เหมาะกับงาน AI ที่ต้องอ่านข้อมูลแบบสุ่มขนาดเล็ก เช่น embeddings, model weights หรือ database entries

    Kioxia วางแผนใช้ XL-Flash ซึ่งเป็น NAND แบบ SLC ที่มี latency ต่ำและ endurance สูง โดยอาจต้องใช้ถึง 915 NAND dies เพื่อให้ได้ความเร็วระดับนั้น ซึ่งจะต้องใช้ controller แบบพิเศษ และอาจต้องใช้เทคโนโลยีใหม่อย่าง High Bandwidth Flash (HBF) ที่รวม NAND หลายตัวไว้ใน stack เดียว

    แม้จะมีความท้าทายด้านการออกแบบ เช่น การจัดการ channel bandwidth, queue depth และ firmware แต่ Kioxia เชื่อว่าการพัฒนา SSD แบบนี้จะเป็นก้าวสำคัญในการรองรับ AI server รุ่นใหม่ที่ต้องการความเร็วระดับ “Giga IOPS”

    ความร่วมมือระหว่าง Kioxia และ Nvidia
    พัฒนา SSD ที่มีความเร็ว 100 ล้าน IOPS สำหรับ AI server
    ใช้ร่วมกับ GPU ของ Nvidia เพื่อเร่งการประมวลผลแบบ peer-to-peer
    เป้าหมายคือการเพิ่มประสิทธิภาพการอ่านข้อมูลแบบสุ่มขนาดเล็ก

    เทคโนโลยีที่ใช้ใน SSD รุ่นใหม่
    ใช้ XL-Flash ซึ่งเป็น SLC NAND ที่มี latency ต่ำ
    อาจต้องใช้ถึง 915 NAND dies เพื่อให้ได้ความเร็วระดับนั้น
    เชื่อมต่อผ่าน PCIe 7.0 และอาจใช้ multi-controller module

    ความสำคัญของ 512B IOPS สำหรับ AI
    AI workloads ต้องการการอ่านข้อมูลแบบสุ่มขนาดเล็กมาก
    512-byte blocks ให้ latency ต่ำกว่า 4K blocks
    การเพิ่ม sequential bandwidth ง่ายกว่าการลด latency

    ทางเลือกใหม่: High Bandwidth Flash (HBF)
    ใช้ TSVs และ microbumps เชื่อม NAND หลายตัวใน stack เดียว
    เพิ่ม parallelism และลด bottleneck ของ controller
    อาจเป็นทางออกสำหรับ SSD ที่ต้องการความเร็วระดับสูง

    https://www.tomshardware.com/tech-industry/nvidia-and-kioxia-target-100-million-iops-ssd-in-2027-33-times-more-than-existing-drives-for-exclusive-use-in-ai-servers
    🎙️ เรื่องเล่าจาก 3 ล้าน IOPS สู่ 100 ล้าน IOPS: เมื่อ SSD กลายเป็นหัวใจของการประมวลผล AI ในปี 2027 Kioxia เตรียมเปิดตัว SSD ที่สามารถทำงานได้ถึง 100 ล้าน IOPS (Input/Output Operations Per Second) ซึ่งมากกว่าความสามารถของ SSD ปัจจุบันถึง 33 เท่า โดยจะใช้ร่วมกับ GPU ของ Nvidia เพื่อเร่งการประมวลผล AI โดยเฉพาะ SSD รุ่นใหม่นี้จะเชื่อมต่อผ่าน PCIe 7.0 แบบ peer-to-peer กับ GPU โดยตรง ซึ่งช่วยลด latency และเพิ่ม throughput อย่างมหาศาล เหมาะกับงาน AI ที่ต้องอ่านข้อมูลแบบสุ่มขนาดเล็ก เช่น embeddings, model weights หรือ database entries Kioxia วางแผนใช้ XL-Flash ซึ่งเป็น NAND แบบ SLC ที่มี latency ต่ำและ endurance สูง โดยอาจต้องใช้ถึง 915 NAND dies เพื่อให้ได้ความเร็วระดับนั้น ซึ่งจะต้องใช้ controller แบบพิเศษ และอาจต้องใช้เทคโนโลยีใหม่อย่าง High Bandwidth Flash (HBF) ที่รวม NAND หลายตัวไว้ใน stack เดียว แม้จะมีความท้าทายด้านการออกแบบ เช่น การจัดการ channel bandwidth, queue depth และ firmware แต่ Kioxia เชื่อว่าการพัฒนา SSD แบบนี้จะเป็นก้าวสำคัญในการรองรับ AI server รุ่นใหม่ที่ต้องการความเร็วระดับ “Giga IOPS” ✅ ความร่วมมือระหว่าง Kioxia และ Nvidia ➡️ พัฒนา SSD ที่มีความเร็ว 100 ล้าน IOPS สำหรับ AI server ➡️ ใช้ร่วมกับ GPU ของ Nvidia เพื่อเร่งการประมวลผลแบบ peer-to-peer ➡️ เป้าหมายคือการเพิ่มประสิทธิภาพการอ่านข้อมูลแบบสุ่มขนาดเล็ก ✅ เทคโนโลยีที่ใช้ใน SSD รุ่นใหม่ ➡️ ใช้ XL-Flash ซึ่งเป็น SLC NAND ที่มี latency ต่ำ ➡️ อาจต้องใช้ถึง 915 NAND dies เพื่อให้ได้ความเร็วระดับนั้น ➡️ เชื่อมต่อผ่าน PCIe 7.0 และอาจใช้ multi-controller module ✅ ความสำคัญของ 512B IOPS สำหรับ AI ➡️ AI workloads ต้องการการอ่านข้อมูลแบบสุ่มขนาดเล็กมาก ➡️ 512-byte blocks ให้ latency ต่ำกว่า 4K blocks ➡️ การเพิ่ม sequential bandwidth ง่ายกว่าการลด latency ✅ ทางเลือกใหม่: High Bandwidth Flash (HBF) ➡️ ใช้ TSVs และ microbumps เชื่อม NAND หลายตัวใน stack เดียว ➡️ เพิ่ม parallelism และลด bottleneck ของ controller ➡️ อาจเป็นทางออกสำหรับ SSD ที่ต้องการความเร็วระดับสูง https://www.tomshardware.com/tech-industry/nvidia-and-kioxia-target-100-million-iops-ssd-in-2027-33-times-more-than-existing-drives-for-exclusive-use-in-ai-servers
    0 ความคิดเห็น 0 การแบ่งปัน 74 มุมมอง 0 รีวิว
  • “มัลแวร์ยุคใหม่ไม่ต้องคลิก — เมื่อ AI ถูกหลอกด้วยคำสั่งซ่อนในไฟล์ Word และแมโคร”

    ภัยคุกคามไซเบอร์กำลังเปลี่ยนโฉมหน้าอย่างเงียบ ๆ และน่ากลัวกว่าที่เคย เมื่อผู้โจมตีเริ่มใช้เทคนิค “AI Prompt Injection” ผ่านไฟล์เอกสารทั่วไป เช่น Word, PDF หรือแม้แต่เรซูเม่ โดยฝังคำสั่งลับไว้ในแมโครหรือ metadata เพื่อหลอกให้ระบบ AI ที่ใช้วิเคราะห์ไฟล์หรือช่วยงานอัตโนมัติทำตามคำสั่งของผู้โจมตีโดยไม่รู้ตัว

    รายงานล่าสุดจาก CSO Online เปิดเผยว่าเทคนิคนี้ถูกใช้จริงแล้วในหลายกรณี เช่น ช่องโหว่ EchoLeak (CVE-2025-32711) ที่พบใน Microsoft 365 Copilot ซึ่งสามารถฝังคำสั่งในอีเมลหรือไฟล์ Word ให้ Copilot ประมวลผลและรันคำสั่งโดยอัตโนมัติ โดยไม่ต้องคลิกหรือเปิดไฟล์เลยด้วยซ้ำ — นี่คือ “zero-click prompt injection” ที่แท้จริง

    อีกกรณีคือ CurXecute (CVE-2025-54135) ซึ่งโจมตี Cursor IDE โดยใช้ prompt injection ผ่านไฟล์ config ที่ถูกเขียนใหม่แบบเงียบ ๆ เพื่อรันคำสั่งในเครื่องของนักพัฒนาโดยไม่รู้ตัว และ Skynet malware ที่ใช้เทคนิค “Jedi mind trick” เพื่อหลอก AI scanner ให้มองข้ามมัลแวร์

    นักวิจัยด้านความปลอดภัยเตือนว่า prompt injection ไม่ใช่แค่เรื่องของการหลอกให้ AI ตอบผิด — แต่มันคือการควบคุมพฤติกรรมของระบบ AI ทั้งชุด เช่น การสั่งให้เปิดช่องหลัง, ส่งข้อมูลลับ, หรือแม้แต่รันโค้ดอันตราย โดยที่ผู้ใช้ไม่รู้เลยว่ามีคำสั่งซ่อนอยู่ในไฟล์

    รูปแบบการโจมตีแบบใหม่ด้วย AI Prompt Injection
    ฝังคำสั่งในแมโคร, VBA script หรือ metadata ของไฟล์ เช่น DOCX, PDF, EXIF
    เมื่อ AI parser อ่านไฟล์ จะรันคำสั่งโดยไม่ต้องคลิกหรือเปิดไฟล์
    ใช้เทคนิค ASCII smuggling, ฟอนต์ขนาดเล็ก, สีพื้นหลังกลืนกับข้อความ
    ตัวอย่างเช่น EchoLeak ใน Microsoft 365 Copilot และ CurXecute ใน Cursor IDE

    ผลกระทบต่อระบบ AI และองค์กร
    AI ถูกหลอกให้ส่งข้อมูลลับ, เปิดช่องทางเข้าระบบ หรือรันโค้ดอันตราย
    Skynet malware ใช้ prompt injection เพื่อหลอก AI scanner ให้มองข้ามมัลแวร์
    ผู้โจมตีสามารถฝังคำสั่งในเรซูเม่เพื่อให้ AI job portal ดันขึ้นอันดับต้น
    การโจมตีแบบนี้ไม่ต้องใช้ payload แบบเดิม — ใช้คำสั่งแทน

    แนวทางป้องกันที่แนะนำ
    ตรวจสอบไฟล์จากแหล่งที่ไม่เชื่อถือด้วย sandbox และ static analysis
    ใช้ Content Disarm & Reconstruction (CDR) เพื่อลบเนื้อหาที่ฝังคำสั่ง
    แยกการรันแมโครออกจากระบบหลัก เช่น ใช้ protected view หรือ sandbox
    สร้างระบบ AI ที่มี guardrails และการตรวจสอบ input/output อย่างเข้มงวด

    ข้อมูลเสริมจากภายนอก
    Prompt injection เคยเป็นแค่การทดลอง แต่ตอนนี้เริ่มถูกใช้จริงในมัลแวร์
    ช่องโหว่แบบ zero-click ทำให้ผู้ใช้ไม่รู้ตัวเลยว่าถูกโจมตี
    AI agent ที่เชื่อมต่อกับระบบภายนอก เช่น Slack, GitHub, database ยิ่งเสี่ย
    นักวิจัยแนะนำให้องค์กรปฏิบัติต่อ AI pipeline เหมือน CI/CD pipeline — ต้องมี Zero Trust

    https://www.csoonline.com/article/4053107/ai-prompt-injection-gets-real-with-macros-the-latest-hidden-threat.html
    🧠 “มัลแวร์ยุคใหม่ไม่ต้องคลิก — เมื่อ AI ถูกหลอกด้วยคำสั่งซ่อนในไฟล์ Word และแมโคร” ภัยคุกคามไซเบอร์กำลังเปลี่ยนโฉมหน้าอย่างเงียบ ๆ และน่ากลัวกว่าที่เคย เมื่อผู้โจมตีเริ่มใช้เทคนิค “AI Prompt Injection” ผ่านไฟล์เอกสารทั่วไป เช่น Word, PDF หรือแม้แต่เรซูเม่ โดยฝังคำสั่งลับไว้ในแมโครหรือ metadata เพื่อหลอกให้ระบบ AI ที่ใช้วิเคราะห์ไฟล์หรือช่วยงานอัตโนมัติทำตามคำสั่งของผู้โจมตีโดยไม่รู้ตัว รายงานล่าสุดจาก CSO Online เปิดเผยว่าเทคนิคนี้ถูกใช้จริงแล้วในหลายกรณี เช่น ช่องโหว่ EchoLeak (CVE-2025-32711) ที่พบใน Microsoft 365 Copilot ซึ่งสามารถฝังคำสั่งในอีเมลหรือไฟล์ Word ให้ Copilot ประมวลผลและรันคำสั่งโดยอัตโนมัติ โดยไม่ต้องคลิกหรือเปิดไฟล์เลยด้วยซ้ำ — นี่คือ “zero-click prompt injection” ที่แท้จริง อีกกรณีคือ CurXecute (CVE-2025-54135) ซึ่งโจมตี Cursor IDE โดยใช้ prompt injection ผ่านไฟล์ config ที่ถูกเขียนใหม่แบบเงียบ ๆ เพื่อรันคำสั่งในเครื่องของนักพัฒนาโดยไม่รู้ตัว และ Skynet malware ที่ใช้เทคนิค “Jedi mind trick” เพื่อหลอก AI scanner ให้มองข้ามมัลแวร์ นักวิจัยด้านความปลอดภัยเตือนว่า prompt injection ไม่ใช่แค่เรื่องของการหลอกให้ AI ตอบผิด — แต่มันคือการควบคุมพฤติกรรมของระบบ AI ทั้งชุด เช่น การสั่งให้เปิดช่องหลัง, ส่งข้อมูลลับ, หรือแม้แต่รันโค้ดอันตราย โดยที่ผู้ใช้ไม่รู้เลยว่ามีคำสั่งซ่อนอยู่ในไฟล์ ✅ รูปแบบการโจมตีแบบใหม่ด้วย AI Prompt Injection ➡️ ฝังคำสั่งในแมโคร, VBA script หรือ metadata ของไฟล์ เช่น DOCX, PDF, EXIF ➡️ เมื่อ AI parser อ่านไฟล์ จะรันคำสั่งโดยไม่ต้องคลิกหรือเปิดไฟล์ ➡️ ใช้เทคนิค ASCII smuggling, ฟอนต์ขนาดเล็ก, สีพื้นหลังกลืนกับข้อความ ➡️ ตัวอย่างเช่น EchoLeak ใน Microsoft 365 Copilot และ CurXecute ใน Cursor IDE ✅ ผลกระทบต่อระบบ AI และองค์กร ➡️ AI ถูกหลอกให้ส่งข้อมูลลับ, เปิดช่องทางเข้าระบบ หรือรันโค้ดอันตราย ➡️ Skynet malware ใช้ prompt injection เพื่อหลอก AI scanner ให้มองข้ามมัลแวร์ ➡️ ผู้โจมตีสามารถฝังคำสั่งในเรซูเม่เพื่อให้ AI job portal ดันขึ้นอันดับต้น ➡️ การโจมตีแบบนี้ไม่ต้องใช้ payload แบบเดิม — ใช้คำสั่งแทน ✅ แนวทางป้องกันที่แนะนำ ➡️ ตรวจสอบไฟล์จากแหล่งที่ไม่เชื่อถือด้วย sandbox และ static analysis ➡️ ใช้ Content Disarm & Reconstruction (CDR) เพื่อลบเนื้อหาที่ฝังคำสั่ง ➡️ แยกการรันแมโครออกจากระบบหลัก เช่น ใช้ protected view หรือ sandbox ➡️ สร้างระบบ AI ที่มี guardrails และการตรวจสอบ input/output อย่างเข้มงวด ✅ ข้อมูลเสริมจากภายนอก ➡️ Prompt injection เคยเป็นแค่การทดลอง แต่ตอนนี้เริ่มถูกใช้จริงในมัลแวร์ ➡️ ช่องโหว่แบบ zero-click ทำให้ผู้ใช้ไม่รู้ตัวเลยว่าถูกโจมตี ➡️ AI agent ที่เชื่อมต่อกับระบบภายนอก เช่น Slack, GitHub, database ยิ่งเสี่ย ➡️ นักวิจัยแนะนำให้องค์กรปฏิบัติต่อ AI pipeline เหมือน CI/CD pipeline — ต้องมี Zero Trust https://www.csoonline.com/article/4053107/ai-prompt-injection-gets-real-with-macros-the-latest-hidden-threat.html
    WWW.CSOONLINE.COM
    AI prompt injection gets real — with macros the latest hidden threat
    Attackers are evolving their malware delivery tactics by weaponing malicious prompts embedded in document macros to hack AI systems.
    0 ความคิดเห็น 0 การแบ่งปัน 167 มุมมอง 0 รีวิว
  • “OpenAI ผนึก Broadcom สร้างชิป Titan — ยุทธศาสตร์ใหม่ลดพึ่งพา Nvidia ด้วยคำสั่งซื้อ $10 พันล้าน และเป้าหมายสู่ AGI”

    ในยุคที่การแข่งขันด้าน AI รุนแรงขึ้นทุกวัน OpenAI กำลังเดินเกมใหม่ที่อาจเปลี่ยนสมดุลของอุตสาหกรรมฮาร์ดแวร์ ด้วยการร่วมมือกับ Broadcom เพื่อพัฒนาชิปประมวลผล AI แบบกำหนดเอง (custom ASIC) ภายใต้ชื่อ “Titan” โดยมีเป้าหมายเพื่อลดการพึ่งพา GPU จาก Nvidia ซึ่งมีราคาสูงและขาดแคลนอย่างต่อเนื่อง

    Broadcom ซึ่งเคยเป็นผู้ผลิตชิปสำหรับสมาร์ตโฟน ได้ขยายเข้าสู่ตลาด data center และกลายเป็นผู้นำด้านการออกแบบ XPU สำหรับงาน AI โดยก่อนหน้านี้มีลูกค้าระดับยักษ์อย่าง Google, Meta และ ByteDance ล่าสุด OpenAI กลายเป็นลูกค้ารายที่สี่ พร้อมสั่งซื้อ rack ระบบ AI มูลค่ากว่า $10 พันล้าน ซึ่งจะเริ่มส่งมอบในไตรมาสที่ 3 ปีงบประมาณ 20262

    ชิป Titan จะถูกใช้สำหรับงาน inference โดยเฉพาะ และนำโดย Richard Ho อดีตวิศวกรผู้ออกแบบ Google TPU ซึ่งแสดงให้เห็นว่า OpenAI ต้องการควบคุมโครงสร้างพื้นฐานของตนเองอย่างจริงจัง เพื่อรองรับโมเดลขนาดใหญ่ เช่น GPT-4.5 และโครงการ Stargate ที่มีเป้าหมายสู่ AGI ภายใน 4 ปี

    การตัดสินใจนี้เกิดขึ้นหลังจาก OpenAI ประสบปัญหาขาดแคลน GPU อย่างหนักในช่วงต้นปี 2025 ซึ่งส่งผลให้การเปิดตัว GPT-4.5 ล่าช้า แม้จะมีเงินทุนจาก Microsoft และการระดมทุนรอบ Series F และการขายหุ้นภายในที่ดันมูลค่าบริษัทขึ้นถึง $500 พันล้าน แต่การลงทุนในโครงสร้างพื้นฐานยังเป็นภาระที่ต้องจัดการอย่างเร่งด่วน

    ความร่วมมือระหว่าง OpenAI และ Broadcom
    OpenAI เป็นลูกค้ารายที่ 4 ของ Broadcom ในโครงการ custom XPU
    สั่งซื้อ rack ระบบ AI มูลค่า $10 พันล้าน เริ่มส่งมอบปี 2026
    ชิป Titan ออกแบบสำหรับงาน inference โดยเฉพาะ
    นำโดย Richard Ho อดีตวิศวกร Google TPU

    เหตุผลเบื้องหลังการพัฒนา Titan
    ลดการพึ่งพา Nvidia ที่มีราคาสูงและขาดแคลน
    รองรับโมเดลขนาดใหญ่ เช่น GPT-4.5 และโครงการ Stargate
    เพิ่มประสิทธิภาพและควบคุมต้นทุนโครงสร้างพื้นฐาน
    ตอบสนองความต้องการด้าน compute ที่เพิ่มขึ้นอย่างรวดเร็ว

    ข้อมูลเสริมจากภายนอก
    Broadcom ขยายจากตลาดสมาร์ตโฟนสู่ data center และ AI infrastructure
    Titan เป็นส่วนหนึ่งของยุทธศาสตร์ AGI ภายใน 4 ปีของ OpenAI
    OpenAI เคยพึ่ง Azure cloud ของ Microsoft แต่ต้องการควบคุมระบบมากขึ้น
    การระดมทุน Series F และการขายหุ้นภายในดันมูลค่าบริษัทถึง $500 พันล้าน

    https://www.techradar.com/ai-platforms-assistants/chatgpt/nvidias-biggest-customers-are-lining-up-to-take-it-down-using-asics-and-broadcom-could-be-the-winner-of-that-battle
    💥 “OpenAI ผนึก Broadcom สร้างชิป Titan — ยุทธศาสตร์ใหม่ลดพึ่งพา Nvidia ด้วยคำสั่งซื้อ $10 พันล้าน และเป้าหมายสู่ AGI” ในยุคที่การแข่งขันด้าน AI รุนแรงขึ้นทุกวัน OpenAI กำลังเดินเกมใหม่ที่อาจเปลี่ยนสมดุลของอุตสาหกรรมฮาร์ดแวร์ ด้วยการร่วมมือกับ Broadcom เพื่อพัฒนาชิปประมวลผล AI แบบกำหนดเอง (custom ASIC) ภายใต้ชื่อ “Titan” โดยมีเป้าหมายเพื่อลดการพึ่งพา GPU จาก Nvidia ซึ่งมีราคาสูงและขาดแคลนอย่างต่อเนื่อง Broadcom ซึ่งเคยเป็นผู้ผลิตชิปสำหรับสมาร์ตโฟน ได้ขยายเข้าสู่ตลาด data center และกลายเป็นผู้นำด้านการออกแบบ XPU สำหรับงาน AI โดยก่อนหน้านี้มีลูกค้าระดับยักษ์อย่าง Google, Meta และ ByteDance ล่าสุด OpenAI กลายเป็นลูกค้ารายที่สี่ พร้อมสั่งซื้อ rack ระบบ AI มูลค่ากว่า $10 พันล้าน ซึ่งจะเริ่มส่งมอบในไตรมาสที่ 3 ปีงบประมาณ 20262 ชิป Titan จะถูกใช้สำหรับงาน inference โดยเฉพาะ และนำโดย Richard Ho อดีตวิศวกรผู้ออกแบบ Google TPU ซึ่งแสดงให้เห็นว่า OpenAI ต้องการควบคุมโครงสร้างพื้นฐานของตนเองอย่างจริงจัง เพื่อรองรับโมเดลขนาดใหญ่ เช่น GPT-4.5 และโครงการ Stargate ที่มีเป้าหมายสู่ AGI ภายใน 4 ปี การตัดสินใจนี้เกิดขึ้นหลังจาก OpenAI ประสบปัญหาขาดแคลน GPU อย่างหนักในช่วงต้นปี 2025 ซึ่งส่งผลให้การเปิดตัว GPT-4.5 ล่าช้า แม้จะมีเงินทุนจาก Microsoft และการระดมทุนรอบ Series F และการขายหุ้นภายในที่ดันมูลค่าบริษัทขึ้นถึง $500 พันล้าน แต่การลงทุนในโครงสร้างพื้นฐานยังเป็นภาระที่ต้องจัดการอย่างเร่งด่วน ✅ ความร่วมมือระหว่าง OpenAI และ Broadcom ➡️ OpenAI เป็นลูกค้ารายที่ 4 ของ Broadcom ในโครงการ custom XPU ➡️ สั่งซื้อ rack ระบบ AI มูลค่า $10 พันล้าน เริ่มส่งมอบปี 2026 ➡️ ชิป Titan ออกแบบสำหรับงาน inference โดยเฉพาะ ➡️ นำโดย Richard Ho อดีตวิศวกร Google TPU ✅ เหตุผลเบื้องหลังการพัฒนา Titan ➡️ ลดการพึ่งพา Nvidia ที่มีราคาสูงและขาดแคลน ➡️ รองรับโมเดลขนาดใหญ่ เช่น GPT-4.5 และโครงการ Stargate ➡️ เพิ่มประสิทธิภาพและควบคุมต้นทุนโครงสร้างพื้นฐาน ➡️ ตอบสนองความต้องการด้าน compute ที่เพิ่มขึ้นอย่างรวดเร็ว ✅ ข้อมูลเสริมจากภายนอก ➡️ Broadcom ขยายจากตลาดสมาร์ตโฟนสู่ data center และ AI infrastructure ➡️ Titan เป็นส่วนหนึ่งของยุทธศาสตร์ AGI ภายใน 4 ปีของ OpenAI ➡️ OpenAI เคยพึ่ง Azure cloud ของ Microsoft แต่ต้องการควบคุมระบบมากขึ้น ➡️ การระดมทุน Series F และการขายหุ้นภายในดันมูลค่าบริษัทถึง $500 พันล้าน https://www.techradar.com/ai-platforms-assistants/chatgpt/nvidias-biggest-customers-are-lining-up-to-take-it-down-using-asics-and-broadcom-could-be-the-winner-of-that-battle
    0 ความคิดเห็น 0 การแบ่งปัน 125 มุมมอง 0 รีวิว
  • “AI Data Center: เบื้องหลังเทคโนโลยีล้ำยุคที่อาจกลายเป็นจุดอ่อนด้านความมั่นคงไซเบอร์ระดับโลก”

    ลองนึกภาพว่าคุณกำลังพัฒนาโมเดล AI ที่ซับซ้อนระดับ GPT-5 หรือระบบวิเคราะห์ภาพทางการแพทย์ที่ต้องใช้พลังประมวลผลมหาศาล คุณอาจคิดถึง GPU, TPU หรือคลาวด์ที่เร็วแรง แต่สิ่งที่คุณอาจมองข้ามคือ “AI Data Center” ที่อยู่เบื้องหลังทั้งหมด — และนั่นคือจุดที่ภัยคุกคามไซเบอร์กำลังพุ่งเป้าเข้าใส่

    ในปี 2025 การลงทุนใน AI Data Center พุ่งสูงอย่างไม่เคยมีมาก่อน เช่น Amazon ทุ่มเงินกว่า $20 พันล้านในเพนซิลเวเนีย และ Meta เตรียมเปิดศูนย์ Prometheus ขนาดหลายกิกะวัตต์ในปี 2026 ขณะเดียวกัน รัฐบาลสหรัฐฯ โดยประธานาธิบดีทรัมป์ ได้ออกแผน AI Action Plan เพื่อเร่งพัฒนาโครงสร้างพื้นฐาน AI ทั้งในประเทศและต่างประเทศ

    แต่เบื้องหลังความก้าวหน้าเหล่านี้คือความเสี่ยงที่เพิ่มขึ้นอย่างมหาศาล ทั้งด้านพลังงาน (คาดว่าใช้ไฟฟ้ากว่า 612 เทราวัตต์ชั่วโมงใน 5 ปี) และด้านความปลอดภัยไซเบอร์ โดยเฉพาะการโจมตีแบบ side-channel, memory-level, model exfiltration และ supply chain sabotage ที่กำลังกลายเป็นเรื่องจริง

    AI Data Center ไม่ได้แค่เก็บข้อมูล แต่ยังเป็นที่อยู่ของโมเดล, น้ำหนักการเรียนรู้, และชุดข้อมูลฝึก ซึ่งหากถูกขโมยหรือถูกแก้ไข อาจส่งผลต่อความแม่นยำ ความน่าเชื่อถือ และแม้แต่ความมั่นคงของประเทศ

    การเติบโตของ AI Data Center
    Amazon ลงทุน $20 พันล้านในเพนซิลเวเนีย
    Meta เตรียมเปิดศูนย์ Prometheus ขนาดหลายกิกะวัตต์ในปี 2026
    รัฐบาลสหรัฐฯ สนับสนุนผ่าน AI Action Plan โดยประธานาธิบดีทรัมป์
    ความต้องการพลังงานสูงถึง 612 เทราวัตต์ชั่วโมงใน 5 ปี
    คาดว่าจะเพิ่มการปล่อยคาร์บอนทั่วโลก 3–4%

    ความเสี่ยงด้านไซเบอร์ที่เพิ่มขึ้น
    โจมตีแบบ DDoS, ransomware, supply chain และ social engineering
    side-channel attack จากฮาร์ดแวร์ เช่น CPU, GPU, TPU
    ตัวอย่าง: AMD พบช่องโหว่ 4 จุดในเดือนกรกฎาคม 2025
    TPUXtract โจมตี TPU โดยเจาะข้อมูลโมเดล AI โดยตรง
    GPU เสี่ยงต่อ memory-level attack และ malware ที่รันในหน่วยความจำ GPU
    ความเสี่ยงจาก model exfiltration, data poisoning, model inversion และ model stealing

    ความเสี่ยงด้านภูมิรัฐศาสตร์และ supply chain
    การโจมตีจากรัฐต่างชาติ เช่น การแทรกซึมจากจีนผ่าน Digital Silk Road 2.0
    การใช้เทคโนโลยี 5G และระบบเฝ้าระวังในภูมิภาคอ่าวเปอร์เซีย
    ความเสี่ยงจากการใช้ชิ้นส่วนที่ผลิตโดยบริษัทจีน
    การโจมตี supply chain ก่อนศูนย์จะเปิดใช้งานจริง

    แนวทางที่ผู้บริหารด้านความปลอดภัยควรพิจารณา
    ตรวจสอบนโยบายของผู้ให้บริการ AI Data Center อย่างละเอียด
    ใช้ Faraday cage หรือ shield chamber เพื่อลด side-channel attack
    ทำ AI audit อย่างต่อเนื่องเพื่อตรวจหาช่องโหว่และ backdoor
    ตรวจสอบตำแหน่งที่ตั้งของศูนย์และแหล่งที่มาของอุปกรณ์
    คัดกรองบุคลากรเพื่อป้องกันการแทรกซึมจากรัฐต่างชาติ

    https://www.csoonline.com/article/4051849/the-importance-of-reviewing-ai-data-centers-policies.html
    🏭 “AI Data Center: เบื้องหลังเทคโนโลยีล้ำยุคที่อาจกลายเป็นจุดอ่อนด้านความมั่นคงไซเบอร์ระดับโลก” ลองนึกภาพว่าคุณกำลังพัฒนาโมเดล AI ที่ซับซ้อนระดับ GPT-5 หรือระบบวิเคราะห์ภาพทางการแพทย์ที่ต้องใช้พลังประมวลผลมหาศาล คุณอาจคิดถึง GPU, TPU หรือคลาวด์ที่เร็วแรง แต่สิ่งที่คุณอาจมองข้ามคือ “AI Data Center” ที่อยู่เบื้องหลังทั้งหมด — และนั่นคือจุดที่ภัยคุกคามไซเบอร์กำลังพุ่งเป้าเข้าใส่ ในปี 2025 การลงทุนใน AI Data Center พุ่งสูงอย่างไม่เคยมีมาก่อน เช่น Amazon ทุ่มเงินกว่า $20 พันล้านในเพนซิลเวเนีย และ Meta เตรียมเปิดศูนย์ Prometheus ขนาดหลายกิกะวัตต์ในปี 2026 ขณะเดียวกัน รัฐบาลสหรัฐฯ โดยประธานาธิบดีทรัมป์ ได้ออกแผน AI Action Plan เพื่อเร่งพัฒนาโครงสร้างพื้นฐาน AI ทั้งในประเทศและต่างประเทศ แต่เบื้องหลังความก้าวหน้าเหล่านี้คือความเสี่ยงที่เพิ่มขึ้นอย่างมหาศาล ทั้งด้านพลังงาน (คาดว่าใช้ไฟฟ้ากว่า 612 เทราวัตต์ชั่วโมงใน 5 ปี) และด้านความปลอดภัยไซเบอร์ โดยเฉพาะการโจมตีแบบ side-channel, memory-level, model exfiltration และ supply chain sabotage ที่กำลังกลายเป็นเรื่องจริง AI Data Center ไม่ได้แค่เก็บข้อมูล แต่ยังเป็นที่อยู่ของโมเดล, น้ำหนักการเรียนรู้, และชุดข้อมูลฝึก ซึ่งหากถูกขโมยหรือถูกแก้ไข อาจส่งผลต่อความแม่นยำ ความน่าเชื่อถือ และแม้แต่ความมั่นคงของประเทศ ✅ การเติบโตของ AI Data Center ➡️ Amazon ลงทุน $20 พันล้านในเพนซิลเวเนีย ➡️ Meta เตรียมเปิดศูนย์ Prometheus ขนาดหลายกิกะวัตต์ในปี 2026 ➡️ รัฐบาลสหรัฐฯ สนับสนุนผ่าน AI Action Plan โดยประธานาธิบดีทรัมป์ ➡️ ความต้องการพลังงานสูงถึง 612 เทราวัตต์ชั่วโมงใน 5 ปี ➡️ คาดว่าจะเพิ่มการปล่อยคาร์บอนทั่วโลก 3–4% ✅ ความเสี่ยงด้านไซเบอร์ที่เพิ่มขึ้น ➡️ โจมตีแบบ DDoS, ransomware, supply chain และ social engineering ➡️ side-channel attack จากฮาร์ดแวร์ เช่น CPU, GPU, TPU ➡️ ตัวอย่าง: AMD พบช่องโหว่ 4 จุดในเดือนกรกฎาคม 2025 ➡️ TPUXtract โจมตี TPU โดยเจาะข้อมูลโมเดล AI โดยตรง ➡️ GPU เสี่ยงต่อ memory-level attack และ malware ที่รันในหน่วยความจำ GPU ➡️ ความเสี่ยงจาก model exfiltration, data poisoning, model inversion และ model stealing ✅ ความเสี่ยงด้านภูมิรัฐศาสตร์และ supply chain ➡️ การโจมตีจากรัฐต่างชาติ เช่น การแทรกซึมจากจีนผ่าน Digital Silk Road 2.0 ➡️ การใช้เทคโนโลยี 5G และระบบเฝ้าระวังในภูมิภาคอ่าวเปอร์เซีย ➡️ ความเสี่ยงจากการใช้ชิ้นส่วนที่ผลิตโดยบริษัทจีน ➡️ การโจมตี supply chain ก่อนศูนย์จะเปิดใช้งานจริง ✅ แนวทางที่ผู้บริหารด้านความปลอดภัยควรพิจารณา ➡️ ตรวจสอบนโยบายของผู้ให้บริการ AI Data Center อย่างละเอียด ➡️ ใช้ Faraday cage หรือ shield chamber เพื่อลด side-channel attack ➡️ ทำ AI audit อย่างต่อเนื่องเพื่อตรวจหาช่องโหว่และ backdoor ➡️ ตรวจสอบตำแหน่งที่ตั้งของศูนย์และแหล่งที่มาของอุปกรณ์ ➡️ คัดกรองบุคลากรเพื่อป้องกันการแทรกซึมจากรัฐต่างชาติ https://www.csoonline.com/article/4051849/the-importance-of-reviewing-ai-data-centers-policies.html
    WWW.CSOONLINE.COM
    The importance of reviewing AI data centers’ policies
    As the race to invest in AI tools, technologies and capabilities continues, it is critical for cybersecurity leaders to not only look at whether the AI-embedded software is secure but also to scrutinize whether the AI data centers are secure as well.
    0 ความคิดเห็น 0 การแบ่งปัน 139 มุมมอง 0 รีวิว
  • เรื่องเล่าจาก ETH Zurich ถึง 1811 ภาษา: เมื่อโมเดลภาษาไม่ได้ถูกสร้างเพื่อแข่งขัน แต่เพื่อให้ทุกคนเข้าถึงได้

    Apertus เป็นโมเดลภาษาใหญ่ (LLM) ที่พัฒนาโดย Swiss National AI Institute (SNAI) ซึ่งเป็นความร่วมมือระหว่าง ETH Zurich และ EPFL โดยมีเป้าหมายเพื่อสร้างโมเดลที่เปิดทุกส่วน—ตั้งแต่โค้ด, น้ำหนักโมเดล, ข้อมูลเทรน, ไปจนถึงสูตรการเทรนเอง

    โมเดลมีสองขนาดคือ 8B และ 70B พารามิเตอร์ โดยเวอร์ชัน 70B ถูกเทรนด้วยข้อมูล 15 ล้านล้าน token จากเว็บ, โค้ด, และคณิตศาสตร์ ผ่านกระบวนการ curriculum learning ที่จัดลำดับเนื้อหาอย่างเป็นระบบ

    Apertus รองรับภาษามากถึง 1811 ภาษา โดย 40% ของข้อมูลเทรนเป็นภาษาที่ไม่ใช่ภาษาอังกฤษ เช่น Swiss German, Romansh และภาษาอื่น ๆ ที่มักถูกละเลยในโมเดลทั่วไป

    โมเดลใช้สถาปัตยกรรม decoder-only transformer พร้อมฟังก์ชัน activation ใหม่ชื่อ xIELU และ optimizer แบบ AdEMAMix ซึ่งออกแบบมาเพื่อเพิ่มประสิทธิภาพการเทรนในระดับ bfloat16 บน GPU GH200 จำนวน 4096 ตัว

    หลังการเทรน โมเดลยังผ่านการ fine-tune แบบมีผู้ดูแล และ alignment ด้วยเทคนิค QRPO เพื่อให้ตอบสนองต่อผู้ใช้ได้ดีขึ้น โดยไม่ละเมิดความเป็นกลางหรือความปลอดภัย

    สิ่งที่โดดเด่นคือ Apertus เคารพสิทธิ์ของเจ้าของข้อมูลอย่างเข้มงวด โดยใช้ระบบ opt-out ที่สามารถย้อนกลับได้ และมีระบบ output filter ที่ผู้ใช้สามารถดาวน์โหลดทุก 6 เดือน เพื่อกรองข้อมูลส่วนบุคคลออกจากผลลัพธ์ของโมเดล

    นอกจากนี้ Apertus ยังถูกออกแบบให้สอดคล้องกับกฎหมายความโปร่งใสของ EU AI Act และกฎหมายคุ้มครองข้อมูลของสวิตเซอร์แลนด์ โดยมีเอกสารสาธารณะและโค้ดการเทรนให้ตรวจสอบได้ทั้งหมด

    ข้อมูลพื้นฐานของ Apertus
    พัฒนาโดย SNAI ซึ่งเป็นความร่วมมือระหว่าง ETH Zurich และ EPFL
    มีสองขนาด: 8B และ 70B พารามิเตอร์
    เทรนด้วยข้อมูล 15T token จากเว็บ, โค้ด, และคณิตศาสตร์

    สถาปัตยกรรมและเทคนิคการเทรน
    ใช้ decoder-only transformer พร้อมฟังก์ชัน xIELU
    ใช้ optimizer AdEMAMix และ precision แบบ bfloat16
    เทรนบน GPU GH200 จำนวน 4096 ตัว

    ความสามารถด้านภาษาและความโปร่งใส
    รองรับ 1811 ภาษา โดย 40% เป็นภาษาที่ไม่ใช่ภาษาอังกฤษ
    ใช้ข้อมูลที่เปิดและเคารพ opt-out ของเจ้าของข้อมูล
    มีระบบ output filter สำหรับลบข้อมูลส่วนบุคคลจากผลลัพธ์

    การใช้งานและการ deploy
    รองรับ context ยาวถึง 65,536 token
    ใช้งานผ่าน Transformers v4.56.0, vLLM, SGLang และ MLX
    มีอินเทอร์เฟซผ่าน Swisscom และ PublicAI สำหรับผู้ใช้ทั่วไป

    การปฏิบัติตามกฎหมายและจริยธรรม
    สอดคล้องกับ EU AI Act และกฎหมายสวิตเซอร์แลนด์
    มีเอกสารสาธารณะและโค้ดการเทรนให้ตรวจสอบได้
    ไม่ใช้ข้อมูลที่ละเมิดสิทธิ์หรือมีเนื้อหาที่ไม่เหมาะสม

    https://huggingface.co/swiss-ai/Apertus-70B-2509
    🎙️ เรื่องเล่าจาก ETH Zurich ถึง 1811 ภาษา: เมื่อโมเดลภาษาไม่ได้ถูกสร้างเพื่อแข่งขัน แต่เพื่อให้ทุกคนเข้าถึงได้ Apertus เป็นโมเดลภาษาใหญ่ (LLM) ที่พัฒนาโดย Swiss National AI Institute (SNAI) ซึ่งเป็นความร่วมมือระหว่าง ETH Zurich และ EPFL โดยมีเป้าหมายเพื่อสร้างโมเดลที่เปิดทุกส่วน—ตั้งแต่โค้ด, น้ำหนักโมเดล, ข้อมูลเทรน, ไปจนถึงสูตรการเทรนเอง โมเดลมีสองขนาดคือ 8B และ 70B พารามิเตอร์ โดยเวอร์ชัน 70B ถูกเทรนด้วยข้อมูล 15 ล้านล้าน token จากเว็บ, โค้ด, และคณิตศาสตร์ ผ่านกระบวนการ curriculum learning ที่จัดลำดับเนื้อหาอย่างเป็นระบบ Apertus รองรับภาษามากถึง 1811 ภาษา โดย 40% ของข้อมูลเทรนเป็นภาษาที่ไม่ใช่ภาษาอังกฤษ เช่น Swiss German, Romansh และภาษาอื่น ๆ ที่มักถูกละเลยในโมเดลทั่วไป โมเดลใช้สถาปัตยกรรม decoder-only transformer พร้อมฟังก์ชัน activation ใหม่ชื่อ xIELU และ optimizer แบบ AdEMAMix ซึ่งออกแบบมาเพื่อเพิ่มประสิทธิภาพการเทรนในระดับ bfloat16 บน GPU GH200 จำนวน 4096 ตัว หลังการเทรน โมเดลยังผ่านการ fine-tune แบบมีผู้ดูแล และ alignment ด้วยเทคนิค QRPO เพื่อให้ตอบสนองต่อผู้ใช้ได้ดีขึ้น โดยไม่ละเมิดความเป็นกลางหรือความปลอดภัย สิ่งที่โดดเด่นคือ Apertus เคารพสิทธิ์ของเจ้าของข้อมูลอย่างเข้มงวด โดยใช้ระบบ opt-out ที่สามารถย้อนกลับได้ และมีระบบ output filter ที่ผู้ใช้สามารถดาวน์โหลดทุก 6 เดือน เพื่อกรองข้อมูลส่วนบุคคลออกจากผลลัพธ์ของโมเดล นอกจากนี้ Apertus ยังถูกออกแบบให้สอดคล้องกับกฎหมายความโปร่งใสของ EU AI Act และกฎหมายคุ้มครองข้อมูลของสวิตเซอร์แลนด์ โดยมีเอกสารสาธารณะและโค้ดการเทรนให้ตรวจสอบได้ทั้งหมด ✅ ข้อมูลพื้นฐานของ Apertus ➡️ พัฒนาโดย SNAI ซึ่งเป็นความร่วมมือระหว่าง ETH Zurich และ EPFL ➡️ มีสองขนาด: 8B และ 70B พารามิเตอร์ ➡️ เทรนด้วยข้อมูล 15T token จากเว็บ, โค้ด, และคณิตศาสตร์ ✅ สถาปัตยกรรมและเทคนิคการเทรน ➡️ ใช้ decoder-only transformer พร้อมฟังก์ชัน xIELU ➡️ ใช้ optimizer AdEMAMix และ precision แบบ bfloat16 ➡️ เทรนบน GPU GH200 จำนวน 4096 ตัว ✅ ความสามารถด้านภาษาและความโปร่งใส ➡️ รองรับ 1811 ภาษา โดย 40% เป็นภาษาที่ไม่ใช่ภาษาอังกฤษ ➡️ ใช้ข้อมูลที่เปิดและเคารพ opt-out ของเจ้าของข้อมูล ➡️ มีระบบ output filter สำหรับลบข้อมูลส่วนบุคคลจากผลลัพธ์ ✅ การใช้งานและการ deploy ➡️ รองรับ context ยาวถึง 65,536 token ➡️ ใช้งานผ่าน Transformers v4.56.0, vLLM, SGLang และ MLX ➡️ มีอินเทอร์เฟซผ่าน Swisscom และ PublicAI สำหรับผู้ใช้ทั่วไป ✅ การปฏิบัติตามกฎหมายและจริยธรรม ➡️ สอดคล้องกับ EU AI Act และกฎหมายสวิตเซอร์แลนด์ ➡️ มีเอกสารสาธารณะและโค้ดการเทรนให้ตรวจสอบได้ ➡️ ไม่ใช้ข้อมูลที่ละเมิดสิทธิ์หรือมีเนื้อหาที่ไม่เหมาะสม https://huggingface.co/swiss-ai/Apertus-70B-2509
    HUGGINGFACE.CO
    swiss-ai/Apertus-70B-2509 · Hugging Face
    We’re on a journey to advance and democratize artificial intelligence through open source and open science.
    0 ความคิดเห็น 0 การแบ่งปัน 150 มุมมอง 0 รีวิว
  • เรื่องเล่าจาก logits ถึง embedding: เมื่อคณิตศาสตร์พื้นฐานกลายเป็นภาษาที่ LLM ใช้คิด

    บทความจาก Giles Thomas อธิบายว่า หากคุณเคยเรียนคณิตศาสตร์ระดับมัธยม—โดยเฉพาะเรื่องเวกเตอร์, เมทริกซ์, และการคูณเมทริกซ์—คุณมีพื้นฐานเพียงพอที่จะเข้าใจการทำงานของ LLM ในขั้นตอน “inference” หรือการใช้งานโมเดลที่เทรนมาแล้ว

    เริ่มจาก “เวกเตอร์” ซึ่งใน LLM หมายถึงชุดตัวเลขที่แทนความน่าจะเป็นของคำถัดไปในลำดับข้อความ เช่น โมเดล GPT-2 มีคำศัพท์ 50,257 คำ ดังนั้นเวกเตอร์ logits ที่ออกมาจะมี 50,257 ค่า โดยแต่ละค่าคือความน่าจะเป็นของคำหนึ่ง ๆ ที่จะถูกเลือกเป็นคำถัดไป

    เพื่อแปลงเวกเตอร์นี้ให้กลายเป็น “ความน่าจะเป็นจริง” เราใช้ฟังก์ชัน softmax ซึ่งจะเปลี่ยนค่าทั้งหมดให้รวมกันเป็น 1 และกระจายเป็นเปอร์เซ็นต์ของแต่ละคำ เช่น เวกเตอร์ (1, 2, 3) และ (–9, –8, –7) อาจให้ผล softmax เดียวกันคือ (0.09, 0.24, 0.66) เพราะแม้ค่าจะต่างกัน แต่ “ลำดับความน่าจะเป็น” เหมือนกัน

    จากนั้นเรามี “embedding space” ซึ่งเป็นพื้นที่หลายมิติที่ใช้แทน “ความหมาย” ของคำ โดยคำที่มีความหมายใกล้กันจะอยู่ใกล้กันในพื้นที่นี้ เช่น “แมวบ้าน”, “เสือ”, และ “สิงโต” อาจอยู่ในกลุ่มเดียวกัน ส่วน “หมา”, “หมาป่า”, และ “โคโยตี้” อยู่ในอีกกลุ่มหนึ่ง

    การแปลงจาก vocab space ไปยัง embedding space และกลับมาใช้เมทริกซ์คูณ เช่น การใช้เมทริกซ์ขนาด 50,257 × 768 เพื่อแปลงเวกเตอร์จาก vocab space ไปยัง embedding space และเมทริกซ์ 768 × 50,257 เพื่อแปลงกลับ

    สุดท้าย Giles อธิบายว่า “layer” ใน neural network ก็คือการคูณเมทริกซ์เช่นกัน โดย input เป็นเวกเตอร์ n × d และ weight เป็นเมทริกซ์ d_out × d_in ซึ่งเมื่อคูณกันจะได้ output เป็น n × d_out ซึ่งเป็นการ “project” จากพื้นที่หนึ่งไปยังอีกพื้นที่หนึ่ง

    คณิตศาสตร์พื้นฐานที่ใช้ใน LLM
    เวกเตอร์แทนความน่าจะเป็นของคำถัดไป
    softmax ใช้แปลง logits ให้เป็นความน่าจะเป็นจริง
    embedding space ใช้แทนความหมายของคำในหลายมิติ

    การแปลงระหว่าง vocab space และ embedding space
    ใช้เมทริกซ์ขนาดใหญ่ เช่น 50,257 × 768 เพื่อแปลงเวกเตอร์
    การแปลงกลับใช้เมทริกซ์ 768 × 50,257
    การแปลงนี้อาจ “สูญเสียข้อมูล” หากลดจำนวนมิติ

    การคำนวณใน neural network
    layer หนึ่งคือการคูณเมทริกซ์ระหว่าง input และ weight
    ผลลัพธ์คือการ project จาก input space ไปยัง output space
    bias และ activation function เป็นส่วนเสริมที่ทำให้ระบบไม่เป็นเชิงเส้น

    ตัวอย่างการใช้งานจริง
    เวกเตอร์ logits จาก GPT-2 มี 50,257 ค่า
    softmax แปลงเวกเตอร์ให้รวมเป็น 1 และกระจายเป็นเปอร์เซ็นต์
    embedding space ใช้จัดกลุ่มคำที่มีความหมายใกล้กัน

    https://www.gilesthomas.com/2025/09/maths-for-llms
    🎙️ เรื่องเล่าจาก logits ถึง embedding: เมื่อคณิตศาสตร์พื้นฐานกลายเป็นภาษาที่ LLM ใช้คิด บทความจาก Giles Thomas อธิบายว่า หากคุณเคยเรียนคณิตศาสตร์ระดับมัธยม—โดยเฉพาะเรื่องเวกเตอร์, เมทริกซ์, และการคูณเมทริกซ์—คุณมีพื้นฐานเพียงพอที่จะเข้าใจการทำงานของ LLM ในขั้นตอน “inference” หรือการใช้งานโมเดลที่เทรนมาแล้ว เริ่มจาก “เวกเตอร์” ซึ่งใน LLM หมายถึงชุดตัวเลขที่แทนความน่าจะเป็นของคำถัดไปในลำดับข้อความ เช่น โมเดล GPT-2 มีคำศัพท์ 50,257 คำ ดังนั้นเวกเตอร์ logits ที่ออกมาจะมี 50,257 ค่า โดยแต่ละค่าคือความน่าจะเป็นของคำหนึ่ง ๆ ที่จะถูกเลือกเป็นคำถัดไป เพื่อแปลงเวกเตอร์นี้ให้กลายเป็น “ความน่าจะเป็นจริง” เราใช้ฟังก์ชัน softmax ซึ่งจะเปลี่ยนค่าทั้งหมดให้รวมกันเป็น 1 และกระจายเป็นเปอร์เซ็นต์ของแต่ละคำ เช่น เวกเตอร์ (1, 2, 3) และ (–9, –8, –7) อาจให้ผล softmax เดียวกันคือ (0.09, 0.24, 0.66) เพราะแม้ค่าจะต่างกัน แต่ “ลำดับความน่าจะเป็น” เหมือนกัน จากนั้นเรามี “embedding space” ซึ่งเป็นพื้นที่หลายมิติที่ใช้แทน “ความหมาย” ของคำ โดยคำที่มีความหมายใกล้กันจะอยู่ใกล้กันในพื้นที่นี้ เช่น “แมวบ้าน”, “เสือ”, และ “สิงโต” อาจอยู่ในกลุ่มเดียวกัน ส่วน “หมา”, “หมาป่า”, และ “โคโยตี้” อยู่ในอีกกลุ่มหนึ่ง การแปลงจาก vocab space ไปยัง embedding space และกลับมาใช้เมทริกซ์คูณ เช่น การใช้เมทริกซ์ขนาด 50,257 × 768 เพื่อแปลงเวกเตอร์จาก vocab space ไปยัง embedding space และเมทริกซ์ 768 × 50,257 เพื่อแปลงกลับ สุดท้าย Giles อธิบายว่า “layer” ใน neural network ก็คือการคูณเมทริกซ์เช่นกัน โดย input เป็นเวกเตอร์ n × d และ weight เป็นเมทริกซ์ d_out × d_in ซึ่งเมื่อคูณกันจะได้ output เป็น n × d_out ซึ่งเป็นการ “project” จากพื้นที่หนึ่งไปยังอีกพื้นที่หนึ่ง ✅ คณิตศาสตร์พื้นฐานที่ใช้ใน LLM ➡️ เวกเตอร์แทนความน่าจะเป็นของคำถัดไป ➡️ softmax ใช้แปลง logits ให้เป็นความน่าจะเป็นจริง ➡️ embedding space ใช้แทนความหมายของคำในหลายมิติ ✅ การแปลงระหว่าง vocab space และ embedding space ➡️ ใช้เมทริกซ์ขนาดใหญ่ เช่น 50,257 × 768 เพื่อแปลงเวกเตอร์ ➡️ การแปลงกลับใช้เมทริกซ์ 768 × 50,257 ➡️ การแปลงนี้อาจ “สูญเสียข้อมูล” หากลดจำนวนมิติ ✅ การคำนวณใน neural network ➡️ layer หนึ่งคือการคูณเมทริกซ์ระหว่าง input และ weight ➡️ ผลลัพธ์คือการ project จาก input space ไปยัง output space ➡️ bias และ activation function เป็นส่วนเสริมที่ทำให้ระบบไม่เป็นเชิงเส้น ✅ ตัวอย่างการใช้งานจริง ➡️ เวกเตอร์ logits จาก GPT-2 มี 50,257 ค่า ➡️ softmax แปลงเวกเตอร์ให้รวมเป็น 1 และกระจายเป็นเปอร์เซ็นต์ ➡️ embedding space ใช้จัดกลุ่มคำที่มีความหมายใกล้กัน https://www.gilesthomas.com/2025/09/maths-for-llms
    WWW.GILESTHOMAS.COM
    The maths you need to start understanding LLMs
    A quick refresher on the maths behind LLMs: vectors, matrices, projections, embeddings, logits and softmax.
    0 ความคิดเห็น 0 การแบ่งปัน 139 มุมมอง 0 รีวิว
  • เรื่องเล่าจาก Ironwood: เมื่อ Google สร้างซูเปอร์คอมพิวเตอร์ที่ไม่ใช่แค่เร็ว แต่ “ฉลาดและยืดหยุ่น” ที่สุดเท่าที่เคยมีมา

    ในงาน Hot Chips 2025 Google ได้เปิดเผยรายละเอียดของ Ironwood TPU ซึ่งเป็นชิปรุ่นที่ 7 ของตระกูล Tensor Processing Unit โดยออกแบบมาเพื่อรองรับงาน inference ขนาดใหญ่โดยเฉพาะ ไม่ใช่การเทรนโมเดลเหมือนรุ่นก่อน ๆ

    แต่ละชิป Ironwood มีสถาปัตยกรรมแบบ dual-die ให้กำลังประมวลผล FP8 สูงถึง 4,614 TFLOPs และมาพร้อมกับหน่วยความจำ HBM3e ขนาด 192GB ต่อชิป โดยมีแบนด์วิดธ์สูงถึง 7.3TB/s

    ระบบสามารถขยายได้ถึง 9,216 ชิปต่อหนึ่ง pod โดยไม่ต้องใช้ glue logic และมี I/O bandwidth รวมถึง 1.2TBps ทำให้สามารถสร้างระบบที่มี shared memory ขนาด 1.77PB ได้—ซึ่งถือเป็นสถิติโลกใหม่สำหรับระบบ multi-CPU ที่ใช้ shared memory

    การเชื่อมต่อระหว่างแร็คใช้ optical circuit switch ที่สามารถ reconfigure ได้เมื่อมี node เสีย พร้อมระบบ checkpoint recovery และฟีเจอร์ด้านความปลอดภัย เช่น root of trust, built-in self test, และการตรวจจับ silent data corruption

    Ironwood ยังใช้ AI ในการออกแบบตัวเอง เช่น การ optimize ALU circuits และ floorplan พร้อมเพิ่ม SparseCore รุ่นที่ 4 เพื่อเร่งงาน embedding และ collective operations เช่น recommendation engine

    ระบบระบายความร้อนใช้ cold plate รุ่นที่ 3 ของ Google ซึ่งเป็น liquid cooling แบบเต็มรูปแบบ และมีการปรับแรงดันไฟฟ้าและความถี่แบบ dynamic เพื่อเพิ่มประสิทธิภาพต่อวัตต์ให้ดีกว่ารุ่น Trillium ถึง 2 เท่า

    สเปกหลักของ Ironwood TPU
    Dual-die architecture ให้ 4,614 TFLOPs FP8 ต่อชิป
    หน่วยความจำ HBM3e ขนาด 192GB ต่อชิป พร้อมแบนด์วิดธ์ 7.3TB/s
    รองรับการขยายถึง 9,216 ชิปต่อ pod ด้วย I/O bandwidth 1.2TBps

    สถิติโลกด้าน shared memory
    ระบบมี shared memory ขนาด 1.77PB แบบ addressable โดยตรง
    ใช้ optical circuit switch เชื่อมต่อแร็คแบบ dynamic
    รองรับ workload recovery และ node reconfiguration

    ฟีเจอร์ด้านความปลอดภัยและเสถียรภาพ
    มี root of trust, built-in self test, และ logic repair
    ตรวจจับและป้องกัน silent data corruption
    ออกแบบเพื่อ RAS: reliability, availability, serviceability

    การออกแบบด้วย AI และการใช้งาน
    ใช้ AI ในการ optimize ALU และ floorplan
    เพิ่ม SparseCore รุ่นที่ 4 สำหรับ embedding และ collective ops
    รองรับงาน inference เช่น LLM, recommendation, simulation

    ระบบระบายความร้อนและประสิทธิภาพ
    ใช้ cold plate liquid cooling รุ่นที่ 3 ของ Google
    ปรับแรงดันและความถี่แบบ dynamic เพื่อเพิ่ม efficiency
    ประสิทธิภาพต่อวัตต์ดีกว่ารุ่น Trillium ถึง 2 เท่า

    https://www.techradar.com/pro/googles-most-powerful-supercomputer-ever-has-a-combined-memory-of-1-77pb-apparently-a-new-world-record-for-shared-memory-multi-cpu-setups
    🎙️ เรื่องเล่าจาก Ironwood: เมื่อ Google สร้างซูเปอร์คอมพิวเตอร์ที่ไม่ใช่แค่เร็ว แต่ “ฉลาดและยืดหยุ่น” ที่สุดเท่าที่เคยมีมา ในงาน Hot Chips 2025 Google ได้เปิดเผยรายละเอียดของ Ironwood TPU ซึ่งเป็นชิปรุ่นที่ 7 ของตระกูล Tensor Processing Unit โดยออกแบบมาเพื่อรองรับงาน inference ขนาดใหญ่โดยเฉพาะ ไม่ใช่การเทรนโมเดลเหมือนรุ่นก่อน ๆ แต่ละชิป Ironwood มีสถาปัตยกรรมแบบ dual-die ให้กำลังประมวลผล FP8 สูงถึง 4,614 TFLOPs และมาพร้อมกับหน่วยความจำ HBM3e ขนาด 192GB ต่อชิป โดยมีแบนด์วิดธ์สูงถึง 7.3TB/s ระบบสามารถขยายได้ถึง 9,216 ชิปต่อหนึ่ง pod โดยไม่ต้องใช้ glue logic และมี I/O bandwidth รวมถึง 1.2TBps ทำให้สามารถสร้างระบบที่มี shared memory ขนาด 1.77PB ได้—ซึ่งถือเป็นสถิติโลกใหม่สำหรับระบบ multi-CPU ที่ใช้ shared memory การเชื่อมต่อระหว่างแร็คใช้ optical circuit switch ที่สามารถ reconfigure ได้เมื่อมี node เสีย พร้อมระบบ checkpoint recovery และฟีเจอร์ด้านความปลอดภัย เช่น root of trust, built-in self test, และการตรวจจับ silent data corruption Ironwood ยังใช้ AI ในการออกแบบตัวเอง เช่น การ optimize ALU circuits และ floorplan พร้อมเพิ่ม SparseCore รุ่นที่ 4 เพื่อเร่งงาน embedding และ collective operations เช่น recommendation engine ระบบระบายความร้อนใช้ cold plate รุ่นที่ 3 ของ Google ซึ่งเป็น liquid cooling แบบเต็มรูปแบบ และมีการปรับแรงดันไฟฟ้าและความถี่แบบ dynamic เพื่อเพิ่มประสิทธิภาพต่อวัตต์ให้ดีกว่ารุ่น Trillium ถึง 2 เท่า ✅ สเปกหลักของ Ironwood TPU ➡️ Dual-die architecture ให้ 4,614 TFLOPs FP8 ต่อชิป ➡️ หน่วยความจำ HBM3e ขนาด 192GB ต่อชิป พร้อมแบนด์วิดธ์ 7.3TB/s ➡️ รองรับการขยายถึง 9,216 ชิปต่อ pod ด้วย I/O bandwidth 1.2TBps ✅ สถิติโลกด้าน shared memory ➡️ ระบบมี shared memory ขนาด 1.77PB แบบ addressable โดยตรง ➡️ ใช้ optical circuit switch เชื่อมต่อแร็คแบบ dynamic ➡️ รองรับ workload recovery และ node reconfiguration ✅ ฟีเจอร์ด้านความปลอดภัยและเสถียรภาพ ➡️ มี root of trust, built-in self test, และ logic repair ➡️ ตรวจจับและป้องกัน silent data corruption ➡️ ออกแบบเพื่อ RAS: reliability, availability, serviceability ✅ การออกแบบด้วย AI และการใช้งาน ➡️ ใช้ AI ในการ optimize ALU และ floorplan ➡️ เพิ่ม SparseCore รุ่นที่ 4 สำหรับ embedding และ collective ops ➡️ รองรับงาน inference เช่น LLM, recommendation, simulation ✅ ระบบระบายความร้อนและประสิทธิภาพ ➡️ ใช้ cold plate liquid cooling รุ่นที่ 3 ของ Google ➡️ ปรับแรงดันและความถี่แบบ dynamic เพื่อเพิ่ม efficiency ➡️ ประสิทธิภาพต่อวัตต์ดีกว่ารุ่น Trillium ถึง 2 เท่า https://www.techradar.com/pro/googles-most-powerful-supercomputer-ever-has-a-combined-memory-of-1-77pb-apparently-a-new-world-record-for-shared-memory-multi-cpu-setups
    0 ความคิดเห็น 0 การแบ่งปัน 185 มุมมอง 0 รีวิว
  • เรื่องเล่าจาก Safe Mode: เมื่อ PS5 เปิดติดแต่ไม่แสดงภาพ และวิธีแก้ที่ไม่ต้องส่งซ่อม

    ในช่วงที่ราคาของ PS5 พุ่งสูงขึ้น ผู้ใช้บางคนกลับต้องเจอกับปัญหาที่น่าหงุดหงิดยิ่งกว่า—เครื่องเปิดติดแต่หน้าจอขึ้นเป็นสีดำ ไม่มีภาพ ไม่มีเสียง ไม่มีอะไรเลย ซึ่งอาจดูเหมือนว่าเครื่องเสีย แต่จริง ๆ แล้วมีหลายสาเหตุที่สามารถแก้ได้เองโดยไม่ต้องพึ่งช่าง

    สาเหตุหลักที่พบได้บ่อยคือสาย HDMI ที่เสียหรือเสียบไม่แน่น รวมถึงพอร์ต HDMI ที่สกปรกหรือชำรุดทั้งฝั่ง PS5 และทีวี นอกจากนี้ยังมีปัญหาจากการตั้งค่าภาพที่ไม่ตรงกัน เช่น หากเคยใช้กับจอที่รองรับ HDR หรือความละเอียดสูง แล้วเปลี่ยนมาใช้จอธรรมดา เครื่องอาจพยายามส่งสัญญาณที่จอใหม่ไม่รองรับ

    อีกหนึ่งตัวการคือโหมดพักเครื่อง (Rest Mode) ซึ่งบางครั้งทำให้ระบบไม่สามารถกลับมาทำงานได้ตามปกติ และเกิดอาการค้างจนภาพไม่ขึ้น รวมถึงกรณีที่ข้อมูลระบบเสียหาย หรือเครื่องร้อนเกินไปก็อาจทำให้เกิดอาการนี้ได้เช่นกัน

    ข่าวดีคือ ปัญหาส่วนใหญ่สามารถแก้ได้ด้วยวิธีง่าย ๆ เช่น ตรวจสอบสาย HDMI, เปลี่ยนพอร์ต, รีสตาร์ทเครื่อง หรือเข้าสู่ Safe Mode เพื่อปรับค่าภาพใหม่, รีบิลด์ฐานข้อมูล หรือแม้แต่รีเซ็ตระบบ (ซึ่งควรใช้เป็นทางเลือกสุดท้าย)

    สาเหตุทั่วไปของ PS5 Black Screen
    สาย HDMI เสียหรือเสียบไม่แน่น
    พอร์ต HDMI สกปรกหรือชำรุด
    การตั้งค่าภาพไม่ตรงกับจอที่ใช้งาน
    ระบบค้างจาก Rest Mode หรือข้อมูลเสียหาย

    วิธีแก้เบื้องต้นที่ควรลองก่อนส่งซ่อม
    ตรวจสอบทีวีว่าเปิดอยู่และตั้งค่าพอร์ตถูกต้อง
    เปลี่ยนสาย HDMI หรือพอร์ตที่ใช้งาน
    รีสตาร์ทเครื่องโดยกดปุ่ม Power จนได้ยินสองเสียงบี๊บ
    ถอดปลั๊กแล้วรอ 20 นาที ก่อนเสียบกลับและเปิดใหม่

    การใช้ Safe Mode เพื่อแก้ปัญหา
    เข้าสู่ Safe Mode โดยกดปุ่ม Power จนได้ยินเสียงบี๊บสองครั้ง
    ใช้เมนู Change Video Output หรือ Change Resolution เพื่อแก้ปัญหาภาพ
    ใช้ Rebuild Database เพื่อแก้ข้อมูลเสียหาย
    หากยังไม่หาย อาจต้อง Reset หรือ Reinstall System Software

    ทางเลือกเมื่อวิธีเบื้องต้นไม่ได้ผล
    รีเซ็ตระบบจะลบเกมและข้อมูลทั้งหมด—ควรสำรองก่อน
    สามารถอัปเดตระบบผ่าน USB หากไม่เชื่อมต่ออินเทอร์เน็ตได้
    หากยังไม่หาย อาจเกิดจากปัญหาฮาร์ดแวร์ เช่น HDMI chip หรือ power supply

    https://www.slashgear.com/1955501/how-to-fix-ps5-black-screen-issue-what-causes-problem/
    🎙️ เรื่องเล่าจาก Safe Mode: เมื่อ PS5 เปิดติดแต่ไม่แสดงภาพ และวิธีแก้ที่ไม่ต้องส่งซ่อม ในช่วงที่ราคาของ PS5 พุ่งสูงขึ้น ผู้ใช้บางคนกลับต้องเจอกับปัญหาที่น่าหงุดหงิดยิ่งกว่า—เครื่องเปิดติดแต่หน้าจอขึ้นเป็นสีดำ ไม่มีภาพ ไม่มีเสียง ไม่มีอะไรเลย ซึ่งอาจดูเหมือนว่าเครื่องเสีย แต่จริง ๆ แล้วมีหลายสาเหตุที่สามารถแก้ได้เองโดยไม่ต้องพึ่งช่าง สาเหตุหลักที่พบได้บ่อยคือสาย HDMI ที่เสียหรือเสียบไม่แน่น รวมถึงพอร์ต HDMI ที่สกปรกหรือชำรุดทั้งฝั่ง PS5 และทีวี นอกจากนี้ยังมีปัญหาจากการตั้งค่าภาพที่ไม่ตรงกัน เช่น หากเคยใช้กับจอที่รองรับ HDR หรือความละเอียดสูง แล้วเปลี่ยนมาใช้จอธรรมดา เครื่องอาจพยายามส่งสัญญาณที่จอใหม่ไม่รองรับ อีกหนึ่งตัวการคือโหมดพักเครื่อง (Rest Mode) ซึ่งบางครั้งทำให้ระบบไม่สามารถกลับมาทำงานได้ตามปกติ และเกิดอาการค้างจนภาพไม่ขึ้น รวมถึงกรณีที่ข้อมูลระบบเสียหาย หรือเครื่องร้อนเกินไปก็อาจทำให้เกิดอาการนี้ได้เช่นกัน ข่าวดีคือ ปัญหาส่วนใหญ่สามารถแก้ได้ด้วยวิธีง่าย ๆ เช่น ตรวจสอบสาย HDMI, เปลี่ยนพอร์ต, รีสตาร์ทเครื่อง หรือเข้าสู่ Safe Mode เพื่อปรับค่าภาพใหม่, รีบิลด์ฐานข้อมูล หรือแม้แต่รีเซ็ตระบบ (ซึ่งควรใช้เป็นทางเลือกสุดท้าย) ✅ สาเหตุทั่วไปของ PS5 Black Screen ➡️ สาย HDMI เสียหรือเสียบไม่แน่น ➡️ พอร์ต HDMI สกปรกหรือชำรุด ➡️ การตั้งค่าภาพไม่ตรงกับจอที่ใช้งาน ➡️ ระบบค้างจาก Rest Mode หรือข้อมูลเสียหาย ✅ วิธีแก้เบื้องต้นที่ควรลองก่อนส่งซ่อม ➡️ ตรวจสอบทีวีว่าเปิดอยู่และตั้งค่าพอร์ตถูกต้อง ➡️ เปลี่ยนสาย HDMI หรือพอร์ตที่ใช้งาน ➡️ รีสตาร์ทเครื่องโดยกดปุ่ม Power จนได้ยินสองเสียงบี๊บ ➡️ ถอดปลั๊กแล้วรอ 20 นาที ก่อนเสียบกลับและเปิดใหม่ ✅ การใช้ Safe Mode เพื่อแก้ปัญหา ➡️ เข้าสู่ Safe Mode โดยกดปุ่ม Power จนได้ยินเสียงบี๊บสองครั้ง ➡️ ใช้เมนู Change Video Output หรือ Change Resolution เพื่อแก้ปัญหาภาพ ➡️ ใช้ Rebuild Database เพื่อแก้ข้อมูลเสียหาย ➡️ หากยังไม่หาย อาจต้อง Reset หรือ Reinstall System Software ✅ ทางเลือกเมื่อวิธีเบื้องต้นไม่ได้ผล ➡️ รีเซ็ตระบบจะลบเกมและข้อมูลทั้งหมด—ควรสำรองก่อน ➡️ สามารถอัปเดตระบบผ่าน USB หากไม่เชื่อมต่ออินเทอร์เน็ตได้ ➡️ หากยังไม่หาย อาจเกิดจากปัญหาฮาร์ดแวร์ เช่น HDMI chip หรือ power supply https://www.slashgear.com/1955501/how-to-fix-ps5-black-screen-issue-what-causes-problem/
    WWW.SLASHGEAR.COM
    How To Fix The PS5 Black Screen Issue (And What's Causing It, Explained) - SlashGear
    If your PS5 powers on but the screen stays black, check HDMI connections, Safe Mode settings, and software fixes to restore the display.
    0 ความคิดเห็น 0 การแบ่งปัน 179 มุมมอง 0 รีวิว
  • เรื่องเล่าจาก SGLang: เมื่อ DeepSeek ถูกเสิร์ฟด้วยศิลปะของการแยกงานและแบ่งผู้เชี่ยวชาญ

    DeepSeek เป็นโมเดล LLM ที่ทรงพลังและซับซ้อน ด้วยสถาปัตยกรรมที่ใช้ Multi-head Latent Attention (MLA) และ Mixture of Experts (MoE) ซึ่งทำให้การรัน inference แบบ real-time กลายเป็นความท้าทายระดับสูง แต่ทีม SGLang ได้โชว์ว่า ถ้าออกแบบระบบดีพอ ก็สามารถรัน DeepSeek-V3 บน 96 H100 GPUs ได้อย่างมีประสิทธิภาพสูงสุด

    หัวใจของความสำเร็จนี้คือการใช้เทคนิค PD Disaggregation (แยกงานระหว่าง prefill และ decode) ร่วมกับ Expert Parallelism (EP) ที่ปรับแต่งอย่างละเอียดผ่าน DeepEP, DeepGEMM และ EPLB เพื่อให้การจัดการ memory, communication และ workload balance เป็นไปอย่างไร้รอยต่อ

    ผลลัพธ์คือ throughput สูงถึง 52.3k input tokens/sec และ 22.3k output tokens/sec ต่อ node ซึ่งใกล้เคียงกับระบบ production ของ DeepSeek เอง แต่ใช้ต้นทุนเพียง 20% ของ API ทางการ

    สถาปัตยกรรมการรัน DeepSeek บน SGLang
    ใช้ 12 nodes × 8 H100 GPUs รวม 96 GPUs
    throughput สูงถึง 52.3k input และ 22.3k output tokens/sec ต่อ node
    ต้นทุน inference อยู่ที่ ~$0.20 ต่อ 1M output tokens

    เทคนิค Prefill-Decode Disaggregation (PD)
    แยกการรัน prefill และ decode ออกจากกันเพื่อเพิ่มประสิทธิภาพ
    ลดปัญหา prefill interrupt และ latency จากการจัด batch แบบรวม
    รองรับ dispatch mode ที่ต่างกันสำหรับแต่ละ phase

    Expert Parallelism (EP) ด้วย DeepEP
    ใช้ normal dispatch สำหรับ prefill และ low-latency dispatch สำหรับ decode
    รองรับ auto mode ที่เลือก dispatch ตาม workload
    ลด latency และเพิ่ม throughput โดยใช้ expert routing ที่ปรับแต่งได้

    DeepGEMM สำหรับ MoE computation
    ใช้ Grouped GEMMs แบบ contiguous และ masked layout
    รองรับ CUDA Graph สำหรับ decode phase
    ใช้ Triton kernel เพื่อจัดเรียงข้อมูลให้เหมาะกับ GEMM kernel

    Two-Batch Overlap (TBO)
    แบ่ง batch เป็นสองส่วนเพื่อให้ computation และ communication overlap
    เพิ่ม throughput ได้ถึง 35% และลด peak memory usage
    ใช้ abstraction layer เพื่อจัดการ micro-batch อย่างสะอาดและ maintainable

    Expert Parallelism Load Balancer (EPLB)
    ใช้ expert redundancy เพื่อจัดวาง expert ให้สมดุล
    รองรับ parallelism size ที่ไม่จำกัดแค่ power-of-two เช่น 12 หรือ 72
    เพิ่ม utilization rate และลดการรอ GPU ที่ช้า

    Toolkits เสริมใน SGLang
    DisposableTensor สำหรับจัดการ memory ใน PyTorch โดยตรง
    Expert workload simulator เพื่อประเมิน performance ก่อน deploy จริง
    รองรับการ rebalancing แบบ staged เพื่อไม่ให้รบกวนระบบขณะทำงาน

    https://lmsys.org/blog/2025-05-05-large-scale-ep/
    🎙️ เรื่องเล่าจาก SGLang: เมื่อ DeepSeek ถูกเสิร์ฟด้วยศิลปะของการแยกงานและแบ่งผู้เชี่ยวชาญ DeepSeek เป็นโมเดล LLM ที่ทรงพลังและซับซ้อน ด้วยสถาปัตยกรรมที่ใช้ Multi-head Latent Attention (MLA) และ Mixture of Experts (MoE) ซึ่งทำให้การรัน inference แบบ real-time กลายเป็นความท้าทายระดับสูง แต่ทีม SGLang ได้โชว์ว่า ถ้าออกแบบระบบดีพอ ก็สามารถรัน DeepSeek-V3 บน 96 H100 GPUs ได้อย่างมีประสิทธิภาพสูงสุด หัวใจของความสำเร็จนี้คือการใช้เทคนิค PD Disaggregation (แยกงานระหว่าง prefill และ decode) ร่วมกับ Expert Parallelism (EP) ที่ปรับแต่งอย่างละเอียดผ่าน DeepEP, DeepGEMM และ EPLB เพื่อให้การจัดการ memory, communication และ workload balance เป็นไปอย่างไร้รอยต่อ ผลลัพธ์คือ throughput สูงถึง 52.3k input tokens/sec และ 22.3k output tokens/sec ต่อ node ซึ่งใกล้เคียงกับระบบ production ของ DeepSeek เอง แต่ใช้ต้นทุนเพียง 20% ของ API ทางการ ✅ สถาปัตยกรรมการรัน DeepSeek บน SGLang ➡️ ใช้ 12 nodes × 8 H100 GPUs รวม 96 GPUs ➡️ throughput สูงถึง 52.3k input และ 22.3k output tokens/sec ต่อ node ➡️ ต้นทุน inference อยู่ที่ ~$0.20 ต่อ 1M output tokens ✅ เทคนิค Prefill-Decode Disaggregation (PD) ➡️ แยกการรัน prefill และ decode ออกจากกันเพื่อเพิ่มประสิทธิภาพ ➡️ ลดปัญหา prefill interrupt และ latency จากการจัด batch แบบรวม ➡️ รองรับ dispatch mode ที่ต่างกันสำหรับแต่ละ phase ✅ Expert Parallelism (EP) ด้วย DeepEP ➡️ ใช้ normal dispatch สำหรับ prefill และ low-latency dispatch สำหรับ decode ➡️ รองรับ auto mode ที่เลือก dispatch ตาม workload ➡️ ลด latency และเพิ่ม throughput โดยใช้ expert routing ที่ปรับแต่งได้ ✅ DeepGEMM สำหรับ MoE computation ➡️ ใช้ Grouped GEMMs แบบ contiguous และ masked layout ➡️ รองรับ CUDA Graph สำหรับ decode phase ➡️ ใช้ Triton kernel เพื่อจัดเรียงข้อมูลให้เหมาะกับ GEMM kernel ✅ Two-Batch Overlap (TBO) ➡️ แบ่ง batch เป็นสองส่วนเพื่อให้ computation และ communication overlap ➡️ เพิ่ม throughput ได้ถึง 35% และลด peak memory usage ➡️ ใช้ abstraction layer เพื่อจัดการ micro-batch อย่างสะอาดและ maintainable ✅ Expert Parallelism Load Balancer (EPLB) ➡️ ใช้ expert redundancy เพื่อจัดวาง expert ให้สมดุล ➡️ รองรับ parallelism size ที่ไม่จำกัดแค่ power-of-two เช่น 12 หรือ 72 ➡️ เพิ่ม utilization rate และลดการรอ GPU ที่ช้า ✅ Toolkits เสริมใน SGLang ➡️ DisposableTensor สำหรับจัดการ memory ใน PyTorch โดยตรง ➡️ Expert workload simulator เพื่อประเมิน performance ก่อน deploy จริง ➡️ รองรับการ rebalancing แบบ staged เพื่อไม่ให้รบกวนระบบขณะทำงาน https://lmsys.org/blog/2025-05-05-large-scale-ep/
    LMSYS.ORG
    Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs | LMSYS Org
    DeepSeek is a popular open-source large language model (LLM) praised for its strong performance. However, its large size and unique architecture, which us...
    0 ความคิดเห็น 0 การแบ่งปัน 173 มุมมอง 0 รีวิว
  • เรื่องเล่าจากเบื้องหลัง AI: ต้นทุนจริงของการรันโมเดลใหญ่

    ช่วงนี้มีเสียงลือกันหนาหูว่า AI โดยเฉพาะการ “รัน inference” คือเครื่องเผาเงินชั้นดี หลายคนเชื่อว่าบริษัทอย่าง OpenAI และ Anthropic กำลังขาดทุนยับเยินจากการให้บริการโมเดลขนาดใหญ่ แต่บทความนี้พาเราไปเจาะลึกแบบ “napkin math” หรือคำนวณคร่าว ๆ จากหลักการพื้นฐาน เพื่อหาคำตอบว่าเรื่องนี้จริงแค่ไหน

    ผู้เขียนใช้ DeepSeek R1 เป็นโมเดลตัวอย่าง ซึ่งมี 671 พารามิเตอร์ทั้งหมด แต่ใช้แค่ 37B ผ่านเทคนิค mixture of experts (MoE) ที่ช่วยลดต้นทุนได้มาก โดยใช้ GPU H100 จำนวน 72 ตัว คิดราคาที่ $2 ต่อชั่วโมงต่อ GPU ซึ่งสูงกว่าราคาจริงในตลาดเสียอีก

    สิ่งที่น่าสนใจคือ “ต้นทุนของ input tokens” กับ “output tokens” ต่างกันมหาศาล! การประมวลผล input tokens สามารถทำได้แบบขนานและเร็วมาก ในขณะที่การสร้าง output tokens ต้องทำแบบลำดับทีละตัว ทำให้ต้นทุนสูงกว่าเป็นพันเท่า

    ยิ่งไปกว่านั้น การใช้งานจริงของผู้ใช้ เช่น นักพัฒนา หรือ power users กลับอยู่ในรูปแบบที่ใช้ input เยอะมาก แต่ output น้อย เช่น การส่งโค้ดทั้งไฟล์เพื่อให้ AI วิเคราะห์ แล้วให้มันตอบกลับแค่ไม่กี่บรรทัด ซึ่งเป็นรูปแบบที่ “คุ้มค่ามาก” สำหรับผู้ให้บริการ

    ต้นทุนการรัน inference ของโมเดล AI
    ใช้ GPU H100 จำนวน 72 ตัว คิดต้นทุน $144/ชั่วโมง
    input tokens ประมวลผลได้เร็วมากถึง ~46.8 พันล้าน tokens/ชั่วโมง
    output tokens สร้างได้เพียง ~46.7 ล้าน tokens/ชั่วโมง
    ต้นทุนต่อ input token อยู่ที่ ~$0.003 ต่อ 1 ล้าน tokens
    ต้นทุนต่อ output token สูงถึง ~$3 ต่อ 1 ล้าน tokens

    ความแตกต่างระหว่าง input และ output
    input สามารถประมวลผลแบบขนานได้
    output ต้องสร้างทีละ token ทำให้ช้ากว่าและแพงกว่า
    ความไม่สมมาตรนี้ทำให้บาง use case คุ้มค่ามาก เช่น coding assistant

    ตัวอย่างการใช้งานจริง
    ผู้ใช้ระดับนักพัฒนาใช้ input เยอะมาก เช่น โค้ดหลายไฟล์
    แต่ต้องการ output น้อย เช่น คำอธิบายหรือโค้ดสั้น ๆ
    ทำให้ต้นทุนจริงต่ำมากเมื่อเทียบกับราคาที่เรียกเก็บ

    โมเดลธุรกิจของ API
    ราคาขายต่อ 1 ล้าน tokens อยู่ที่ ~$3 สำหรับ output
    แต่ต้นทุนจริงอยู่ที่ ~$0.01 สำหรับ input และ ~$3 สำหรับ output
    ทำให้มี margin สูงถึง 80–95%

    ความเข้าใจผิดเกี่ยวกับต้นทุน AI
    หลายคนเชื่อว่า inference ขาดทุนเสมอ ซึ่งไม่จริงในหลายกรณี
    การพูดถึงต้นทุนสูงอาจเป็นกลยุทธ์ของผู้เล่นรายใหญ่เพื่อกันคู่แข่ง

    ความเสี่ยงจาก context ยาว
    เมื่อ context ยาวเกิน 128k tokens จะเปลี่ยนจาก memory-bound เป็น compute-bound
    ทำให้ต้นทุนเพิ่มขึ้น 2–10 เท่า
    บางโมเดลจึงจำกัด context window เพื่อควบคุมต้นทุน

    การตั้งราคาที่ไม่สอดคล้องกับมูลค่าจริง
    การคิดราคาตาม input อาจทำให้ผู้ใช้ลดรายละเอียดใน prompt
    การคิดราคาตาม output อาจทำให้ผู้ใช้รู้สึกว่าไม่คุ้มถ้าได้คำตอบสั้น

    https://martinalderson.com/posts/are-openai-and-anthropic-really-losing-money-on-inference/
    🎙️ เรื่องเล่าจากเบื้องหลัง AI: ต้นทุนจริงของการรันโมเดลใหญ่ ช่วงนี้มีเสียงลือกันหนาหูว่า AI โดยเฉพาะการ “รัน inference” คือเครื่องเผาเงินชั้นดี หลายคนเชื่อว่าบริษัทอย่าง OpenAI และ Anthropic กำลังขาดทุนยับเยินจากการให้บริการโมเดลขนาดใหญ่ แต่บทความนี้พาเราไปเจาะลึกแบบ “napkin math” หรือคำนวณคร่าว ๆ จากหลักการพื้นฐาน เพื่อหาคำตอบว่าเรื่องนี้จริงแค่ไหน ผู้เขียนใช้ DeepSeek R1 เป็นโมเดลตัวอย่าง ซึ่งมี 671 พารามิเตอร์ทั้งหมด แต่ใช้แค่ 37B ผ่านเทคนิค mixture of experts (MoE) ที่ช่วยลดต้นทุนได้มาก โดยใช้ GPU H100 จำนวน 72 ตัว คิดราคาที่ $2 ต่อชั่วโมงต่อ GPU ซึ่งสูงกว่าราคาจริงในตลาดเสียอีก สิ่งที่น่าสนใจคือ “ต้นทุนของ input tokens” กับ “output tokens” ต่างกันมหาศาล! การประมวลผล input tokens สามารถทำได้แบบขนานและเร็วมาก ในขณะที่การสร้าง output tokens ต้องทำแบบลำดับทีละตัว ทำให้ต้นทุนสูงกว่าเป็นพันเท่า ยิ่งไปกว่านั้น การใช้งานจริงของผู้ใช้ เช่น นักพัฒนา หรือ power users กลับอยู่ในรูปแบบที่ใช้ input เยอะมาก แต่ output น้อย เช่น การส่งโค้ดทั้งไฟล์เพื่อให้ AI วิเคราะห์ แล้วให้มันตอบกลับแค่ไม่กี่บรรทัด ซึ่งเป็นรูปแบบที่ “คุ้มค่ามาก” สำหรับผู้ให้บริการ ✅ ต้นทุนการรัน inference ของโมเดล AI ➡️ ใช้ GPU H100 จำนวน 72 ตัว คิดต้นทุน $144/ชั่วโมง ➡️ input tokens ประมวลผลได้เร็วมากถึง ~46.8 พันล้าน tokens/ชั่วโมง ➡️ output tokens สร้างได้เพียง ~46.7 ล้าน tokens/ชั่วโมง ➡️ ต้นทุนต่อ input token อยู่ที่ ~$0.003 ต่อ 1 ล้าน tokens ➡️ ต้นทุนต่อ output token สูงถึง ~$3 ต่อ 1 ล้าน tokens ✅ ความแตกต่างระหว่าง input และ output ➡️ input สามารถประมวลผลแบบขนานได้ ➡️ output ต้องสร้างทีละ token ทำให้ช้ากว่าและแพงกว่า ➡️ ความไม่สมมาตรนี้ทำให้บาง use case คุ้มค่ามาก เช่น coding assistant ✅ ตัวอย่างการใช้งานจริง ➡️ ผู้ใช้ระดับนักพัฒนาใช้ input เยอะมาก เช่น โค้ดหลายไฟล์ ➡️ แต่ต้องการ output น้อย เช่น คำอธิบายหรือโค้ดสั้น ๆ ➡️ ทำให้ต้นทุนจริงต่ำมากเมื่อเทียบกับราคาที่เรียกเก็บ ✅ โมเดลธุรกิจของ API ➡️ ราคาขายต่อ 1 ล้าน tokens อยู่ที่ ~$3 สำหรับ output ➡️ แต่ต้นทุนจริงอยู่ที่ ~$0.01 สำหรับ input และ ~$3 สำหรับ output ➡️ ทำให้มี margin สูงถึง 80–95% ‼️ ความเข้าใจผิดเกี่ยวกับต้นทุน AI ⛔ หลายคนเชื่อว่า inference ขาดทุนเสมอ ซึ่งไม่จริงในหลายกรณี ⛔ การพูดถึงต้นทุนสูงอาจเป็นกลยุทธ์ของผู้เล่นรายใหญ่เพื่อกันคู่แข่ง ‼️ ความเสี่ยงจาก context ยาว ⛔ เมื่อ context ยาวเกิน 128k tokens จะเปลี่ยนจาก memory-bound เป็น compute-bound ⛔ ทำให้ต้นทุนเพิ่มขึ้น 2–10 เท่า ⛔ บางโมเดลจึงจำกัด context window เพื่อควบคุมต้นทุน ‼️ การตั้งราคาที่ไม่สอดคล้องกับมูลค่าจริง ⛔ การคิดราคาตาม input อาจทำให้ผู้ใช้ลดรายละเอียดใน prompt ⛔ การคิดราคาตาม output อาจทำให้ผู้ใช้รู้สึกว่าไม่คุ้มถ้าได้คำตอบสั้น https://martinalderson.com/posts/are-openai-and-anthropic-really-losing-money-on-inference/
    MARTINALDERSON.COM
    Are OpenAI and Anthropic Really Losing Money on Inference?
    Deconstructing the real costs of running AI inference at scale. My napkin math suggests the economics might be far more profitable than commonly claimed.
    0 ความคิดเห็น 0 การแบ่งปัน 125 มุมมอง 0 รีวิว
  • เมื่อความร้อนจาก AI กลายเป็นศัตรูตัวฉกาจ Google จึงตอบโต้ด้วย “น้ำ”

    ในยุคที่ AI กลายเป็นตัวขับเคลื่อนหลักของดาต้าเซ็นเตอร์ ความร้อนจากชิปประมวลผลก็พุ่งทะยานตามไปด้วย โดยเฉพาะ TPU ของ Google ที่ใช้พลังงานมหาศาลในการฝึกโมเดลขนาดใหญ่ Google จึงเปิดตัวระบบระบายความร้อนด้วยน้ำแบบเต็มรูปแบบในงาน Hot Chips 2025 ซึ่งไม่ใช่แค่ “ติดตั้งหม้อน้ำ” แต่เป็นการออกแบบใหม่ทั้งระบบตั้งแต่ระดับแร็ค

    ระบบนี้ใช้ CDU (Coolant Distribution Unit) จำนวน 6 ตัวต่อแร็ค โดย 5 ตัวทำงาน และอีก 1 ตัวเป็นสำรองเพื่อให้สามารถซ่อมบำรุงได้โดยไม่ต้องหยุดระบบ CDU ทำหน้าที่แลกเปลี่ยนความร้อนระหว่างน้ำหล่อเย็นกับระบบน้ำของอาคาร โดยไม่ให้ของเหลวทั้งสองฝั่งผสมกัน

    น้ำหล่อเย็นจะถูกส่งผ่านท่อไปยังเซิร์ฟเวอร์ TPU โดยไหลผ่านชิปแบบต่อเนื่อง (series loop) ซึ่งหมายความว่าชิปตัวท้ายจะได้รับน้ำที่ร้อนกว่าชิปตัวแรก Google จึงออกแบบระบบให้รองรับความร้อนของชิปตัวสุดท้ายเป็นหลัก และใช้ cold plate แบบ split-flow เพื่อเพิ่มประสิทธิภาพการถ่ายเทความร้อน

    ที่น่าสนใจคือ TPUv4 ของ Google ใช้การระบายความร้อนแบบ bare-die ซึ่งคล้ายกับการ “delid” ในวงการ PC enthusiast เพื่อให้ความร้อนถ่ายเทได้ดีขึ้น เพราะ TPUv4 มีการใช้พลังงานมากกว่า TPUv3 ถึง 1.6 เท่า

    Google ยังพบว่า การใช้ปั๊มน้ำกินไฟน้อยกว่าพัดลมถึง 95% เมื่อเทียบกับระบบระบายความร้อนด้วยอากาศแบบเดิม ซึ่งช่วยลดภาระด้านพลังงานของดาต้าเซ็นเตอร์ได้อย่างมหาศาล

    สรุปเนื้อหาเป็นหัวข้อ
    Google เปิดตัวระบบระบายความร้อนด้วยน้ำระดับดาต้าเซ็นเตอร์ในงาน Hot Chips 2025
    ใช้ CDU จำนวน 6 ตัวต่อแร็ค โดยมี 1 ตัวเป็นสำรองเพื่อซ่อมบำรุงโดยไม่ต้องหยุดระบบ
    CDU ทำหน้าที่แลกเปลี่ยนความร้อนระหว่างน้ำหล่อเย็นกับระบบน้ำของอาคาร
    น้ำหล่อเย็นไหลผ่านชิป TPU แบบต่อเนื่อง โดยออกแบบให้รองรับความร้อนของชิปตัวท้าย
    ใช้ cold plate แบบ split-flow เพื่อเพิ่มประสิทธิภาพการถ่ายเทความร้อน
    TPUv4 ใช้การระบายความร้อนแบบ bare-die เพื่อรองรับพลังงานที่สูงขึ้น 1.6 เท่า
    ปั๊มน้ำใช้พลังงานน้อยกว่าพัดลมถึง 95% เมื่อเทียบกับระบบระบายความร้อนด้วยอากาศ
    ระบบใช้ quick-disconnect fittings เพื่อให้ง่ายต่อการบำรุงรักษา
    มีระบบตรวจจับการรั่ว ระบบแจ้งเตือน และการบำรุงรักษาแบบมีแผนเพื่อป้องกันปัญหา
    Google ใช้การทดสอบรั่วและการตรวจสอบคุณภาพอย่างเข้มงวดก่อนใช้งานจริง

    ข้อมูลเสริมจากภายนอก
    Google เตรียมเปิดตัว CDU รุ่นที่ 5 ชื่อ Project Deschutes ในงาน OCP Summit เพื่อใช้ในแร็คระดับ 1MW
    NVIDIA GB300 และ Rebellions AI ก็ใช้ระบบระบายความร้อนด้วยน้ำในงาน Hot Chips เช่นกัน
    ระบบของ Rebellions AI ใช้ chiller และ water block สำหรับการสาธิต ML accelerator
    การระบายความร้อนด้วยน้ำมีประสิทธิภาพสูงกว่าการใช้อากาศถึง 4,000 เท่าในด้านการนำความร้อน
    ดาต้าเซ็นเตอร์ยุคใหม่ต้องออกแบบระบบระบายความร้อนควบคู่กับการจัดการพลังงานอย่างแม่นยำ

    https://chipsandcheese.com/p/googles-liquid-cooling-at-hot-chips
    💧 เมื่อความร้อนจาก AI กลายเป็นศัตรูตัวฉกาจ Google จึงตอบโต้ด้วย “น้ำ” ในยุคที่ AI กลายเป็นตัวขับเคลื่อนหลักของดาต้าเซ็นเตอร์ ความร้อนจากชิปประมวลผลก็พุ่งทะยานตามไปด้วย โดยเฉพาะ TPU ของ Google ที่ใช้พลังงานมหาศาลในการฝึกโมเดลขนาดใหญ่ Google จึงเปิดตัวระบบระบายความร้อนด้วยน้ำแบบเต็มรูปแบบในงาน Hot Chips 2025 ซึ่งไม่ใช่แค่ “ติดตั้งหม้อน้ำ” แต่เป็นการออกแบบใหม่ทั้งระบบตั้งแต่ระดับแร็ค ระบบนี้ใช้ CDU (Coolant Distribution Unit) จำนวน 6 ตัวต่อแร็ค โดย 5 ตัวทำงาน และอีก 1 ตัวเป็นสำรองเพื่อให้สามารถซ่อมบำรุงได้โดยไม่ต้องหยุดระบบ CDU ทำหน้าที่แลกเปลี่ยนความร้อนระหว่างน้ำหล่อเย็นกับระบบน้ำของอาคาร โดยไม่ให้ของเหลวทั้งสองฝั่งผสมกัน น้ำหล่อเย็นจะถูกส่งผ่านท่อไปยังเซิร์ฟเวอร์ TPU โดยไหลผ่านชิปแบบต่อเนื่อง (series loop) ซึ่งหมายความว่าชิปตัวท้ายจะได้รับน้ำที่ร้อนกว่าชิปตัวแรก Google จึงออกแบบระบบให้รองรับความร้อนของชิปตัวสุดท้ายเป็นหลัก และใช้ cold plate แบบ split-flow เพื่อเพิ่มประสิทธิภาพการถ่ายเทความร้อน ที่น่าสนใจคือ TPUv4 ของ Google ใช้การระบายความร้อนแบบ bare-die ซึ่งคล้ายกับการ “delid” ในวงการ PC enthusiast เพื่อให้ความร้อนถ่ายเทได้ดีขึ้น เพราะ TPUv4 มีการใช้พลังงานมากกว่า TPUv3 ถึง 1.6 เท่า Google ยังพบว่า การใช้ปั๊มน้ำกินไฟน้อยกว่าพัดลมถึง 95% เมื่อเทียบกับระบบระบายความร้อนด้วยอากาศแบบเดิม ซึ่งช่วยลดภาระด้านพลังงานของดาต้าเซ็นเตอร์ได้อย่างมหาศาล 📌 สรุปเนื้อหาเป็นหัวข้อ ➡️ Google เปิดตัวระบบระบายความร้อนด้วยน้ำระดับดาต้าเซ็นเตอร์ในงาน Hot Chips 2025 ➡️ ใช้ CDU จำนวน 6 ตัวต่อแร็ค โดยมี 1 ตัวเป็นสำรองเพื่อซ่อมบำรุงโดยไม่ต้องหยุดระบบ ➡️ CDU ทำหน้าที่แลกเปลี่ยนความร้อนระหว่างน้ำหล่อเย็นกับระบบน้ำของอาคาร ➡️ น้ำหล่อเย็นไหลผ่านชิป TPU แบบต่อเนื่อง โดยออกแบบให้รองรับความร้อนของชิปตัวท้าย ➡️ ใช้ cold plate แบบ split-flow เพื่อเพิ่มประสิทธิภาพการถ่ายเทความร้อน ➡️ TPUv4 ใช้การระบายความร้อนแบบ bare-die เพื่อรองรับพลังงานที่สูงขึ้น 1.6 เท่า ➡️ ปั๊มน้ำใช้พลังงานน้อยกว่าพัดลมถึง 95% เมื่อเทียบกับระบบระบายความร้อนด้วยอากาศ ➡️ ระบบใช้ quick-disconnect fittings เพื่อให้ง่ายต่อการบำรุงรักษา ➡️ มีระบบตรวจจับการรั่ว ระบบแจ้งเตือน และการบำรุงรักษาแบบมีแผนเพื่อป้องกันปัญหา ➡️ Google ใช้การทดสอบรั่วและการตรวจสอบคุณภาพอย่างเข้มงวดก่อนใช้งานจริง ✅ ข้อมูลเสริมจากภายนอก ➡️ Google เตรียมเปิดตัว CDU รุ่นที่ 5 ชื่อ Project Deschutes ในงาน OCP Summit เพื่อใช้ในแร็คระดับ 1MW ➡️ NVIDIA GB300 และ Rebellions AI ก็ใช้ระบบระบายความร้อนด้วยน้ำในงาน Hot Chips เช่นกัน ➡️ ระบบของ Rebellions AI ใช้ chiller และ water block สำหรับการสาธิต ML accelerator ➡️ การระบายความร้อนด้วยน้ำมีประสิทธิภาพสูงกว่าการใช้อากาศถึง 4,000 เท่าในด้านการนำความร้อน ➡️ ดาต้าเซ็นเตอร์ยุคใหม่ต้องออกแบบระบบระบายความร้อนควบคู่กับการจัดการพลังงานอย่างแม่นยำ https://chipsandcheese.com/p/googles-liquid-cooling-at-hot-chips
    0 ความคิดเห็น 0 การแบ่งปัน 180 มุมมอง 0 รีวิว
  • Gemini 2.5 Flash Image — เมื่อ AI เข้าใจภาพอย่างมี “ความหมาย”

    ในอดีต โมเดลสร้างภาพด้วย AI มักจะเน้นความสวยงาม แต่ขาดความเข้าใจโลกจริง เช่น ถ้าขอให้วาด “แมวถือกล้วยในร้านอาหารหรู” ก็อาจได้ภาพที่ดูดีแต่ไม่สมเหตุสมผล วันนี้ Google เปิดตัว Gemini 2.5 Flash Image ซึ่งไม่ใช่แค่สร้างภาพสวย แต่ “เข้าใจ” ว่าอะไรควรอยู่ตรงไหน และทำไม

    Gemini 2.5 Flash Image สามารถรวมหลายภาพเป็นภาพเดียวได้อย่างกลมกลืน เช่น การวางสินค้าลงในฉากใหม่ หรือเปลี่ยนโทนสีห้องด้วยภาพตัวอย่าง นอกจากนี้ยังสามารถแก้ไขภาพด้วยคำสั่งธรรมดา เช่น “ลบคนด้านหลัง” หรือ “เปลี่ยนท่าทางของตัวละคร” โดยไม่ต้องใช้เครื่องมือซับซ้อน

    สิ่งที่โดดเด่นคือความสามารถในการรักษาความสม่ำเสมอของตัวละคร เช่น ถ้าสร้างภาพตัวละครหนึ่งในฉากต่าง ๆ ตัวละครนั้นจะยังคงหน้าตา เสื้อผ้า และบุคลิกเดิมไว้ได้อย่างแม่นยำ ซึ่งเหมาะกับการสร้างแบรนด์ การ์ตูน หรือสินค้าหลายมุมมอง

    Gemini ยังใช้ความรู้จากโลกจริง เช่น การอ่านภาพวาดมือ การเข้าใจแผนภาพ และการตอบคำถามจากภาพ เพื่อสร้างแอปการเรียนรู้แบบ interactive ได้ทันที

    โมเดลนี้เปิดให้ใช้งานผ่าน Google AI Studio และ Vertex AI โดยมีราคาประมาณ $0.039 ต่อภาพ และทุกภาพจะมีลายน้ำดิจิทัล SynthID ฝังไว้แบบมองไม่เห็น เพื่อระบุว่าเป็นภาพที่สร้างหรือแก้ไขด้วย AI

    สรุปเนื้อหาเป็นหัวข้อ
    Gemini 2.5 Flash Image เป็นโมเดลสร้างและแก้ไขภาพที่ล้ำหน้าที่สุดของ Google
    รองรับการรวมหลายภาพเป็นภาพเดียว (multi-image fusion) ด้วย prompt เดียว
    สามารถแก้ไขภาพแบบเจาะจง เช่น ลบสิ่งของ เปลี่ยนท่าทาง หรือปรับสี ด้วยคำสั่งธรรมดา
    รักษาความสม่ำเสมอของตัวละครในหลายฉากได้อย่างแม่นยำ
    ใช้ความรู้จากโลกจริง เช่น การอ่านภาพวาดมือ และตอบคำถามจากภาพ
    มี template app ใน Google AI Studio สำหรับทดลองและปรับแต่งได้ทันที
    รองรับการสร้างแอปแก้ไขภาพด้วย prompt เดียว เช่น “สร้างแอปใส่ฟิลเตอร์ภาพ”
    เปิดให้ใช้งานผ่าน Gemini API, Google AI Studio และ Vertex AI
    ราคา $30 ต่อ 1 ล้าน output tokens หรือประมาณ $0.039 ต่อภาพ
    ทุกภาพมีลายน้ำ SynthID ฝังไว้เพื่อระบุว่าเป็นภาพจาก AI

    ข้อมูลเสริมจากภายนอก
    Gemini 2.5 Flash Image เป็นโมเดลแรกที่ OpenRouter รองรับการสร้างภาพโดยตรง
    ใช้สถาปัตยกรรมเดียวกับ Gemini 2.5 Flash ซึ่งเน้นความเร็วและต้นทุนต่ำ
    DeepMind ระบุว่า Gemini 2.5 มีความสามารถ reasoning ที่ดีขึ้นจาก reinforcement learning2
    โมเดลนี้สามารถรันผ่าน SDK ที่รองรับ OpenAI API เช่น openai-python และ typescript
    มีการใช้งานร่วมกับ fal.ai เพื่อขยายสู่ชุมชนนักพัฒนา generative media

    https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/
    🎨 Gemini 2.5 Flash Image — เมื่อ AI เข้าใจภาพอย่างมี “ความหมาย” ในอดีต โมเดลสร้างภาพด้วย AI มักจะเน้นความสวยงาม แต่ขาดความเข้าใจโลกจริง เช่น ถ้าขอให้วาด “แมวถือกล้วยในร้านอาหารหรู” ก็อาจได้ภาพที่ดูดีแต่ไม่สมเหตุสมผล วันนี้ Google เปิดตัว Gemini 2.5 Flash Image ซึ่งไม่ใช่แค่สร้างภาพสวย แต่ “เข้าใจ” ว่าอะไรควรอยู่ตรงไหน และทำไม Gemini 2.5 Flash Image สามารถรวมหลายภาพเป็นภาพเดียวได้อย่างกลมกลืน เช่น การวางสินค้าลงในฉากใหม่ หรือเปลี่ยนโทนสีห้องด้วยภาพตัวอย่าง นอกจากนี้ยังสามารถแก้ไขภาพด้วยคำสั่งธรรมดา เช่น “ลบคนด้านหลัง” หรือ “เปลี่ยนท่าทางของตัวละคร” โดยไม่ต้องใช้เครื่องมือซับซ้อน สิ่งที่โดดเด่นคือความสามารถในการรักษาความสม่ำเสมอของตัวละคร เช่น ถ้าสร้างภาพตัวละครหนึ่งในฉากต่าง ๆ ตัวละครนั้นจะยังคงหน้าตา เสื้อผ้า และบุคลิกเดิมไว้ได้อย่างแม่นยำ ซึ่งเหมาะกับการสร้างแบรนด์ การ์ตูน หรือสินค้าหลายมุมมอง Gemini ยังใช้ความรู้จากโลกจริง เช่น การอ่านภาพวาดมือ การเข้าใจแผนภาพ และการตอบคำถามจากภาพ เพื่อสร้างแอปการเรียนรู้แบบ interactive ได้ทันที โมเดลนี้เปิดให้ใช้งานผ่าน Google AI Studio และ Vertex AI โดยมีราคาประมาณ $0.039 ต่อภาพ และทุกภาพจะมีลายน้ำดิจิทัล SynthID ฝังไว้แบบมองไม่เห็น เพื่อระบุว่าเป็นภาพที่สร้างหรือแก้ไขด้วย AI 📌 สรุปเนื้อหาเป็นหัวข้อ ➡️ Gemini 2.5 Flash Image เป็นโมเดลสร้างและแก้ไขภาพที่ล้ำหน้าที่สุดของ Google ➡️ รองรับการรวมหลายภาพเป็นภาพเดียว (multi-image fusion) ด้วย prompt เดียว ➡️ สามารถแก้ไขภาพแบบเจาะจง เช่น ลบสิ่งของ เปลี่ยนท่าทาง หรือปรับสี ด้วยคำสั่งธรรมดา ➡️ รักษาความสม่ำเสมอของตัวละครในหลายฉากได้อย่างแม่นยำ ➡️ ใช้ความรู้จากโลกจริง เช่น การอ่านภาพวาดมือ และตอบคำถามจากภาพ ➡️ มี template app ใน Google AI Studio สำหรับทดลองและปรับแต่งได้ทันที ➡️ รองรับการสร้างแอปแก้ไขภาพด้วย prompt เดียว เช่น “สร้างแอปใส่ฟิลเตอร์ภาพ” ➡️ เปิดให้ใช้งานผ่าน Gemini API, Google AI Studio และ Vertex AI ➡️ ราคา $30 ต่อ 1 ล้าน output tokens หรือประมาณ $0.039 ต่อภาพ ➡️ ทุกภาพมีลายน้ำ SynthID ฝังไว้เพื่อระบุว่าเป็นภาพจาก AI ✅ ข้อมูลเสริมจากภายนอก ➡️ Gemini 2.5 Flash Image เป็นโมเดลแรกที่ OpenRouter รองรับการสร้างภาพโดยตรง ➡️ ใช้สถาปัตยกรรมเดียวกับ Gemini 2.5 Flash ซึ่งเน้นความเร็วและต้นทุนต่ำ ➡️ DeepMind ระบุว่า Gemini 2.5 มีความสามารถ reasoning ที่ดีขึ้นจาก reinforcement learning2 ➡️ โมเดลนี้สามารถรันผ่าน SDK ที่รองรับ OpenAI API เช่น openai-python และ typescript ➡️ มีการใช้งานร่วมกับ fal.ai เพื่อขยายสู่ชุมชนนักพัฒนา generative media https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/
    DEVELOPERS.GOOGLEBLOG.COM
    Introducing Gemini 2.5 Flash Image, our state-of-the-art image model- Google Developers Blog
    Explore Gemini 2.5 Flash Image, a powerful new image generation and editing model with advanced features and creative control.
    0 ความคิดเห็น 0 การแบ่งปัน 209 มุมมอง 0 รีวิว
  • https://youtu.be/TQ6XTpU0V3c?si=HGd5P5Vcc4f2UtLD
    https://youtu.be/TQ6XTpU0V3c?si=HGd5P5Vcc4f2UtLD
    0 ความคิดเห็น 0 การแบ่งปัน 55 มุมมอง 0 รีวิว
  • Pixel 10 กับ Tensor G5 – เมื่อ Google เลือก TSMC แทน Samsung เพื่อก้าวสู่ยุค AI บนมือถือ

    ในเดือนสิงหาคม 2025 Google เปิดตัว Pixel 10 และ Pixel 10 Pro พร้อมชิป Tensor G5 ซึ่งถือเป็นการเปลี่ยนแปลงครั้งใหญ่ในสายผลิตภัณฑ์ Pixel เพราะเป็นครั้งแรกที่ Google เลือก TSMC เป็นผู้ผลิตชิป แทนที่ Samsung ที่เคยร่วมงานกันมาตั้งแต่ Tensor รุ่นแรก

    Tensor G5 ถูกผลิตด้วยเทคโนโลยี N3P ของ TSMC ซึ่งเป็นกระบวนการระดับ 3 นาโนเมตรที่ให้ประสิทธิภาพสูงและใช้พลังงานต่ำกว่าเดิม โดย CPU เร็วขึ้น 34% และ TPU สำหรับงาน AI เร็วขึ้นถึง 60% เมื่อเทียบกับ Tensor G4

    นอกจากความเร็วแล้ว Tensor G5 ยังมาพร้อมกับความสามารถด้าน AI ที่ล้ำหน้า เช่น การรันโมเดล Gemini Nano ของ DeepMind บนเครื่องโดยไม่ต้องพึ่งคลาวด์ ทำให้ฟีเจอร์อย่าง Magic Cue, Call Notes, Voice Translate และ Gboard Smart Edit ทำงานได้เร็วและแม่นยำขึ้น

    Pixel 10 ยังมีฟีเจอร์กล้องใหม่ เช่น Add Me, Auto Best Take และ 100x Pro Res Zoom ที่ใช้โมเดล diffusion ขนาดเกือบพันล้านพารามิเตอร์ ซึ่งรันบน TPU โดยตรง พร้อมระบบ ISP ใหม่ที่ช่วยให้ถ่ายวิดีโอ 10-bit ได้แม้ในที่แสงน้อย

    การเปลี่ยนมาใช้ TSMC ไม่ใช่แค่เรื่องประสิทธิภาพ แต่ยังสะท้อนถึงความพยายามของ Google ในการควบคุมคุณภาพและความปลอดภัยของชิป ตั้งแต่การออกแบบจนถึงการผลิต โดยมีเป้าหมายเพื่อสร้างสมาร์ทโฟนที่ฉลาดและปลอดภัยที่สุดในตลาด

    สรุปเนื้อหาเป็นหัวข้อ
    Pixel 10 ใช้ชิป Tensor G5 ที่ผลิตโดย TSMC แทน Samsung
    Tensor G5 ผลิตด้วยเทคโนโลยี N3P ระดับ 3nm ที่มีประสิทธิภาพสูง
    CPU เร็วขึ้น 34% และ TPU เร็วขึ้น 60% เมื่อเทียบกับ Tensor G4
    รองรับโมเดล Gemini Nano จาก DeepMind สำหรับงาน AI บนเครื่อง
    ฟีเจอร์ AI ใหม่ เช่น Magic Cue, Call Notes, Voice Translate, Gboard Smart Edit
    ระบบกล้องใหม่รองรับ 100x Pro Res Zoom และวิดีโอ 10-bit
    Pixel 10 รองรับการชาร์จเร็ว, แบตเตอรี่ใหญ่ขึ้น และชาร์จไร้สายแบบแม่เหล็ก
    รองรับการอัปเดตซอฟต์แวร์นานถึง 7 ปี
    มีการปรับปรุงระบบควบคุมความร้อนให้ชิปทำงานที่ความถี่สูงได้โดยไม่ throttle
    ใช้ LPDDR5X และ UFS 4.0 เพื่อเพิ่มแบนด์วิดท์และความเร็วในการอ่านข้อมูล

    ข้อมูลเสริมจากภายนอก
    TSMC เป็นผู้ผลิตชิปที่มี yield สูงและการออกแบบทรานซิสเตอร์ที่แม่นยำ
    N3P เป็นการพัฒนาเพิ่มเติมจาก N3E โดยให้ประสิทธิภาพดีขึ้นแต่ยังคงความเข้ากันได้กับดีไซน์เดิม
    การเปลี่ยนมาใช้ TSMC อาจเป็นการตอบโต้ต่อปัญหาด้านประสิทธิภาพของ Samsung Foundry
    Tensor G5 ใช้สถาปัตยกรรม Matformer และ Per Layer Embedding เพื่อเพิ่มคุณภาพการตอบสนองของโมเดล
    Pixel 10 เป็นรุ่นแรกที่ใช้ diffusion model ในกล้องโดยตรงบนอุปกรณ์

    https://www.tomshardware.com/tech-industry/semiconductors/google-switches-from-samsung-to-tsmc-pixel-10-and-g5-use-tsmcs-n3p-process
    🎙️ Pixel 10 กับ Tensor G5 – เมื่อ Google เลือก TSMC แทน Samsung เพื่อก้าวสู่ยุค AI บนมือถือ ในเดือนสิงหาคม 2025 Google เปิดตัว Pixel 10 และ Pixel 10 Pro พร้อมชิป Tensor G5 ซึ่งถือเป็นการเปลี่ยนแปลงครั้งใหญ่ในสายผลิตภัณฑ์ Pixel เพราะเป็นครั้งแรกที่ Google เลือก TSMC เป็นผู้ผลิตชิป แทนที่ Samsung ที่เคยร่วมงานกันมาตั้งแต่ Tensor รุ่นแรก Tensor G5 ถูกผลิตด้วยเทคโนโลยี N3P ของ TSMC ซึ่งเป็นกระบวนการระดับ 3 นาโนเมตรที่ให้ประสิทธิภาพสูงและใช้พลังงานต่ำกว่าเดิม โดย CPU เร็วขึ้น 34% และ TPU สำหรับงาน AI เร็วขึ้นถึง 60% เมื่อเทียบกับ Tensor G4 นอกจากความเร็วแล้ว Tensor G5 ยังมาพร้อมกับความสามารถด้าน AI ที่ล้ำหน้า เช่น การรันโมเดล Gemini Nano ของ DeepMind บนเครื่องโดยไม่ต้องพึ่งคลาวด์ ทำให้ฟีเจอร์อย่าง Magic Cue, Call Notes, Voice Translate และ Gboard Smart Edit ทำงานได้เร็วและแม่นยำขึ้น Pixel 10 ยังมีฟีเจอร์กล้องใหม่ เช่น Add Me, Auto Best Take และ 100x Pro Res Zoom ที่ใช้โมเดล diffusion ขนาดเกือบพันล้านพารามิเตอร์ ซึ่งรันบน TPU โดยตรง พร้อมระบบ ISP ใหม่ที่ช่วยให้ถ่ายวิดีโอ 10-bit ได้แม้ในที่แสงน้อย การเปลี่ยนมาใช้ TSMC ไม่ใช่แค่เรื่องประสิทธิภาพ แต่ยังสะท้อนถึงความพยายามของ Google ในการควบคุมคุณภาพและความปลอดภัยของชิป ตั้งแต่การออกแบบจนถึงการผลิต โดยมีเป้าหมายเพื่อสร้างสมาร์ทโฟนที่ฉลาดและปลอดภัยที่สุดในตลาด 📌 สรุปเนื้อหาเป็นหัวข้อ ➡️ Pixel 10 ใช้ชิป Tensor G5 ที่ผลิตโดย TSMC แทน Samsung ➡️ Tensor G5 ผลิตด้วยเทคโนโลยี N3P ระดับ 3nm ที่มีประสิทธิภาพสูง ➡️ CPU เร็วขึ้น 34% และ TPU เร็วขึ้น 60% เมื่อเทียบกับ Tensor G4 ➡️ รองรับโมเดล Gemini Nano จาก DeepMind สำหรับงาน AI บนเครื่อง ➡️ ฟีเจอร์ AI ใหม่ เช่น Magic Cue, Call Notes, Voice Translate, Gboard Smart Edit ➡️ ระบบกล้องใหม่รองรับ 100x Pro Res Zoom และวิดีโอ 10-bit ➡️ Pixel 10 รองรับการชาร์จเร็ว, แบตเตอรี่ใหญ่ขึ้น และชาร์จไร้สายแบบแม่เหล็ก ➡️ รองรับการอัปเดตซอฟต์แวร์นานถึง 7 ปี ➡️ มีการปรับปรุงระบบควบคุมความร้อนให้ชิปทำงานที่ความถี่สูงได้โดยไม่ throttle ➡️ ใช้ LPDDR5X และ UFS 4.0 เพื่อเพิ่มแบนด์วิดท์และความเร็วในการอ่านข้อมูล ✅ ข้อมูลเสริมจากภายนอก ➡️ TSMC เป็นผู้ผลิตชิปที่มี yield สูงและการออกแบบทรานซิสเตอร์ที่แม่นยำ ➡️ N3P เป็นการพัฒนาเพิ่มเติมจาก N3E โดยให้ประสิทธิภาพดีขึ้นแต่ยังคงความเข้ากันได้กับดีไซน์เดิม ➡️ การเปลี่ยนมาใช้ TSMC อาจเป็นการตอบโต้ต่อปัญหาด้านประสิทธิภาพของ Samsung Foundry ➡️ Tensor G5 ใช้สถาปัตยกรรม Matformer และ Per Layer Embedding เพื่อเพิ่มคุณภาพการตอบสนองของโมเดล ➡️ Pixel 10 เป็นรุ่นแรกที่ใช้ diffusion model ในกล้องโดยตรงบนอุปกรณ์ https://www.tomshardware.com/tech-industry/semiconductors/google-switches-from-samsung-to-tsmc-pixel-10-and-g5-use-tsmcs-n3p-process
    0 ความคิดเห็น 0 การแบ่งปัน 219 มุมมอง 0 รีวิว
  • เมื่อคำสั่งสั้น ๆ ถึง AI กลายเป็นภาระต่อโลก – และการคลิกก็ไม่ไร้ผลอีกต่อไป

    Google เพิ่งเปิดเผยข้อมูลที่หลายคนรอคอยมานาน: คำสั่งข้อความหนึ่งคำสั่งที่ส่งไปยัง Gemini AI ใช้พลังงานไฟฟ้าเฉลี่ย 0.24 วัตต์-ชั่วโมง ซึ่งเทียบเท่ากับการดูทีวีประมาณ 9 วินาที และใช้น้ำประมาณ 0.26 มิลลิลิตร หรือราว 5 หยด เพื่อระบายความร้อนในศูนย์ข้อมูล

    แม้ตัวเลขจะดูเล็ก แต่เมื่อคูณกับจำนวนผู้ใช้หลายร้อยล้านคนทั่วโลก และคำสั่งที่ส่งเข้ามานับพันล้านครั้งต่อวัน ผลกระทบต่อสิ่งแวดล้อมก็เพิ่มขึ้นอย่างมหาศาล โดยเฉพาะเมื่อรวมกับพลังงานที่ใช้ในการฝึกโมเดล AI ซึ่งไม่ได้รวมอยู่ในตัวเลขนี้

    Google ระบุว่า 58% ของพลังงานถูกใช้โดยชิป TPU ที่รันโมเดล AI ส่วนอีก 25% มาจาก CPU และหน่วยความจำของเครื่องแม่ข่าย และอีก 10% จากเครื่องสำรองที่เปิดไว้เผื่อระบบล่ม ส่วนที่เหลือ 8% เป็นค่าใช้จ่ายทั่วไปของศูนย์ข้อมูล เช่น ระบบระบายความร้อนและแปลงไฟ

    แม้ Google จะพยายามลดการใช้พลังงานและคาร์บอนฟุตพริ้นต์ของ Gemini ลงถึง 33 เท่าและ 44 เท่าในช่วง 12 เดือนที่ผ่านมา แต่ผู้เชี่ยวชาญบางคนยังตั้งคำถามว่า ตัวเลขเหล่านี้อาจไม่สะท้อนความจริงทั้งหมด เพราะไม่ได้รวมการใช้น้ำทางอ้อม หรือผลกระทบจากแหล่งพลังงานที่ใช้จริงในแต่ละพื้นที่

    สรุปเนื้อหาเป็นหัวข้อ
    คำสั่งหนึ่งคำสั่งถึง Gemini AI ใช้พลังงานเฉลี่ย 0.24 วัตต์-ชั่วโมง
    เทียบเท่ากับการดูทีวีประมาณ 9 วินาที และใช้น้ำประมาณ 0.26 มิลลิลิตรเพื่อระบายความร้อน
    58% ของพลังงานใช้กับชิป TPU, 25% กับ CPU และ DRAM, 10% กับเครื่องสำรอง, 8% กับระบบศูนย์ข้อมูล
    Google ลดการใช้พลังงานและคาร์บอนฟุตพริ้นต์ของ Gemini ลง 33x และ 44x ภายใน 12 เดือน
    รายงานนี้เป็นครั้งแรกที่บริษัท AI รายใหญ่เปิดเผยข้อมูลการใช้พลังงานต่อคำสั่งอย่างละเอียด
    Google หวังให้รายงานนี้เป็นมาตรฐานใหม่ในการวัดผลกระทบสิ่งแวดล้อมของ AI
    ตัวเลขไม่รวมพลังงานจากการฝึกโมเดล, อุปกรณ์ผู้ใช้, หรือเครือข่ายภายนอก
    Gemini มีผู้ใช้งานมากกว่า 350 ล้านคนต่อเดือน ณ เดือนเมษายน 2025
    การวัดผลกระทบใช้ค่าเฉลี่ยจากศูนย์ข้อมูลทั่วโลกของ Google
    รายงานยังไม่ผ่านการ peer review แต่ Google เปิดรับข้อเสนอให้ตรวจสอบในอนาคต

    ข้อมูลเสริมจากภายนอก
    OpenAI เคยระบุว่าแต่ละคำสั่งใช้พลังงานประมาณ 0.34 วัตต์-ชั่วโมง เทียบเท่าการเปิดเตาอบ 1 วินาที
    นักวิจัยจาก MIT ระบุว่าการเปิดเผยข้อมูลนี้ช่วยให้เข้าใจผลกระทบของ AI ได้ชัดเจนขึ้น
    นักวิชาการบางคนชี้ว่า Google ใช้ “market-based” carbon measure ซึ่งอาจไม่สะท้อนผลกระทบจริงในแต่ละพื้นที่
    การใช้น้ำทางอ้อม เช่น น้ำที่ใช้ผลิตไฟฟ้า ยังไม่รวมอยู่ในตัวเลขที่รายงาน
    การใช้ AI อย่างแพร่หลายอาจทำให้ความพยายามลดคาร์บอนของบริษัทถูกกลบด้วยการใช้งานที่เพิ่มขึ้น

    https://www.thestar.com.my/tech/tech-news/2025/08/22/google-one-ai-prompt-uses-as-much-energy-as-nine-seconds-of-tv
    🎙️ เมื่อคำสั่งสั้น ๆ ถึง AI กลายเป็นภาระต่อโลก – และการคลิกก็ไม่ไร้ผลอีกต่อไป Google เพิ่งเปิดเผยข้อมูลที่หลายคนรอคอยมานาน: คำสั่งข้อความหนึ่งคำสั่งที่ส่งไปยัง Gemini AI ใช้พลังงานไฟฟ้าเฉลี่ย 0.24 วัตต์-ชั่วโมง ซึ่งเทียบเท่ากับการดูทีวีประมาณ 9 วินาที และใช้น้ำประมาณ 0.26 มิลลิลิตร หรือราว 5 หยด เพื่อระบายความร้อนในศูนย์ข้อมูล แม้ตัวเลขจะดูเล็ก แต่เมื่อคูณกับจำนวนผู้ใช้หลายร้อยล้านคนทั่วโลก และคำสั่งที่ส่งเข้ามานับพันล้านครั้งต่อวัน ผลกระทบต่อสิ่งแวดล้อมก็เพิ่มขึ้นอย่างมหาศาล โดยเฉพาะเมื่อรวมกับพลังงานที่ใช้ในการฝึกโมเดล AI ซึ่งไม่ได้รวมอยู่ในตัวเลขนี้ Google ระบุว่า 58% ของพลังงานถูกใช้โดยชิป TPU ที่รันโมเดล AI ส่วนอีก 25% มาจาก CPU และหน่วยความจำของเครื่องแม่ข่าย และอีก 10% จากเครื่องสำรองที่เปิดไว้เผื่อระบบล่ม ส่วนที่เหลือ 8% เป็นค่าใช้จ่ายทั่วไปของศูนย์ข้อมูล เช่น ระบบระบายความร้อนและแปลงไฟ แม้ Google จะพยายามลดการใช้พลังงานและคาร์บอนฟุตพริ้นต์ของ Gemini ลงถึง 33 เท่าและ 44 เท่าในช่วง 12 เดือนที่ผ่านมา แต่ผู้เชี่ยวชาญบางคนยังตั้งคำถามว่า ตัวเลขเหล่านี้อาจไม่สะท้อนความจริงทั้งหมด เพราะไม่ได้รวมการใช้น้ำทางอ้อม หรือผลกระทบจากแหล่งพลังงานที่ใช้จริงในแต่ละพื้นที่ 📌 สรุปเนื้อหาเป็นหัวข้อ ➡️ คำสั่งหนึ่งคำสั่งถึง Gemini AI ใช้พลังงานเฉลี่ย 0.24 วัตต์-ชั่วโมง ➡️ เทียบเท่ากับการดูทีวีประมาณ 9 วินาที และใช้น้ำประมาณ 0.26 มิลลิลิตรเพื่อระบายความร้อน ➡️ 58% ของพลังงานใช้กับชิป TPU, 25% กับ CPU และ DRAM, 10% กับเครื่องสำรอง, 8% กับระบบศูนย์ข้อมูล ➡️ Google ลดการใช้พลังงานและคาร์บอนฟุตพริ้นต์ของ Gemini ลง 33x และ 44x ภายใน 12 เดือน ➡️ รายงานนี้เป็นครั้งแรกที่บริษัท AI รายใหญ่เปิดเผยข้อมูลการใช้พลังงานต่อคำสั่งอย่างละเอียด ➡️ Google หวังให้รายงานนี้เป็นมาตรฐานใหม่ในการวัดผลกระทบสิ่งแวดล้อมของ AI ➡️ ตัวเลขไม่รวมพลังงานจากการฝึกโมเดล, อุปกรณ์ผู้ใช้, หรือเครือข่ายภายนอก ➡️ Gemini มีผู้ใช้งานมากกว่า 350 ล้านคนต่อเดือน ณ เดือนเมษายน 2025 ➡️ การวัดผลกระทบใช้ค่าเฉลี่ยจากศูนย์ข้อมูลทั่วโลกของ Google ➡️ รายงานยังไม่ผ่านการ peer review แต่ Google เปิดรับข้อเสนอให้ตรวจสอบในอนาคต ✅ ข้อมูลเสริมจากภายนอก ➡️ OpenAI เคยระบุว่าแต่ละคำสั่งใช้พลังงานประมาณ 0.34 วัตต์-ชั่วโมง เทียบเท่าการเปิดเตาอบ 1 วินาที ➡️ นักวิจัยจาก MIT ระบุว่าการเปิดเผยข้อมูลนี้ช่วยให้เข้าใจผลกระทบของ AI ได้ชัดเจนขึ้น ➡️ นักวิชาการบางคนชี้ว่า Google ใช้ “market-based” carbon measure ซึ่งอาจไม่สะท้อนผลกระทบจริงในแต่ละพื้นที่ ➡️ การใช้น้ำทางอ้อม เช่น น้ำที่ใช้ผลิตไฟฟ้า ยังไม่รวมอยู่ในตัวเลขที่รายงาน ➡️ การใช้ AI อย่างแพร่หลายอาจทำให้ความพยายามลดคาร์บอนของบริษัทถูกกลบด้วยการใช้งานที่เพิ่มขึ้น https://www.thestar.com.my/tech/tech-news/2025/08/22/google-one-ai-prompt-uses-as-much-energy-as-nine-seconds-of-tv
    WWW.THESTAR.COM.MY
    Google: One AI prompt uses as much energy as nine seconds of TV
    A single text prompt to Google's artificial intelligence (AI) software, Gemini, consumes roughly as much electricity as just under nine seconds of television, the company said on Aug 21.
    0 ความคิดเห็น 0 การแบ่งปัน 222 มุมมอง 0 รีวิว
  • เมื่อแชตบอตกลายเป็นช่องทางเจาะระบบ – และคำถามธรรมดาอาจเปิดประตูให้แฮกเกอร์

    Lenovo เปิดตัวแชตบอต Lena เพื่อช่วยลูกค้าในระบบสนับสนุน โดยใช้ GPT-4 เป็นแกนหลักในการตอบคำถาม แต่สิ่งที่ดูเหมือนจะเป็นนวัตกรรมกลับกลายเป็นช่องโหว่ร้ายแรง เมื่อทีมวิจัยจาก Cybernews พบว่า Lena สามารถถูกหลอกให้สร้างโค้ด HTML อันตรายผ่าน prompt เพียง 400 ตัวอักษร

    แฮกเกอร์ใช้เทคนิค prompt injection โดยเริ่มต้นด้วยคำถามเกี่ยวกับสินค้า แล้วแทรกคำสั่งให้ Lena ตอบกลับในรูปแบบ HTML พร้อมฝังโค้ด JavaScript ที่ขโมย session cookie เมื่อภาพไม่สามารถโหลดได้

    เมื่อเจ้าหน้าที่สนับสนุนเปิดดูการสนทนา โค้ดนั้นจะทำงานทันทีใน browser ของพวกเขา ทำให้แฮกเกอร์สามารถเข้าถึงระบบสนับสนุนของบริษัทได้โดยไม่ต้องเจาะระบบโดยตรง

    Melissa Ruzzi จาก AppOmni เตือนว่า AI ที่มีสิทธิ์แก้ไขข้อมูลโดยไม่มีการควบคุม อาจกลายเป็นช่องทางโจมตีที่ร้ายแรง และ Arjun Chauhan จาก Everest Group เสริมว่าองค์กรส่วนใหญ่ยังมอง AI เป็น “โครงการทดลอง” มากกว่าระบบที่ต้องมีมาตรการความปลอดภัยจริงจัง

    ช่องโหว่นี้ไม่ใช่แค่การขโมย cookie แต่สามารถนำไปสู่การติดตั้ง keylogger, redirect ไปยังเว็บ phishing หรือแม้แต่การฝัง backdoor เพื่อเคลื่อนย้ายภายในเครือข่ายองค์กร

    Lenovo ยอมรับช่องโหว่และแก้ไขทันทีหลังได้รับการแจ้งเตือนจากนักวิจัย แต่เหตุการณ์นี้สะท้อนถึง blind spot ด้านความปลอดภัยของ AI ที่องค์กรทั่วโลกกำลังเผชิญ

    สรุปเนื้อหาเป็นหัวข้อ
    Lenovo chatbot Lena ถูกพบว่ามีช่องโหว่ XSS จากการตอบสนองต่อ prompt ที่ถูกออกแบบมาอย่างเจาะจง
    ช่องโหว่เกิดจากการ sanitization ของ input และ output ที่ไม่เพียงพอ
    แฮกเกอร์สามารถฝังโค้ด JavaScript ผ่าน HTML ที่ Lena สร้างขึ้น
    โค้ดจะทำงานเมื่อเจ้าหน้าที่สนับสนุนเปิดดูการสนทนา ทำให้ session cookie ถูกขโมย
    ช่องโหว่นี้สามารถนำไปสู่การติดตั้ง keylogger, redirect ไปยังเว็บ phishing และฝัง backdoor
    Lena ใช้ GPT-4 เป็นแกนหลักในการตอบคำถามลูกค้า
    Lenovo ได้รับแจ้งจากนักวิจัยและดำเนินการแก้ไขทันที
    ผู้เชี่ยวชาญเตือนว่า AI ควรได้รับการดูแลด้านความปลอดภัยเทียบเท่ากับแอปพลิเคชันทั่วไป
    ช่องโหว่นี้สะท้อนถึง blind spot ในการออกแบบระบบ AI ที่เน้นความเร็วมากกว่าความปลอดภัย
    การโจมตีใช้ prompt เพียง 400 ตัวอักษรในการเจาะระบบ

    ข้อมูลเสริมจากภายนอก
    Cybernews และ CybersecurityNews รายงานว่า Lena สามารถรันสคริปต์บนเครื่องขององค์กรได้
    ช่องโหว่สามารถขยายผลไปยังระบบอื่นในเครือข่ายผ่าน lateral movement
    OWASP จัด prompt injection เป็นช่องโหว่อันดับหนึ่งใน AI systems
    ปริมาณ bot traffic แซงหน้าการใช้งานของมนุษย์ในปี 2024 คิดเป็น 51% ของทั้งหมด
    การป้องกันต้องใช้ CSP headers, whitelisting, และ context-aware validation

    https://www.csoonline.com/article/4043005/lenovo-chatbot-breach-highlights-ai-security-blind-spots-in-customer-facing-systems.html
    🎙️ เมื่อแชตบอตกลายเป็นช่องทางเจาะระบบ – และคำถามธรรมดาอาจเปิดประตูให้แฮกเกอร์ Lenovo เปิดตัวแชตบอต Lena เพื่อช่วยลูกค้าในระบบสนับสนุน โดยใช้ GPT-4 เป็นแกนหลักในการตอบคำถาม แต่สิ่งที่ดูเหมือนจะเป็นนวัตกรรมกลับกลายเป็นช่องโหว่ร้ายแรง เมื่อทีมวิจัยจาก Cybernews พบว่า Lena สามารถถูกหลอกให้สร้างโค้ด HTML อันตรายผ่าน prompt เพียง 400 ตัวอักษร แฮกเกอร์ใช้เทคนิค prompt injection โดยเริ่มต้นด้วยคำถามเกี่ยวกับสินค้า แล้วแทรกคำสั่งให้ Lena ตอบกลับในรูปแบบ HTML พร้อมฝังโค้ด JavaScript ที่ขโมย session cookie เมื่อภาพไม่สามารถโหลดได้ เมื่อเจ้าหน้าที่สนับสนุนเปิดดูการสนทนา โค้ดนั้นจะทำงานทันทีใน browser ของพวกเขา ทำให้แฮกเกอร์สามารถเข้าถึงระบบสนับสนุนของบริษัทได้โดยไม่ต้องเจาะระบบโดยตรง Melissa Ruzzi จาก AppOmni เตือนว่า AI ที่มีสิทธิ์แก้ไขข้อมูลโดยไม่มีการควบคุม อาจกลายเป็นช่องทางโจมตีที่ร้ายแรง และ Arjun Chauhan จาก Everest Group เสริมว่าองค์กรส่วนใหญ่ยังมอง AI เป็น “โครงการทดลอง” มากกว่าระบบที่ต้องมีมาตรการความปลอดภัยจริงจัง ช่องโหว่นี้ไม่ใช่แค่การขโมย cookie แต่สามารถนำไปสู่การติดตั้ง keylogger, redirect ไปยังเว็บ phishing หรือแม้แต่การฝัง backdoor เพื่อเคลื่อนย้ายภายในเครือข่ายองค์กร Lenovo ยอมรับช่องโหว่และแก้ไขทันทีหลังได้รับการแจ้งเตือนจากนักวิจัย แต่เหตุการณ์นี้สะท้อนถึง blind spot ด้านความปลอดภัยของ AI ที่องค์กรทั่วโลกกำลังเผชิญ 📌 สรุปเนื้อหาเป็นหัวข้อ ➡️ Lenovo chatbot Lena ถูกพบว่ามีช่องโหว่ XSS จากการตอบสนองต่อ prompt ที่ถูกออกแบบมาอย่างเจาะจง ➡️ ช่องโหว่เกิดจากการ sanitization ของ input และ output ที่ไม่เพียงพอ ➡️ แฮกเกอร์สามารถฝังโค้ด JavaScript ผ่าน HTML ที่ Lena สร้างขึ้น ➡️ โค้ดจะทำงานเมื่อเจ้าหน้าที่สนับสนุนเปิดดูการสนทนา ทำให้ session cookie ถูกขโมย ➡️ ช่องโหว่นี้สามารถนำไปสู่การติดตั้ง keylogger, redirect ไปยังเว็บ phishing และฝัง backdoor ➡️ Lena ใช้ GPT-4 เป็นแกนหลักในการตอบคำถามลูกค้า ➡️ Lenovo ได้รับแจ้งจากนักวิจัยและดำเนินการแก้ไขทันที ➡️ ผู้เชี่ยวชาญเตือนว่า AI ควรได้รับการดูแลด้านความปลอดภัยเทียบเท่ากับแอปพลิเคชันทั่วไป ➡️ ช่องโหว่นี้สะท้อนถึง blind spot ในการออกแบบระบบ AI ที่เน้นความเร็วมากกว่าความปลอดภัย ➡️ การโจมตีใช้ prompt เพียง 400 ตัวอักษรในการเจาะระบบ ✅ ข้อมูลเสริมจากภายนอก ➡️ Cybernews และ CybersecurityNews รายงานว่า Lena สามารถรันสคริปต์บนเครื่องขององค์กรได้ ➡️ ช่องโหว่สามารถขยายผลไปยังระบบอื่นในเครือข่ายผ่าน lateral movement ➡️ OWASP จัด prompt injection เป็นช่องโหว่อันดับหนึ่งใน AI systems ➡️ ปริมาณ bot traffic แซงหน้าการใช้งานของมนุษย์ในปี 2024 คิดเป็น 51% ของทั้งหมด ➡️ การป้องกันต้องใช้ CSP headers, whitelisting, และ context-aware validation https://www.csoonline.com/article/4043005/lenovo-chatbot-breach-highlights-ai-security-blind-spots-in-customer-facing-systems.html
    WWW.CSOONLINE.COM
    Lenovo chatbot breach highlights AI security blind spots in customer-facing systems
    Experts say the vulnerability in Lenovo’s GPT-4-powered chatbot reflects a broader enterprise trend: deploying AI tools without applying the same security rigor as traditional applications.
    0 ความคิดเห็น 0 การแบ่งปัน 215 มุมมอง 0 รีวิว
  • Tensor G5 – ชิป 3nm ตัวแรกจาก Google ที่ไม่ใช่แค่เร็ว แต่ฉลาดขึ้นอย่างมีนัย

    Google เปิดตัวชิป Tensor G5 พร้อมกับ Pixel 10 Series ซึ่งถือเป็นก้าวสำคัญของบริษัทในด้านฮาร์ดแวร์ เพราะนี่คือชิปแรกที่ผลิตด้วยเทคโนโลยี 3nm โดย TSMC แทนที่จะใช้โรงงานของ Samsung เหมือนรุ่นก่อนหน้า

    Tensor G5 ไม่ได้เน้นแค่ความเร็ว แต่ถูกออกแบบเพื่อรองรับงาน AI โดยเฉพาะ โดยมีการปรับโครงสร้าง CPU เป็นแบบ 1+5+2 (1 core แรง, 5 core กลาง, 2 core ประหยัดพลังงาน) และมีความเร็วสูงสุดถึง 3.78GHz จากผลทดสอบ Geekbench

    Google เคลมว่า Tensor G5 เร็วขึ้น 34% โดยเฉลี่ยเมื่อเทียบกับ Tensor G4 และ TPU (หน่วยประมวลผล AI) ก็แรงขึ้นถึง 60% ซึ่งช่วยให้ Gemini Nano รุ่นใหม่ทำงานเร็วขึ้น 2.6 เท่า และประหยัดพลังงานมากขึ้น

    ชิปนี้ยังรองรับ context window ขนาด 32,000 token ซึ่งเทียบเท่ากับการประมวลผลข้อมูลจากอีเมลทั้งเดือนหรือภาพหน้าจอ 100 ภาพ ทำให้ฟีเจอร์ AI อย่าง Magic Cue, Call Notes, Scam Detection และ Camera Coach ทำงานได้แบบเรียลไทม์โดยไม่ต้องพึ่งคลาวด์

    ด้านกราฟิก แม้จะมีการอัปเกรด GPU แต่ Tensor G5 ยังไม่รองรับ ray tracing ซึ่งทำให้ยังตามหลังคู่แข่งในด้านเกมมือถือ ส่วน ISP (Image Signal Processor) ก็ได้รับการปรับปรุงให้รองรับ 10-bit HDR และลดการเบลอในวิดีโอแสงน้อย

    Pixel 10 Series ที่ใช้ Tensor G5 มีให้เลือกหลายรุ่น ตั้งแต่ Pixel 10 ธรรมดาไปจนถึง Pixel 10 Pro Fold โดยมีราคาเริ่มต้นที่ $799 และมีโปรโมชั่นแจกบัตรของขวัญสูงสุดถึง $300

    สรุปเนื้อหาเป็นหัวข้อ
    Tensor G5 เป็นชิป 3nm ตัวแรกจาก Google ผลิตโดย TSMC
    ใช้โครงสร้าง CPU แบบ 1+5+2 และความเร็วสูงสุด 3.78GHz
    เร็วขึ้น 34% โดยเฉลี่ยจาก Tensor G4 และ TPU แรงขึ้น 60%
    Gemini Nano ทำงานเร็วขึ้น 2.6 เท่าและประหยัดพลังงานมากขึ้น
    รองรับ context window ขนาด 32,000 token สำหรับงาน AI
    ฟีเจอร์ AI ใหม่ เช่น Magic Cue, Scam Detection, Journal, Call Notes
    GPU อัปเกรดแต่ไม่รองรับ ray tracing
    ISP รองรับ 10-bit HDR และลดเบลอในวิดีโอแสงน้อย
    Pixel 10 Series มีรุ่นธรรมดา, Pro, Pro XL และ Pro Fold
    ราคาเริ่มต้น $799 พร้อมบัตรของขวัญสูงสุด $300

    ข้อมูลเสริมจากภายนอก
    Tensor G5 ใช้ LPDDR5X และ UFS 4.0 เพื่อเพิ่มแบนด์วิดท์และความเร็ว
    ใช้สถาปัตยกรรม Matryoshka Transformer และ Per Layer Embedding
    Pixel 10 รองรับ Android 16 และอัปเดตนาน 7 ปี
    Pixel 10 Pro มี vapor chamber cooling แต่รุ่นธรรมดาใช้ graphene
    Pixel 10 รองรับ Qi2 wireless charging และมีจอ Actua 120Hz

    https://wccftech.com/tensor-g5-goes-official-first-3nm-chipset-from-google/
    🎙️ Tensor G5 – ชิป 3nm ตัวแรกจาก Google ที่ไม่ใช่แค่เร็ว แต่ฉลาดขึ้นอย่างมีนัย Google เปิดตัวชิป Tensor G5 พร้อมกับ Pixel 10 Series ซึ่งถือเป็นก้าวสำคัญของบริษัทในด้านฮาร์ดแวร์ เพราะนี่คือชิปแรกที่ผลิตด้วยเทคโนโลยี 3nm โดย TSMC แทนที่จะใช้โรงงานของ Samsung เหมือนรุ่นก่อนหน้า Tensor G5 ไม่ได้เน้นแค่ความเร็ว แต่ถูกออกแบบเพื่อรองรับงาน AI โดยเฉพาะ โดยมีการปรับโครงสร้าง CPU เป็นแบบ 1+5+2 (1 core แรง, 5 core กลาง, 2 core ประหยัดพลังงาน) และมีความเร็วสูงสุดถึง 3.78GHz จากผลทดสอบ Geekbench Google เคลมว่า Tensor G5 เร็วขึ้น 34% โดยเฉลี่ยเมื่อเทียบกับ Tensor G4 และ TPU (หน่วยประมวลผล AI) ก็แรงขึ้นถึง 60% ซึ่งช่วยให้ Gemini Nano รุ่นใหม่ทำงานเร็วขึ้น 2.6 เท่า และประหยัดพลังงานมากขึ้น ชิปนี้ยังรองรับ context window ขนาด 32,000 token ซึ่งเทียบเท่ากับการประมวลผลข้อมูลจากอีเมลทั้งเดือนหรือภาพหน้าจอ 100 ภาพ ทำให้ฟีเจอร์ AI อย่าง Magic Cue, Call Notes, Scam Detection และ Camera Coach ทำงานได้แบบเรียลไทม์โดยไม่ต้องพึ่งคลาวด์ ด้านกราฟิก แม้จะมีการอัปเกรด GPU แต่ Tensor G5 ยังไม่รองรับ ray tracing ซึ่งทำให้ยังตามหลังคู่แข่งในด้านเกมมือถือ ส่วน ISP (Image Signal Processor) ก็ได้รับการปรับปรุงให้รองรับ 10-bit HDR และลดการเบลอในวิดีโอแสงน้อย Pixel 10 Series ที่ใช้ Tensor G5 มีให้เลือกหลายรุ่น ตั้งแต่ Pixel 10 ธรรมดาไปจนถึง Pixel 10 Pro Fold โดยมีราคาเริ่มต้นที่ $799 และมีโปรโมชั่นแจกบัตรของขวัญสูงสุดถึง $300 📌 สรุปเนื้อหาเป็นหัวข้อ ➡️ Tensor G5 เป็นชิป 3nm ตัวแรกจาก Google ผลิตโดย TSMC ➡️ ใช้โครงสร้าง CPU แบบ 1+5+2 และความเร็วสูงสุด 3.78GHz ➡️ เร็วขึ้น 34% โดยเฉลี่ยจาก Tensor G4 และ TPU แรงขึ้น 60% ➡️ Gemini Nano ทำงานเร็วขึ้น 2.6 เท่าและประหยัดพลังงานมากขึ้น ➡️ รองรับ context window ขนาด 32,000 token สำหรับงาน AI ➡️ ฟีเจอร์ AI ใหม่ เช่น Magic Cue, Scam Detection, Journal, Call Notes ➡️ GPU อัปเกรดแต่ไม่รองรับ ray tracing ➡️ ISP รองรับ 10-bit HDR และลดเบลอในวิดีโอแสงน้อย ➡️ Pixel 10 Series มีรุ่นธรรมดา, Pro, Pro XL และ Pro Fold ➡️ ราคาเริ่มต้น $799 พร้อมบัตรของขวัญสูงสุด $300 ✅ ข้อมูลเสริมจากภายนอก ➡️ Tensor G5 ใช้ LPDDR5X และ UFS 4.0 เพื่อเพิ่มแบนด์วิดท์และความเร็ว ➡️ ใช้สถาปัตยกรรม Matryoshka Transformer และ Per Layer Embedding ➡️ Pixel 10 รองรับ Android 16 และอัปเดตนาน 7 ปี ➡️ Pixel 10 Pro มี vapor chamber cooling แต่รุ่นธรรมดาใช้ graphene ➡️ Pixel 10 รองรับ Qi2 wireless charging และมีจอ Actua 120Hz https://wccftech.com/tensor-g5-goes-official-first-3nm-chipset-from-google/
    WCCFTECH.COM
    Google Has Announced Its First 3nm Chipset, The Tensor G5, Alongside The Pixel 10 Series; Company Claims A 34 Percent Average Performance Increase Over The Tensor G4, No RT Support & More
    Google has officially announced its first 3nm SoC, the Tensor G5, and here is everything you need to know about the flagship silicon
    0 ความคิดเห็น 0 การแบ่งปัน 210 มุมมอง 0 รีวิว
  • Nvidia ยังนำ แต่คู่แข่งกำลังไล่ – เมื่อ AI ต้องเลือกมากกว่าความแรง

    ในโลกของ AI ที่ต้องการพลังการประมวลผลมหาศาล Nvidia ยังคงเป็นผู้นำด้านฮาร์ดแวร์ โดยเฉพาะ GPU ที่ใช้ในการฝึกโมเดลขนาดใหญ่ แต่ผลการสำรวจล่าสุดจาก Liquid Web ในเดือนสิงหาคม 2025 พบว่าเกือบหนึ่งในสามของทีม AI เริ่มหันไปใช้ฮาร์ดแวร์จาก Google, AMD และ Intel แทน

    เหตุผลหลักคือ “ต้นทุน” และ “ความพร้อมใช้งาน” ที่เริ่มกลายเป็นอุปสรรคสำคัญ ทีมงานหลายแห่งต้องลดขนาดโครงการ หรือยกเลิกไปเลย เพราะไม่สามารถจัดหาฮาร์ดแวร์ Nvidia ได้ทันเวลา หรือมีงบประมาณไม่พอ

    แม้ว่า 68% ของทีมยังคงเลือก Nvidia เป็นหลัก แต่มีถึง 28% ที่ยอมรับว่าไม่ได้เปรียบเทียบทางเลือกอื่นอย่างจริงจังก่อนตัดสินใจ ซึ่งนำไปสู่การติดตั้งระบบที่ไม่เหมาะสม และประสิทธิภาพต่ำกว่าที่ควร

    นอกจากนี้ การใช้ระบบแบบ hybrid และ cloud ก็เพิ่มขึ้นอย่างต่อเนื่อง โดยมากกว่าครึ่งของทีม AI ใช้ทั้งระบบในองค์กรและคลาวด์ร่วมกัน เพื่อหลีกเลี่ยงปัญหาด้านพลังงานและการจัดการ GPU แบบแบ่งส่วน

    สรุปเนื้อหาเป็นหัวข้อ
    Nvidia ยังคงเป็นผู้นำด้านฮาร์ดแวร์ AI โดยมีผู้ใช้ถึง 68% จากการสำรวจ
    เกือบหนึ่งในสามของทีม AI เริ่มใช้ฮาร์ดแวร์จาก Google, AMD และ Intel
    เหตุผลหลักคือข้อจำกัดด้านงบประมาณและการขาดแคลน GPU
    42% ของทีมต้องลดขนาดโครงการ และ 14% ยกเลิกโครงการเพราะต้นทุน
    28% ของผู้ตอบแบบสอบถามยอมรับว่าไม่ได้เปรียบเทียบทางเลือกอื่นก่อนซื้อ
    การขาดการทดสอบนำไปสู่ระบบที่ไม่เหมาะสมและประสิทธิภาพต่ำ
    มากกว่าครึ่งของทีมใช้ระบบ hybrid และ cloud เพื่อเสริมความยืดหยุ่น
    Dedicated GPU hosting ถูกมองว่าเป็นทางเลือกที่ลดการสูญเสียประสิทธิภาพ
    แม้ 45% ให้ความสำคัญกับการใช้พลังงานอย่างมีประสิทธิภาพ แต่มีเพียง 13% ที่ปรับระบบเพื่อประหยัดพลังงานจริง
    ความคุ้นเคยและประสบการณ์เดิมเป็นปัจจัยหลักในการเลือก GPU มากกว่าประสิทธิภาพหรือราคา

    ข้อมูลเสริมจากภายนอก
    Google TPU ถูกใช้โดย OpenAI และบริษัทใหญ่หลายแห่งเพื่อหลีกเลี่ยงต้นทุน Nvidia
    AMD เข้าซื้อกิจการหลายแห่งเพื่อพัฒนา Instinct GPU ให้ใกล้เคียงกับ Nvidia Blackwell
    Intel พัฒนา Gaudi2 และ Gaudi3 เพื่อเจาะตลาด AI โดยเน้นราคาต่ำและประสิทธิภาพเฉพาะทาง
    Nvidia เปิดตัว Cosmos Reason และ NuRec ที่ SIGGRAPH 2025 เพื่อเสริมการประมวลผล AI เชิงกายภาพ
    การแข่งขันด้านฮาร์ดแวร์ AI ส่งผลต่อการพัฒนาโมเดลใหม่ เช่น diffusion, LLM และ vision AI

    https://www.techradar.com/pro/google-amd-and-intel-catching-up-on-nvidia-survey-shows-almost-a-third-of-ai-teams-now-use-non-nvidia-hardware
    🎙️ Nvidia ยังนำ แต่คู่แข่งกำลังไล่ – เมื่อ AI ต้องเลือกมากกว่าความแรง ในโลกของ AI ที่ต้องการพลังการประมวลผลมหาศาล Nvidia ยังคงเป็นผู้นำด้านฮาร์ดแวร์ โดยเฉพาะ GPU ที่ใช้ในการฝึกโมเดลขนาดใหญ่ แต่ผลการสำรวจล่าสุดจาก Liquid Web ในเดือนสิงหาคม 2025 พบว่าเกือบหนึ่งในสามของทีม AI เริ่มหันไปใช้ฮาร์ดแวร์จาก Google, AMD และ Intel แทน เหตุผลหลักคือ “ต้นทุน” และ “ความพร้อมใช้งาน” ที่เริ่มกลายเป็นอุปสรรคสำคัญ ทีมงานหลายแห่งต้องลดขนาดโครงการ หรือยกเลิกไปเลย เพราะไม่สามารถจัดหาฮาร์ดแวร์ Nvidia ได้ทันเวลา หรือมีงบประมาณไม่พอ แม้ว่า 68% ของทีมยังคงเลือก Nvidia เป็นหลัก แต่มีถึง 28% ที่ยอมรับว่าไม่ได้เปรียบเทียบทางเลือกอื่นอย่างจริงจังก่อนตัดสินใจ ซึ่งนำไปสู่การติดตั้งระบบที่ไม่เหมาะสม และประสิทธิภาพต่ำกว่าที่ควร นอกจากนี้ การใช้ระบบแบบ hybrid และ cloud ก็เพิ่มขึ้นอย่างต่อเนื่อง โดยมากกว่าครึ่งของทีม AI ใช้ทั้งระบบในองค์กรและคลาวด์ร่วมกัน เพื่อหลีกเลี่ยงปัญหาด้านพลังงานและการจัดการ GPU แบบแบ่งส่วน 📌 สรุปเนื้อหาเป็นหัวข้อ ➡️ Nvidia ยังคงเป็นผู้นำด้านฮาร์ดแวร์ AI โดยมีผู้ใช้ถึง 68% จากการสำรวจ ➡️ เกือบหนึ่งในสามของทีม AI เริ่มใช้ฮาร์ดแวร์จาก Google, AMD และ Intel ➡️ เหตุผลหลักคือข้อจำกัดด้านงบประมาณและการขาดแคลน GPU ➡️ 42% ของทีมต้องลดขนาดโครงการ และ 14% ยกเลิกโครงการเพราะต้นทุน ➡️ 28% ของผู้ตอบแบบสอบถามยอมรับว่าไม่ได้เปรียบเทียบทางเลือกอื่นก่อนซื้อ ➡️ การขาดการทดสอบนำไปสู่ระบบที่ไม่เหมาะสมและประสิทธิภาพต่ำ ➡️ มากกว่าครึ่งของทีมใช้ระบบ hybrid และ cloud เพื่อเสริมความยืดหยุ่น ➡️ Dedicated GPU hosting ถูกมองว่าเป็นทางเลือกที่ลดการสูญเสียประสิทธิภาพ ➡️ แม้ 45% ให้ความสำคัญกับการใช้พลังงานอย่างมีประสิทธิภาพ แต่มีเพียง 13% ที่ปรับระบบเพื่อประหยัดพลังงานจริง ➡️ ความคุ้นเคยและประสบการณ์เดิมเป็นปัจจัยหลักในการเลือก GPU มากกว่าประสิทธิภาพหรือราคา ✅ ข้อมูลเสริมจากภายนอก ➡️ Google TPU ถูกใช้โดย OpenAI และบริษัทใหญ่หลายแห่งเพื่อหลีกเลี่ยงต้นทุน Nvidia ➡️ AMD เข้าซื้อกิจการหลายแห่งเพื่อพัฒนา Instinct GPU ให้ใกล้เคียงกับ Nvidia Blackwell ➡️ Intel พัฒนา Gaudi2 และ Gaudi3 เพื่อเจาะตลาด AI โดยเน้นราคาต่ำและประสิทธิภาพเฉพาะทาง ➡️ Nvidia เปิดตัว Cosmos Reason และ NuRec ที่ SIGGRAPH 2025 เพื่อเสริมการประมวลผล AI เชิงกายภาพ ➡️ การแข่งขันด้านฮาร์ดแวร์ AI ส่งผลต่อการพัฒนาโมเดลใหม่ เช่น diffusion, LLM และ vision AI https://www.techradar.com/pro/google-amd-and-intel-catching-up-on-nvidia-survey-shows-almost-a-third-of-ai-teams-now-use-non-nvidia-hardware
    WWW.TECHRADAR.COM
    Rising costs push AI developers to weigh Google, AMD, and Intel hardware alongside Nvidia
    Rising costs, hardware shortages, and cloud adoption are pushing teams to test alternatives
    0 ความคิดเห็น 0 การแบ่งปัน 255 มุมมอง 0 รีวิว
  • เรื่องเล่าใหม่: GPU ไม่ใช่แค่การ์ดจอ – แต่คือเครื่องจักรแห่งการเรียนรู้ของ AI

    ในยุคที่ AI ใหญ่ขึ้นทุกวัน การเข้าใจว่า GPU ทำงานอย่างไรจึงสำคัญมาก โดยเฉพาะเมื่อเปรียบเทียบกับ TPU ที่ Google ใช้กันอย่างแพร่หลาย

    GPU สมัยใหม่ เช่น NVIDIA H100, B200 และ GB200 NVL72 ไม่ได้เป็นแค่การ์ดจอสำหรับเล่นเกมอีกต่อไป แต่กลายเป็นเครื่องมือหลักในการฝึกและรันโมเดลขนาดใหญ่ (LLMs) ด้วยพลังการคำนวณมหาศาลจาก Tensor Core ที่ออกแบบมาเพื่อการคูณเมทริกซ์โดยเฉพาะ

    แต่ละ GPU ประกอบด้วยหลาย SM (Streaming Multiprocessor) ซึ่งใน H100 มีถึง 132 SM และใน B200 มี 148 SM โดยแต่ละ SM มี Tensor Core, Warp Scheduler และ CUDA Cores ที่ทำงานแบบ SIMD/SIMT เพื่อประมวลผลแบบขนาน

    GPU ยังมีระบบหน่วยความจำหลายระดับ ตั้งแต่ Register, SMEM (L1 cache), L2 cache ไปจนถึง HBM (High Bandwidth Memory) ซึ่งใน B200 มีถึง 192GB และแบนด์วิดท์สูงถึง 9TB/s

    นอกจากนี้ยังมีระบบเครือข่ายภายในและระหว่าง GPU ที่ซับซ้อน เช่น NVLink, NVSwitch และ InfiniBand ที่ช่วยให้ GPU หลายตัวทำงานร่วมกันได้อย่างมีประสิทธิภาพ โดยเฉพาะในระบบ DGX SuperPod ที่สามารถเชื่อมต่อ GPU ได้ถึง 1024 ตัว

    GPU ยังรองรับการทำงานแบบ parallelism หลายรูปแบบ เช่น data parallelism, tensor parallelism, expert parallelism และ pipeline parallelism ซึ่งแต่ละแบบมีข้อดีข้อเสียต่างกัน และต้องเลือกใช้ให้เหมาะกับขนาดและโครงสร้างของโมเดล

    ข้อมูลในข่าว
    GPU สมัยใหม่เช่น H100 และ B200 มี Tensor Core สำหรับคูณเมทริกซ์โดยเฉพาะ
    H100 มี 132 SM ส่วน B200 มี 148 SM แต่ละ SM มี Tensor Core, Warp Scheduler และ CUDA Cores
    หน่วยความจำของ GPU มีหลายระดับ: Register, SMEM, L2 cache และ HBM
    B200 มี HBM ขนาด 192GB และแบนด์วิดท์ 9TB/s
    ระบบเครือข่ายภายในใช้ NVLink และ NVSwitch เชื่อม GPU ภายใน node
    ระบบเครือข่ายระหว่าง node ใช้ InfiniBand แบบ fat tree topology
    DGX SuperPod สามารถเชื่อม GPU ได้ถึง 1024 ตัว
    GPU รองรับ parallelism หลายแบบ: data, tensor, expert และ pipeline
    NVIDIA SHARP ช่วยให้การทำ AllReduce มีประสิทธิภาพมากขึ้น
    GB200 NVL72 มี node ขนาดใหญ่ขึ้น (72 GPU) และแบนด์วิดท์สูงถึง 3.6TB/s

    ข้อมูลเสริมจากภายนอก
    RTX PRO 4000 Blackwell SFF เปิดตัวเมื่อ 11 ส.ค. 2025 มี Tensor Core รุ่นที่ 5
    ใช้สถาปัตยกรรม Blackwell 2.0 บนกระบวนการผลิต 5nm โดย TSMC
    มี 8960 CUDA cores และ 280 Tensor cores พร้อม GDDR7 ขนาด 24GB
    ประสิทธิภาพ AI สูงขึ้น 2.5 เท่าเมื่อเทียบกับรุ่นก่อน
    ใช้พลังงานเพียง 70W เหมาะกับเวิร์กสเตชันขนาดเล็ก
    รองรับ PCIe 5.0 x8 และ DisplayPort 2.1b

    https://jax-ml.github.io/scaling-book/gpus/
    🧠 เรื่องเล่าใหม่: GPU ไม่ใช่แค่การ์ดจอ – แต่คือเครื่องจักรแห่งการเรียนรู้ของ AI ในยุคที่ AI ใหญ่ขึ้นทุกวัน การเข้าใจว่า GPU ทำงานอย่างไรจึงสำคัญมาก โดยเฉพาะเมื่อเปรียบเทียบกับ TPU ที่ Google ใช้กันอย่างแพร่หลาย GPU สมัยใหม่ เช่น NVIDIA H100, B200 และ GB200 NVL72 ไม่ได้เป็นแค่การ์ดจอสำหรับเล่นเกมอีกต่อไป แต่กลายเป็นเครื่องมือหลักในการฝึกและรันโมเดลขนาดใหญ่ (LLMs) ด้วยพลังการคำนวณมหาศาลจาก Tensor Core ที่ออกแบบมาเพื่อการคูณเมทริกซ์โดยเฉพาะ แต่ละ GPU ประกอบด้วยหลาย SM (Streaming Multiprocessor) ซึ่งใน H100 มีถึง 132 SM และใน B200 มี 148 SM โดยแต่ละ SM มี Tensor Core, Warp Scheduler และ CUDA Cores ที่ทำงานแบบ SIMD/SIMT เพื่อประมวลผลแบบขนาน GPU ยังมีระบบหน่วยความจำหลายระดับ ตั้งแต่ Register, SMEM (L1 cache), L2 cache ไปจนถึง HBM (High Bandwidth Memory) ซึ่งใน B200 มีถึง 192GB และแบนด์วิดท์สูงถึง 9TB/s นอกจากนี้ยังมีระบบเครือข่ายภายในและระหว่าง GPU ที่ซับซ้อน เช่น NVLink, NVSwitch และ InfiniBand ที่ช่วยให้ GPU หลายตัวทำงานร่วมกันได้อย่างมีประสิทธิภาพ โดยเฉพาะในระบบ DGX SuperPod ที่สามารถเชื่อมต่อ GPU ได้ถึง 1024 ตัว GPU ยังรองรับการทำงานแบบ parallelism หลายรูปแบบ เช่น data parallelism, tensor parallelism, expert parallelism และ pipeline parallelism ซึ่งแต่ละแบบมีข้อดีข้อเสียต่างกัน และต้องเลือกใช้ให้เหมาะกับขนาดและโครงสร้างของโมเดล ✅ ข้อมูลในข่าว ➡️ GPU สมัยใหม่เช่น H100 และ B200 มี Tensor Core สำหรับคูณเมทริกซ์โดยเฉพาะ ➡️ H100 มี 132 SM ส่วน B200 มี 148 SM แต่ละ SM มี Tensor Core, Warp Scheduler และ CUDA Cores ➡️ หน่วยความจำของ GPU มีหลายระดับ: Register, SMEM, L2 cache และ HBM ➡️ B200 มี HBM ขนาด 192GB และแบนด์วิดท์ 9TB/s ➡️ ระบบเครือข่ายภายในใช้ NVLink และ NVSwitch เชื่อม GPU ภายใน node ➡️ ระบบเครือข่ายระหว่าง node ใช้ InfiniBand แบบ fat tree topology ➡️ DGX SuperPod สามารถเชื่อม GPU ได้ถึง 1024 ตัว ➡️ GPU รองรับ parallelism หลายแบบ: data, tensor, expert และ pipeline ➡️ NVIDIA SHARP ช่วยให้การทำ AllReduce มีประสิทธิภาพมากขึ้น ➡️ GB200 NVL72 มี node ขนาดใหญ่ขึ้น (72 GPU) และแบนด์วิดท์สูงถึง 3.6TB/s ✅ ข้อมูลเสริมจากภายนอก ➡️ RTX PRO 4000 Blackwell SFF เปิดตัวเมื่อ 11 ส.ค. 2025 มี Tensor Core รุ่นที่ 5 ➡️ ใช้สถาปัตยกรรม Blackwell 2.0 บนกระบวนการผลิต 5nm โดย TSMC ➡️ มี 8960 CUDA cores และ 280 Tensor cores พร้อม GDDR7 ขนาด 24GB ➡️ ประสิทธิภาพ AI สูงขึ้น 2.5 เท่าเมื่อเทียบกับรุ่นก่อน ➡️ ใช้พลังงานเพียง 70W เหมาะกับเวิร์กสเตชันขนาดเล็ก ➡️ รองรับ PCIe 5.0 x8 และ DisplayPort 2.1b https://jax-ml.github.io/scaling-book/gpus/
    0 ความคิดเห็น 0 การแบ่งปัน 197 มุมมอง 0 รีวิว
  • #ร่วมบริจาคปัจจัยสนับสนุนรั้วลวดหนามหีบเพลง

    https://youtube.com/watch?v=r1klwQGLPuk&si=g_sVYttPuaeWyGjG
    #ร่วมบริจาคปัจจัยสนับสนุนรั้วลวดหนามหีบเพลง https://youtube.com/watch?v=r1klwQGLPuk&si=g_sVYttPuaeWyGjG
    0 ความคิดเห็น 0 การแบ่งปัน 265 มุมมอง 0 รีวิว
  • เรื่องเล่าจากวงการชิป: Oxmiq Labs กับภารกิจพลิกโฉม GPU ด้วย RISC-V และซอฟต์แวร์ที่ไม่ผูกกับฮาร์ดแวร์

    Raja Koduri อดีตหัวหน้าฝ่ายกราฟิกของ Intel, AMD และ Apple ได้เปิดตัวสตาร์ทอัพใหม่ชื่อ Oxmiq Labs ที่ Silicon Valley โดยมีเป้าหมายชัดเจน: สร้าง GPU ที่ไม่จำเป็นต้องผลิตฮาร์ดแวร์เอง แต่เน้นการพัฒนา IP และซอฟต์แวร์ที่สามารถนำไปใช้กับฮาร์ดแวร์ใดก็ได้

    Oxmiq ใช้สถาปัตยกรรม RISC-V เป็นแกนหลักของ GPU IP ที่ชื่อว่า OxCore ซึ่งรวม scalar, vector และ tensor compute engines เข้าไว้ในระบบ modular ที่สามารถปรับแต่งได้ตาม workload ตั้งแต่ edge device ไปจนถึง data center

    นอกจากฮาร์ดแวร์ IP แล้ว Oxmiq ยังมีซอฟต์แวร์ที่ทรงพลัง เช่น OXCapsule ที่ช่วยจัดการ workload และทำให้แอปพลิเคชันสามารถรันบน CPU, GPU หรือ accelerator โดยไม่ต้องแก้โค้ด และ OXPython ที่สามารถรันโค้ด Python CUDA บนฮาร์ดแวร์ที่ไม่ใช่ Nvidia ได้ทันที

    Oxmiq ยังร่วมมือกับ Tenstorrent เพื่อเปิดตัว OXPython บนแพลตฟอร์ม Wormhole และ Blackhole และได้รับเงินลงทุนเบื้องต้น $20 ล้านจาก MediaTek และนักลงทุนรายอื่น โดยไม่ต้องพึ่งการผลิตชิปจริงหรือใช้เครื่องมือ EDA ที่มีต้นทุนสูง

    Oxmiq Labs ก่อตั้งโดย Raja Koduri เพื่อพลิกโฉม GPU ด้วย RISC-V
    เน้นการพัฒนา IP และซอฟต์แวร์ ไม่ผลิตฮาร์ดแวร์เอง

    OxCore เป็น GPU IP ที่รวม scalar, vector และ tensor engines
    รองรับงาน AI, graphics และ multimodal workloads

    OxQuilt เป็นระบบประกอบ SoC แบบ chiplet
    ลูกค้าสามารถเลือกโมดูล compute, memory และ interconnect ได้ตามต้องการ

    OXCapsule เป็น runtime ที่จัดการ workload และ abstraction
    ทำให้แอปสามารถรันบนฮาร์ดแวร์ต่าง ๆ โดยไม่ต้องแก้โค้ด

    OXPython แปลงโค้ด Python CUDA ให้รันบน non-Nvidia hardware
    เปิดทางให้ใช้โค้ดเดิมกับฮาร์ดแวร์ใหม่ได้ทันที

    ได้รับเงินลงทุน $20 ล้านจาก MediaTek และนักลงทุนอื่น
    สะท้อนความเชื่อมั่นในโมเดลธุรกิจแบบ IP licensing

    Oxmiq ไม่พัฒนา GPU สำหรับผู้บริโภคโดยตรง
    ไม่รวมฟีเจอร์เช่น texture units, ray tracing หรือ HDMI output

    โมเดล IP-as-a-Service ช่วยลดต้นทุนการพัฒนาชิปได้ถึง 90%
    ไม่ต้องลงทุนในโรงงานหรือกระบวนการ tape-out

    RISC-V เป็นสถาปัตยกรรมเปิดที่กำลังเติบโตในงาน AI และ embedded
    มีความยืดหยุ่นสูงและไม่ผูกกับ vendor รายใด

    Tenstorrent เป็นผู้ผลิต accelerator ที่เน้นงาน AI โดยเฉพาะ
    การร่วมมือกับ Oxmiq ช่วยขยาย ecosystem ให้รองรับ CUDA workloads

    Capsule เป็นระบบ container ที่ช่วยจัดการ GPU cluster
    ใช้เทคโนโลยีจาก Endgame ของ Intel มาปรับให้เหมาะกับ compute workload

    https://www.tomshardware.com/tech-industry/artificial-intelligence/legendary-gpu-architect-raja-koduris-new-startup-leverages-risc-v-and-targets-cuda-workloads-oxmiq-labs-supports-running-python-based-cuda-applications-unmodified-on-non-nvidia-hardware
    🧠⚙️ เรื่องเล่าจากวงการชิป: Oxmiq Labs กับภารกิจพลิกโฉม GPU ด้วย RISC-V และซอฟต์แวร์ที่ไม่ผูกกับฮาร์ดแวร์ Raja Koduri อดีตหัวหน้าฝ่ายกราฟิกของ Intel, AMD และ Apple ได้เปิดตัวสตาร์ทอัพใหม่ชื่อ Oxmiq Labs ที่ Silicon Valley โดยมีเป้าหมายชัดเจน: สร้าง GPU ที่ไม่จำเป็นต้องผลิตฮาร์ดแวร์เอง แต่เน้นการพัฒนา IP และซอฟต์แวร์ที่สามารถนำไปใช้กับฮาร์ดแวร์ใดก็ได้ Oxmiq ใช้สถาปัตยกรรม RISC-V เป็นแกนหลักของ GPU IP ที่ชื่อว่า OxCore ซึ่งรวม scalar, vector และ tensor compute engines เข้าไว้ในระบบ modular ที่สามารถปรับแต่งได้ตาม workload ตั้งแต่ edge device ไปจนถึง data center นอกจากฮาร์ดแวร์ IP แล้ว Oxmiq ยังมีซอฟต์แวร์ที่ทรงพลัง เช่น OXCapsule ที่ช่วยจัดการ workload และทำให้แอปพลิเคชันสามารถรันบน CPU, GPU หรือ accelerator โดยไม่ต้องแก้โค้ด และ OXPython ที่สามารถรันโค้ด Python CUDA บนฮาร์ดแวร์ที่ไม่ใช่ Nvidia ได้ทันที Oxmiq ยังร่วมมือกับ Tenstorrent เพื่อเปิดตัว OXPython บนแพลตฟอร์ม Wormhole และ Blackhole และได้รับเงินลงทุนเบื้องต้น $20 ล้านจาก MediaTek และนักลงทุนรายอื่น โดยไม่ต้องพึ่งการผลิตชิปจริงหรือใช้เครื่องมือ EDA ที่มีต้นทุนสูง ✅ Oxmiq Labs ก่อตั้งโดย Raja Koduri เพื่อพลิกโฉม GPU ด้วย RISC-V ➡️ เน้นการพัฒนา IP และซอฟต์แวร์ ไม่ผลิตฮาร์ดแวร์เอง ✅ OxCore เป็น GPU IP ที่รวม scalar, vector และ tensor engines ➡️ รองรับงาน AI, graphics และ multimodal workloads ✅ OxQuilt เป็นระบบประกอบ SoC แบบ chiplet ➡️ ลูกค้าสามารถเลือกโมดูล compute, memory และ interconnect ได้ตามต้องการ ✅ OXCapsule เป็น runtime ที่จัดการ workload และ abstraction ➡️ ทำให้แอปสามารถรันบนฮาร์ดแวร์ต่าง ๆ โดยไม่ต้องแก้โค้ด ✅ OXPython แปลงโค้ด Python CUDA ให้รันบน non-Nvidia hardware ➡️ เปิดทางให้ใช้โค้ดเดิมกับฮาร์ดแวร์ใหม่ได้ทันที ✅ ได้รับเงินลงทุน $20 ล้านจาก MediaTek และนักลงทุนอื่น ➡️ สะท้อนความเชื่อมั่นในโมเดลธุรกิจแบบ IP licensing ✅ Oxmiq ไม่พัฒนา GPU สำหรับผู้บริโภคโดยตรง ➡️ ไม่รวมฟีเจอร์เช่น texture units, ray tracing หรือ HDMI output ✅ โมเดล IP-as-a-Service ช่วยลดต้นทุนการพัฒนาชิปได้ถึง 90% ➡️ ไม่ต้องลงทุนในโรงงานหรือกระบวนการ tape-out ✅ RISC-V เป็นสถาปัตยกรรมเปิดที่กำลังเติบโตในงาน AI และ embedded ➡️ มีความยืดหยุ่นสูงและไม่ผูกกับ vendor รายใด ✅ Tenstorrent เป็นผู้ผลิต accelerator ที่เน้นงาน AI โดยเฉพาะ ➡️ การร่วมมือกับ Oxmiq ช่วยขยาย ecosystem ให้รองรับ CUDA workloads ✅ Capsule เป็นระบบ container ที่ช่วยจัดการ GPU cluster ➡️ ใช้เทคโนโลยีจาก Endgame ของ Intel มาปรับให้เหมาะกับ compute workload https://www.tomshardware.com/tech-industry/artificial-intelligence/legendary-gpu-architect-raja-koduris-new-startup-leverages-risc-v-and-targets-cuda-workloads-oxmiq-labs-supports-running-python-based-cuda-applications-unmodified-on-non-nvidia-hardware
    0 ความคิดเห็น 0 การแบ่งปัน 350 มุมมอง 0 รีวิว
  • เรื่องเล่าจากแดนมังกร: เมื่อ “TrueGPU” จุดไฟความหวังให้จีนเป็นเจ้าตลาดกราฟิก

    ในเดือนกรกฎาคม 2025 บริษัท Lisuan Technology จากจีนได้เปิดตัวกราฟิกการ์ดรุ่นแรกของตนเอง—Lisuan 7G106 และ 7G105—ที่ใช้สถาปัตยกรรม “TrueGPU” ซึ่งออกแบบขึ้นใหม่ทั้งหมดโดยทีมงานอดีตวิศวกรจาก Silicon Valley

    GPU ทั้งสองรุ่นผลิตบนเทคโนโลยี 6nm ของ TSMC และมีเป้าหมายชัดเจน: แข่งกับ NVIDIA RTX 4060 ในตลาดกลาง โดย 7G106 เน้นเกม ส่วน 7G105 เน้นงาน AI และองค์กร

    ที่น่าทึ่งคือ แม้จะเป็นรุ่นแรก แต่สามารถรันเกมระดับ AAA อย่าง Black Myth: Wukong และ Shadow of the Tomb Raider ที่ 4K High ได้เกิน 70 FPS! และยังมีฟีเจอร์ล้ำๆ อย่างการเรนเดอร์แบบ out-of-order, การจัดการงานแบบ multitasking 48 งานพร้อมกัน และระบบอัปสเกลภาพ NRSS ที่ตั้งใจชนกับ DLSS และ FSR

    Lisuan เปิดตัว GPU รุ่นแรกของจีนที่ใช้สถาปัตยกรรม TrueGPU
    ผลิตบนเทคโนโลยี 6nm ของ TSMC
    ออกแบบ instruction set, compute core และ software stack เองทั้งหมด

    Lisuan 7G106 (เกมมิ่ง) และ 7G105 (มืออาชีพ/AI) มีสเปกใกล้เคียงกัน
    FP32 throughput สูงสุด 24 TFLOP/s
    ใช้ GDDR6 ขนาด 12 GB และ 24 GB (ECC) ตามลำดับ
    รองรับ DirectX 12, Vulkan 1.3, OpenGL 4.6, OpenCL 3.0

    รองรับการเข้ารหัส/ถอดรหัสวิดีโอระดับ 8K
    Decode AV1 และ HEVC ได้ถึง 8K60
    Encode HEVC ที่ 8K30 และ AV1 ที่ 4K30

    รองรับการใช้งานแบบ virtual GPU ได้ถึง 16 หน่วย
    เหมาะกับงาน cloud gaming, metaverse, robotics และ AI ขนาดใหญ่
    ใช้พลังงานประมาณ 225W ด้วยหัวต่อ PCIe 8-pin

    ผลทดสอบเบื้องต้นเทียบเคียง RTX 4060 ได้อย่างสูสี
    3DMark Fire Strike: 26,800 คะแนน
    Geekbench 6 OpenCL: 111,290 คะแนน (สูงกว่า RTX 4060 ประมาณ 10%)

    เกมดังรันได้ลื่นไหลในระดับ 4K High settings
    Black Myth: Wukong และ Wuchang: Fallen Feathers เกิน 70 FPS
    Shadow of the Tomb Raider เกิน 80 FPS

    เริ่มผลิตจริงกันยายน 2025 หลังจากทดลองในเดือนสิงหาคม
    ยังไม่ประกาศราคาหรือความเร็วสัญญาณนาฬิกา
    เน้นตลาดจีนเป็นหลักเพื่อลดการพึ่งพาต่างชาติ

    ยังไม่มีการทดสอบจากผู้ผลิตอิสระเพื่อยืนยันประสิทธิภาพจริง
    ผลทดสอบทั้งหมดมาจากบริษัท Lisuan เอง
    ต้องรอการรีวิวจากสื่อและผู้ใช้งานจริงเพื่อความน่าเชื่อถือ

    ยังไม่รองรับ ray tracing แม้จะใช้ DirectX 12
    ไม่มี DirectX 12 Ultimate
    อาจไม่เหมาะกับเกมที่เน้นกราฟิกแสงเงาขั้นสูง

    ยังไม่มี HDMI output บนการ์ดรุ่นนี้
    ใช้ DisplayPort 1.4 ทั้งหมด
    อาจไม่สะดวกสำหรับผู้ใช้ทั่วไปที่ต้องการต่อกับทีวีหรือจอ HDMI

    ยังไม่ประกาศราคาขายและรุ่นย่อย (SKU)
    อาจมีความเสี่ยงด้านความพร้อมของตลาด
    ต้องจับตาว่าจะสามารถแข่งขันด้านราคากับแบรนด์ระดับโลกได้หรือไม่

    https://www.tomshardware.com/pc-components/gpus/china-advances-toward-tech-independence-with-new-homegrown-6nm-gaming-and-ai-gpus-lisuan-7g106-runs-chinese-aaa-titles-at-4k-over-70-fps-and-matches-rtx-4060-in-synthetic-benchmarks
    🎮 เรื่องเล่าจากแดนมังกร: เมื่อ “TrueGPU” จุดไฟความหวังให้จีนเป็นเจ้าตลาดกราฟิก ในเดือนกรกฎาคม 2025 บริษัท Lisuan Technology จากจีนได้เปิดตัวกราฟิกการ์ดรุ่นแรกของตนเอง—Lisuan 7G106 และ 7G105—ที่ใช้สถาปัตยกรรม “TrueGPU” ซึ่งออกแบบขึ้นใหม่ทั้งหมดโดยทีมงานอดีตวิศวกรจาก Silicon Valley GPU ทั้งสองรุ่นผลิตบนเทคโนโลยี 6nm ของ TSMC และมีเป้าหมายชัดเจน: แข่งกับ NVIDIA RTX 4060 ในตลาดกลาง โดย 7G106 เน้นเกม ส่วน 7G105 เน้นงาน AI และองค์กร ที่น่าทึ่งคือ แม้จะเป็นรุ่นแรก แต่สามารถรันเกมระดับ AAA อย่าง Black Myth: Wukong และ Shadow of the Tomb Raider ที่ 4K High ได้เกิน 70 FPS! และยังมีฟีเจอร์ล้ำๆ อย่างการเรนเดอร์แบบ out-of-order, การจัดการงานแบบ multitasking 48 งานพร้อมกัน และระบบอัปสเกลภาพ NRSS ที่ตั้งใจชนกับ DLSS และ FSR ✅ Lisuan เปิดตัว GPU รุ่นแรกของจีนที่ใช้สถาปัตยกรรม TrueGPU ➡️ ผลิตบนเทคโนโลยี 6nm ของ TSMC ➡️ ออกแบบ instruction set, compute core และ software stack เองทั้งหมด ✅ Lisuan 7G106 (เกมมิ่ง) และ 7G105 (มืออาชีพ/AI) มีสเปกใกล้เคียงกัน ➡️ FP32 throughput สูงสุด 24 TFLOP/s ➡️ ใช้ GDDR6 ขนาด 12 GB และ 24 GB (ECC) ตามลำดับ ➡️ รองรับ DirectX 12, Vulkan 1.3, OpenGL 4.6, OpenCL 3.0 ✅ รองรับการเข้ารหัส/ถอดรหัสวิดีโอระดับ 8K ➡️ Decode AV1 และ HEVC ได้ถึง 8K60 ➡️ Encode HEVC ที่ 8K30 และ AV1 ที่ 4K30 ✅ รองรับการใช้งานแบบ virtual GPU ได้ถึง 16 หน่วย ➡️ เหมาะกับงาน cloud gaming, metaverse, robotics และ AI ขนาดใหญ่ ➡️ ใช้พลังงานประมาณ 225W ด้วยหัวต่อ PCIe 8-pin ✅ ผลทดสอบเบื้องต้นเทียบเคียง RTX 4060 ได้อย่างสูสี ➡️ 3DMark Fire Strike: 26,800 คะแนน ➡️ Geekbench 6 OpenCL: 111,290 คะแนน (สูงกว่า RTX 4060 ประมาณ 10%) ✅ เกมดังรันได้ลื่นไหลในระดับ 4K High settings ➡️ Black Myth: Wukong และ Wuchang: Fallen Feathers เกิน 70 FPS ➡️ Shadow of the Tomb Raider เกิน 80 FPS ✅ เริ่มผลิตจริงกันยายน 2025 หลังจากทดลองในเดือนสิงหาคม ➡️ ยังไม่ประกาศราคาหรือความเร็วสัญญาณนาฬิกา ➡️ เน้นตลาดจีนเป็นหลักเพื่อลดการพึ่งพาต่างชาติ ‼️ ยังไม่มีการทดสอบจากผู้ผลิตอิสระเพื่อยืนยันประสิทธิภาพจริง ⛔ ผลทดสอบทั้งหมดมาจากบริษัท Lisuan เอง ⛔ ต้องรอการรีวิวจากสื่อและผู้ใช้งานจริงเพื่อความน่าเชื่อถือ ‼️ ยังไม่รองรับ ray tracing แม้จะใช้ DirectX 12 ⛔ ไม่มี DirectX 12 Ultimate ⛔ อาจไม่เหมาะกับเกมที่เน้นกราฟิกแสงเงาขั้นสูง ‼️ ยังไม่มี HDMI output บนการ์ดรุ่นนี้ ⛔ ใช้ DisplayPort 1.4 ทั้งหมด ⛔ อาจไม่สะดวกสำหรับผู้ใช้ทั่วไปที่ต้องการต่อกับทีวีหรือจอ HDMI ‼️ ยังไม่ประกาศราคาขายและรุ่นย่อย (SKU) ⛔ อาจมีความเสี่ยงด้านความพร้อมของตลาด ⛔ ต้องจับตาว่าจะสามารถแข่งขันด้านราคากับแบรนด์ระดับโลกได้หรือไม่ https://www.tomshardware.com/pc-components/gpus/china-advances-toward-tech-independence-with-new-homegrown-6nm-gaming-and-ai-gpus-lisuan-7g106-runs-chinese-aaa-titles-at-4k-over-70-fps-and-matches-rtx-4060-in-synthetic-benchmarks
    0 ความคิดเห็น 0 การแบ่งปัน 343 มุมมอง 0 รีวิว
  • เรื่องเล่าจากโลก AI: “ราคาคำตอบ” ที่คุณอาจไม่เคยคิด

    ลองจินตนาการว่า AI ที่คุณใช้ตอบคำถามหรือเขียนบทความนั้น คิดค่าบริการเป็น “จำนวนคำ” ที่มันอ่านและเขียนออกมา—หรือที่เรียกว่า “token” ซึ่งแต่ละ token คือเศษคำประมาณ 3–4 ตัวอักษร

    ในปี 2025 นี้ ตลาด LLM API แข่งขันกันดุเดือด ผู้ให้บริการอย่าง OpenAI, Google, Anthropic และ xAI ต่างออกโมเดลใหม่พร้อมราคาที่หลากหลาย ตั้งแต่ราคาถูกสุดเพียง $0.07 ต่อ 1 ล้าน token ไปจนถึง $600 ต่อ 1 ล้าน token สำหรับโมเดลระดับสูงสุด!

    สิ่งที่น่าสนใจคือ “ราคาสำหรับการตอบ” (output token) มักแพงกว่าการถาม (input token) ถึง 3–5 เท่า ทำให้การออกแบบ prompt ที่กระชับและฉลาดกลายเป็นกลยุทธ์สำคัญในการลดต้นทุน

    โมเดลราคาถูกที่สุดในตลาดตอนนี้ ได้แก่ Google Gemini 2.0 Flash-Lite และ OpenAI GPT-4.1-nano
    ราคา input token อยู่ที่ $0.07–$0.10 ต่อ 1 ล้าน token
    ราคา output token อยู่ที่ $0.30–$0.40 ต่อ 1 ล้าน token

    โมเดลระดับกลางที่คุ้มค่า เช่น GPT-4o-mini และ Claude Haiku 3
    ราคา input token อยู่ที่ $0.15–$0.25
    ราคา output token อยู่ที่ $0.60–$1.25

    โมเดลระดับสูง เช่น Claude Opus 4 และ GPT-o1-pro มีราคาสูงมาก
    Claude Opus 4: $15 (input) / $75 (output)
    GPT-o1-pro: $150 (input) / $600 (output)

    แนวโน้มการตั้งราคาคือการแยก input กับ output token อย่างชัดเจน
    output token แพงกว่า input token หลายเท่า
    ส่งเสริมการใช้เทคนิค RAG (Retrieval-Augmented Generation) เพื่อประหยัด

    ข้อมูลอัปเดตล่าสุดเมื่อวันที่ 27 กรกฎาคม 2025
    แหล่งข้อมูลมาจากเว็บไซต์ทางการของผู้ให้บริการแต่ละราย
    มีการเปรียบเทียบมากกว่า 30 โมเดลจากหลายค่าย

    การใช้โมเดลที่มี output token แพงอาจทำให้ต้นทุนพุ่งสูงโดยไม่รู้ตัว
    หากไม่จำกัดความยาวคำตอบหรือใช้ prompt ที่ไม่กระชับ อาจเสียเงินมากเกินจำเป็น
    ควรตั้งค่า max_tokens และ temperature ให้เหมาะสม

    การเปรียบเทียบราคาโดยไม่ดูคุณภาพอาจทำให้เลือกโมเดลไม่เหมาะกับงาน
    โมเดลราคาถูกอาจไม่เหมาะกับงาน reasoning หรือการเขียนเชิงลึก
    ควรพิจารณาความสามารถของโมเดลควบคู่กับราคา

    การเปลี่ยนแปลงราคาบ่อยครั้งอาจทำให้ข้อมูลล้าสมัยเร็ว
    ควรตรวจสอบราคาจากเว็บไซต์ทางการก่อนใช้งานจริง
    การใช้ข้อมูลเก่าอาจทำให้คำนวณต้นทุนผิดพลาด

    การใช้โมเดลที่มี context window ใหญ่เกินความจำเป็นอาจสิ้นเปลือง
    โมเดลที่รองรับ context 1M tokens มักมีราคาสูง
    หากงานไม่ต้องการ context ยาว ควรเลือกโมเดลที่เล็กลง

    https://pricepertoken.com/
    💸 เรื่องเล่าจากโลก AI: “ราคาคำตอบ” ที่คุณอาจไม่เคยคิด ลองจินตนาการว่า AI ที่คุณใช้ตอบคำถามหรือเขียนบทความนั้น คิดค่าบริการเป็น “จำนวนคำ” ที่มันอ่านและเขียนออกมา—หรือที่เรียกว่า “token” ซึ่งแต่ละ token คือเศษคำประมาณ 3–4 ตัวอักษร ในปี 2025 นี้ ตลาด LLM API แข่งขันกันดุเดือด ผู้ให้บริการอย่าง OpenAI, Google, Anthropic และ xAI ต่างออกโมเดลใหม่พร้อมราคาที่หลากหลาย ตั้งแต่ราคาถูกสุดเพียง $0.07 ต่อ 1 ล้าน token ไปจนถึง $600 ต่อ 1 ล้าน token สำหรับโมเดลระดับสูงสุด! สิ่งที่น่าสนใจคือ “ราคาสำหรับการตอบ” (output token) มักแพงกว่าการถาม (input token) ถึง 3–5 เท่า ทำให้การออกแบบ prompt ที่กระชับและฉลาดกลายเป็นกลยุทธ์สำคัญในการลดต้นทุน ✅ โมเดลราคาถูกที่สุดในตลาดตอนนี้ ได้แก่ Google Gemini 2.0 Flash-Lite และ OpenAI GPT-4.1-nano ➡️ ราคา input token อยู่ที่ $0.07–$0.10 ต่อ 1 ล้าน token ➡️ ราคา output token อยู่ที่ $0.30–$0.40 ต่อ 1 ล้าน token ✅ โมเดลระดับกลางที่คุ้มค่า เช่น GPT-4o-mini และ Claude Haiku 3 ➡️ ราคา input token อยู่ที่ $0.15–$0.25 ➡️ ราคา output token อยู่ที่ $0.60–$1.25 ✅ โมเดลระดับสูง เช่น Claude Opus 4 และ GPT-o1-pro มีราคาสูงมาก ➡️ Claude Opus 4: $15 (input) / $75 (output) ➡️ GPT-o1-pro: $150 (input) / $600 (output) ✅ แนวโน้มการตั้งราคาคือการแยก input กับ output token อย่างชัดเจน ➡️ output token แพงกว่า input token หลายเท่า ➡️ ส่งเสริมการใช้เทคนิค RAG (Retrieval-Augmented Generation) เพื่อประหยัด ✅ ข้อมูลอัปเดตล่าสุดเมื่อวันที่ 27 กรกฎาคม 2025 ➡️ แหล่งข้อมูลมาจากเว็บไซต์ทางการของผู้ให้บริการแต่ละราย ➡️ มีการเปรียบเทียบมากกว่า 30 โมเดลจากหลายค่าย ‼️ การใช้โมเดลที่มี output token แพงอาจทำให้ต้นทุนพุ่งสูงโดยไม่รู้ตัว ⛔ หากไม่จำกัดความยาวคำตอบหรือใช้ prompt ที่ไม่กระชับ อาจเสียเงินมากเกินจำเป็น ⛔ ควรตั้งค่า max_tokens และ temperature ให้เหมาะสม ‼️ การเปรียบเทียบราคาโดยไม่ดูคุณภาพอาจทำให้เลือกโมเดลไม่เหมาะกับงาน ⛔ โมเดลราคาถูกอาจไม่เหมาะกับงาน reasoning หรือการเขียนเชิงลึก ⛔ ควรพิจารณาความสามารถของโมเดลควบคู่กับราคา ‼️ การเปลี่ยนแปลงราคาบ่อยครั้งอาจทำให้ข้อมูลล้าสมัยเร็ว ⛔ ควรตรวจสอบราคาจากเว็บไซต์ทางการก่อนใช้งานจริง ⛔ การใช้ข้อมูลเก่าอาจทำให้คำนวณต้นทุนผิดพลาด ‼️ การใช้โมเดลที่มี context window ใหญ่เกินความจำเป็นอาจสิ้นเปลือง ⛔ โมเดลที่รองรับ context 1M tokens มักมีราคาสูง ⛔ หากงานไม่ต้องการ context ยาว ควรเลือกโมเดลที่เล็กลง https://pricepertoken.com/
    0 ความคิดเห็น 0 การแบ่งปัน 195 มุมมอง 0 รีวิว
  • https://youtube.com/watch?v=0eqTthNM_rc&si=TpUj5VMyfq-RBqI3
    https://youtube.com/watch?v=0eqTthNM_rc&si=TpUj5VMyfq-RBqI3
    0 ความคิดเห็น 0 การแบ่งปัน 53 มุมมอง 0 รีวิว
  • ลุงนี้ร้อง "อ้าววววว..." เลย

    เรื่องเล่าจากชิปที่รอเวลา: เมื่อ AI PC ต้องรอทั้ง Windows และตลาดให้พร้อม

    N1X เป็นแพลตฟอร์ม AI PC ที่ร่วมพัฒนาโดย Nvidia และ MediaTek โดยมีเป้าหมายเพื่อแข่งขันกับ Intel, AMD และ Qualcomm ในตลาดพีซีที่รองรับการประมวลผล AI โดยตรง

    เดิมทีคาดว่าจะเปิดตัวใน Q3 ปี 2025 แต่กลับไม่ปรากฏในงาน Computex ล่าสุด ทำให้เกิดข้อสงสัยเรื่องความพร้อมของผลิตภัณฑ์

    รายงานล่าสุดจาก DigiTimes ระบุว่า:
    - Microsoft ยังไม่พร้อมเปิดตัวระบบปฏิบัติการใหม่ที่รองรับฟีเจอร์ AI เต็มรูปแบบ
    - ความต้องการในตลาดโน้ตบุ๊กและเดสก์ท็อปยังไม่ฟื้นตัวเต็มที่
    - Nvidia ยังต้องปรับแก้ชิปจากข้อบกพร่องเดิมที่เคยมีรายงานจาก SemiAccurate

    Nvidia และ MediaTek จึงเลือกเน้นตลาดองค์กรก่อน โดยหวังว่าจะมีการยอมรับในกลุ่ม commercial ก่อนขยายไปยัง consumer

    นอกจากนี้ ทั้งสองบริษัทยังร่วมมือกันในหลายโครงการ เช่น:
    - Automotive AI ผ่านแพลตฟอร์ม Dimensity Auto
    - Edge AI ด้วย Nvidia TAO Toolkit และ MediaTek NeuroPilot
    - การพัฒนา DGX Spark — AI supercomputer ขนาดเล็ก
    - การร่วมมือในโครงการ Google v7e TPU ที่จะผลิตจริงในปี 2026

    Nvidia และ MediaTek เลื่อนเปิดตัวแพลตฟอร์ม N1X AI PC ไปเป็น Q1 ปี 2026
    เดิมคาดว่าจะเปิดตัวใน Q3 ปี 2025 แต่ไม่ปรากฏในงาน Computex

    สาเหตุหลักคือ Microsoft ยังไม่พร้อมเปิดตัวระบบปฏิบัติการใหม่ที่รองรับ AI เต็มรูปแบบ
    ส่งผลให้ ecosystem โดยรวมยังไม่พร้อมสำหรับการเปิดตัว N1X

    ความต้องการในตลาดโน้ตบุ๊กและเดสก์ท็อปยังอ่อนตัวลง
    ทำให้การเปิดตัวใน consumer segment ถูกเลื่อนออกไป

    Nvidia ยังต้องปรับแก้ชิปจากข้อบกพร่องเดิมที่เคยมีรายงาน
    รวมถึงการปรับกลยุทธ์ด้านการผลิตและการตลาด

    N1X มีพลังประมวลผล AI สูงถึง 180–200 TOPS
    ถือเป็นการเข้าสู่ตลาดพีซีครั้งใหญ่ที่สุดของ MediaTek

    OEM และ ODM หลายรายเตรียมออกแบบผลิตภัณฑ์รองรับ N1X เช่น Dell, HP, Lenovo, Asus, MSI
    ทั้งในรูปแบบโน้ตบุ๊กและเดสก์ท็อป

    Nvidia และ MediaTek ร่วมมือในหลายโครงการ เช่น automotive AI, edge AI, และ TPU ของ Google
    คาดว่าจะสร้างรายได้รวมกว่า $4 พันล้านดอลลาร์

    https://www.tomshardware.com/tech-industry/semiconductors/nvidias-desktop-pc-chip-holdup-purportedly-tied-to-windows-delays-ongoing-chip-revisions-and-weakening-demand-also-blamed
    ลุงนี้ร้อง "อ้าววววว..." เลย 🎙️ เรื่องเล่าจากชิปที่รอเวลา: เมื่อ AI PC ต้องรอทั้ง Windows และตลาดให้พร้อม N1X เป็นแพลตฟอร์ม AI PC ที่ร่วมพัฒนาโดย Nvidia และ MediaTek โดยมีเป้าหมายเพื่อแข่งขันกับ Intel, AMD และ Qualcomm ในตลาดพีซีที่รองรับการประมวลผล AI โดยตรง เดิมทีคาดว่าจะเปิดตัวใน Q3 ปี 2025 แต่กลับไม่ปรากฏในงาน Computex ล่าสุด ทำให้เกิดข้อสงสัยเรื่องความพร้อมของผลิตภัณฑ์ รายงานล่าสุดจาก DigiTimes ระบุว่า: - Microsoft ยังไม่พร้อมเปิดตัวระบบปฏิบัติการใหม่ที่รองรับฟีเจอร์ AI เต็มรูปแบบ - ความต้องการในตลาดโน้ตบุ๊กและเดสก์ท็อปยังไม่ฟื้นตัวเต็มที่ - Nvidia ยังต้องปรับแก้ชิปจากข้อบกพร่องเดิมที่เคยมีรายงานจาก SemiAccurate Nvidia และ MediaTek จึงเลือกเน้นตลาดองค์กรก่อน โดยหวังว่าจะมีการยอมรับในกลุ่ม commercial ก่อนขยายไปยัง consumer นอกจากนี้ ทั้งสองบริษัทยังร่วมมือกันในหลายโครงการ เช่น: - Automotive AI ผ่านแพลตฟอร์ม Dimensity Auto - Edge AI ด้วย Nvidia TAO Toolkit และ MediaTek NeuroPilot - การพัฒนา DGX Spark — AI supercomputer ขนาดเล็ก - การร่วมมือในโครงการ Google v7e TPU ที่จะผลิตจริงในปี 2026 ✅ Nvidia และ MediaTek เลื่อนเปิดตัวแพลตฟอร์ม N1X AI PC ไปเป็น Q1 ปี 2026 ➡️ เดิมคาดว่าจะเปิดตัวใน Q3 ปี 2025 แต่ไม่ปรากฏในงาน Computex ✅ สาเหตุหลักคือ Microsoft ยังไม่พร้อมเปิดตัวระบบปฏิบัติการใหม่ที่รองรับ AI เต็มรูปแบบ ➡️ ส่งผลให้ ecosystem โดยรวมยังไม่พร้อมสำหรับการเปิดตัว N1X ✅ ความต้องการในตลาดโน้ตบุ๊กและเดสก์ท็อปยังอ่อนตัวลง ➡️ ทำให้การเปิดตัวใน consumer segment ถูกเลื่อนออกไป ✅ Nvidia ยังต้องปรับแก้ชิปจากข้อบกพร่องเดิมที่เคยมีรายงาน ➡️ รวมถึงการปรับกลยุทธ์ด้านการผลิตและการตลาด ✅ N1X มีพลังประมวลผล AI สูงถึง 180–200 TOPS ➡️ ถือเป็นการเข้าสู่ตลาดพีซีครั้งใหญ่ที่สุดของ MediaTek ✅ OEM และ ODM หลายรายเตรียมออกแบบผลิตภัณฑ์รองรับ N1X เช่น Dell, HP, Lenovo, Asus, MSI ➡️ ทั้งในรูปแบบโน้ตบุ๊กและเดสก์ท็อป ✅ Nvidia และ MediaTek ร่วมมือในหลายโครงการ เช่น automotive AI, edge AI, และ TPU ของ Google ➡️ คาดว่าจะสร้างรายได้รวมกว่า $4 พันล้านดอลลาร์ https://www.tomshardware.com/tech-industry/semiconductors/nvidias-desktop-pc-chip-holdup-purportedly-tied-to-windows-delays-ongoing-chip-revisions-and-weakening-demand-also-blamed
    0 ความคิดเห็น 0 การแบ่งปัน 299 มุมมอง 0 รีวิว
Pages Boosts