• “Stanford เปิดตัว Megakernel สำหรับ Llama-70B — ใช้ GPU เต็มประสิทธิภาพ แซง SGLang ไปกว่า 22%”

    ทีมนักวิจัยจาก Hazy Research แห่งมหาวิทยาลัย Stanford ได้เปิดตัว “Megakernel” สำหรับการ inference โมเดล Llama-70B โดยใช้ GPU H100 แบบเต็มประสิทธิภาพ ซึ่งสามารถแซงระบบยอดนิยมอย่าง SGLang ได้ถึง 22% ในการทดสอบชุดคำสั่งจาก ShareGPT

    แนวคิดหลักคือการรวมการประมวลผลทั้งหมดของโมเดลไว้ใน “megakernel” เดียว แทนที่จะใช้หลาย kernel แบบเดิม ซึ่งมักมีช่วงเวลาที่ GPU ว่างเปล่าและไม่ได้ทำงาน ทีมงานจึงออกแบบระบบ interpreter ที่สามารถ pipeline คำสั่งต่าง ๆ ได้อย่างต่อเนื่อง ทั้งในระดับ SM (Streaming Multiprocessor), ระหว่าง SM หลายตัว และระหว่าง GPU หลายตัว

    การออกแบบนี้ช่วยให้สามารถ overlap การโหลดข้อมูล, การคำนวณ, และการสื่อสารระหว่าง GPU ได้พร้อมกัน ทำให้ใช้ทรัพยากรของ GPU ได้เต็มที่ ไม่ว่าจะเป็น tensor core, memory bandwidth หรือ NVLink

    นอกจากนี้ยังมีการปรับโครงสร้างของ Llama-70B ให้เหมาะกับการทำงานแบบ parallel โดยใช้เทคนิค “distributed transpose” แทน reduce-scatter เพื่อลดการสื่อสารระหว่าง GPU ลงถึง 8 เท่า แม้จะแลกกับการใช้หน่วยความจำเพิ่มขึ้น 9GB ต่อ GPU

    ระบบนี้ถูกนำไปใช้ใน Tokasaurus ซึ่งเป็น inference engine ที่ออกแบบมาเพื่องาน throughput สูง โดยสามารถจัดการ batch ขนาดใหญ่ได้อย่างมีประสิทธิภาพ และใช้ CPU เพียงเล็กน้อยในการจัดคิวคำสั่ง

    ผลการทดสอบแสดงให้เห็นว่า Megakernel สามารถประมวลผลคำสั่งได้เร็วกว่า SGLang อย่างชัดเจน ทั้งในด้าน input, output และ throughput รวม โดยเฉพาะเมื่อใช้ batch ขนาดใหญ่ เช่น 8,192 prompt

    ข้อมูลสำคัญจากข่าว
    Megakernel ถูกออกแบบเพื่อ inference Llama-70B บน GPU H100
    ใช้ระบบ interpreter ที่ pipeline คำสั่งได้ทั้งใน SM, ระหว่าง SM และ GPU
    ลดช่วงเวลาที่ GPU ไม่ได้ทำงาน ด้วยการ overlap การโหลด, คำนวณ และสื่อสาร
    ใช้ distributed transpose แทน reduce-scatter เพื่อลด network traffic
    เพิ่มประสิทธิภาพการทำงานแบบ data-parallel โดย replicate O-projection matrix
    Megakernel ถูกนำไปใช้ใน Tokasaurus ซึ่งเป็น engine สำหรับงาน throughput สูง
    ผลการทดสอบแสดงว่า Megakernel แซง SGLang ไปกว่า 22% ในชุดคำสั่ง ShareGPT
    ใช้ global work queue และ interleaving เพื่อจัดการคำสั่งแบบ dynamic

    ข้อมูลเสริมจากภายนอก
    SM (Streaming Multiprocessor) คือหน่วยย่อยของ GPU ที่ทำงานแบบ parallel
    NVLink เป็นเทคโนโลยีเชื่อมต่อระหว่าง GPU ที่มี bandwidth สูง
    Reduce-scatter เป็นเทคนิคการรวมข้อมูลจากหลาย GPU แต่มีค่าใช้จ่ายด้าน network
    Distributed transpose ช่วยลดการสื่อสารโดยเปลี่ยนรูปแบบการจัดข้อมูล
    Tokasaurus รองรับการทำงานแบบ tensor-parallel และ pipeline-parallel

    https://hazyresearch.stanford.edu/blog/2025-09-28-tp-llama-main
    ⚙️ “Stanford เปิดตัว Megakernel สำหรับ Llama-70B — ใช้ GPU เต็มประสิทธิภาพ แซง SGLang ไปกว่า 22%” ทีมนักวิจัยจาก Hazy Research แห่งมหาวิทยาลัย Stanford ได้เปิดตัว “Megakernel” สำหรับการ inference โมเดล Llama-70B โดยใช้ GPU H100 แบบเต็มประสิทธิภาพ ซึ่งสามารถแซงระบบยอดนิยมอย่าง SGLang ได้ถึง 22% ในการทดสอบชุดคำสั่งจาก ShareGPT แนวคิดหลักคือการรวมการประมวลผลทั้งหมดของโมเดลไว้ใน “megakernel” เดียว แทนที่จะใช้หลาย kernel แบบเดิม ซึ่งมักมีช่วงเวลาที่ GPU ว่างเปล่าและไม่ได้ทำงาน ทีมงานจึงออกแบบระบบ interpreter ที่สามารถ pipeline คำสั่งต่าง ๆ ได้อย่างต่อเนื่อง ทั้งในระดับ SM (Streaming Multiprocessor), ระหว่าง SM หลายตัว และระหว่าง GPU หลายตัว การออกแบบนี้ช่วยให้สามารถ overlap การโหลดข้อมูล, การคำนวณ, และการสื่อสารระหว่าง GPU ได้พร้อมกัน ทำให้ใช้ทรัพยากรของ GPU ได้เต็มที่ ไม่ว่าจะเป็น tensor core, memory bandwidth หรือ NVLink นอกจากนี้ยังมีการปรับโครงสร้างของ Llama-70B ให้เหมาะกับการทำงานแบบ parallel โดยใช้เทคนิค “distributed transpose” แทน reduce-scatter เพื่อลดการสื่อสารระหว่าง GPU ลงถึง 8 เท่า แม้จะแลกกับการใช้หน่วยความจำเพิ่มขึ้น 9GB ต่อ GPU ระบบนี้ถูกนำไปใช้ใน Tokasaurus ซึ่งเป็น inference engine ที่ออกแบบมาเพื่องาน throughput สูง โดยสามารถจัดการ batch ขนาดใหญ่ได้อย่างมีประสิทธิภาพ และใช้ CPU เพียงเล็กน้อยในการจัดคิวคำสั่ง ผลการทดสอบแสดงให้เห็นว่า Megakernel สามารถประมวลผลคำสั่งได้เร็วกว่า SGLang อย่างชัดเจน ทั้งในด้าน input, output และ throughput รวม โดยเฉพาะเมื่อใช้ batch ขนาดใหญ่ เช่น 8,192 prompt ✅ ข้อมูลสำคัญจากข่าว ➡️ Megakernel ถูกออกแบบเพื่อ inference Llama-70B บน GPU H100 ➡️ ใช้ระบบ interpreter ที่ pipeline คำสั่งได้ทั้งใน SM, ระหว่าง SM และ GPU ➡️ ลดช่วงเวลาที่ GPU ไม่ได้ทำงาน ด้วยการ overlap การโหลด, คำนวณ และสื่อสาร ➡️ ใช้ distributed transpose แทน reduce-scatter เพื่อลด network traffic ➡️ เพิ่มประสิทธิภาพการทำงานแบบ data-parallel โดย replicate O-projection matrix ➡️ Megakernel ถูกนำไปใช้ใน Tokasaurus ซึ่งเป็น engine สำหรับงาน throughput สูง ➡️ ผลการทดสอบแสดงว่า Megakernel แซง SGLang ไปกว่า 22% ในชุดคำสั่ง ShareGPT ➡️ ใช้ global work queue และ interleaving เพื่อจัดการคำสั่งแบบ dynamic ✅ ข้อมูลเสริมจากภายนอก ➡️ SM (Streaming Multiprocessor) คือหน่วยย่อยของ GPU ที่ทำงานแบบ parallel ➡️ NVLink เป็นเทคโนโลยีเชื่อมต่อระหว่าง GPU ที่มี bandwidth สูง ➡️ Reduce-scatter เป็นเทคนิคการรวมข้อมูลจากหลาย GPU แต่มีค่าใช้จ่ายด้าน network ➡️ Distributed transpose ช่วยลดการสื่อสารโดยเปลี่ยนรูปแบบการจัดข้อมูล ➡️ Tokasaurus รองรับการทำงานแบบ tensor-parallel และ pipeline-parallel https://hazyresearch.stanford.edu/blog/2025-09-28-tp-llama-main
    0 Comments 0 Shares 90 Views 0 Reviews
  • “Sam Altman เดินเกมลับในเอเชีย — จับมือ TSMC, Foxconn และเกาหลีใต้ ปูทางผลิตชิป AI ของตัวเองแทน Nvidia”

    Sam Altman ซีอีโอของ OpenAI เดินทางเยือนเอเชียอย่างเงียบ ๆ ในช่วงปลายเดือนกันยายน 2025 โดยมีจุดหมายสำคัญคือไต้หวันและเกาหลีใต้ เพื่อเจรจาความร่วมมือด้านการผลิตชิป AI และโครงสร้างพื้นฐานดาต้าเซ็นเตอร์ระดับโลก โดยเฉพาะโครงการ “Stargate” ที่มีมูลค่ากว่า 500,000 ล้านดอลลาร์ ซึ่งจะสร้างดาต้าเซ็นเตอร์และโรงงาน AI จำนวนมากในหลายประเทศ

    ในไต้หวัน Altman ได้พบกับผู้บริหารของ TSMC และ Foxconn เพื่อหารือเรื่องการออกแบบและผลิตชิป AI แบบ ASIC ที่ OpenAI กำลังพัฒนาร่วมกับ Broadcom โดยใช้เทคโนโลยี 3nm และการบรรจุชิปขั้นสูงแบบ CoWoS พร้อมหน่วยความจำ HBM ซึ่งคาดว่าจะเข้าสู่การผลิตจำนวนมากในไตรมาส 3 ปี 2026

    Foxconn ซึ่งเป็นผู้ผลิตเซิร์ฟเวอร์รายใหญ่ของ Oracle จะมีบทบาทสำคัญในการผลิตฮาร์ดแวร์สำหรับ Stargate โดยเฉพาะในโรงงานที่ SoftBank เข้าซื้อในรัฐโอไฮโอ เพื่อใช้เป็นฐานการผลิตร่วมกับ OpenAI

    หลังจากนั้น Altman เดินทางต่อไปยังเกาหลีใต้เพื่อพบกับประธานาธิบดี Lee Jae Myung และผู้บริหารของ Samsung และ SK hynix โดยมีการลงนามข้อตกลงเบื้องต้นในการสร้างดาต้าเซ็นเตอร์ขนาด 20 เมกะวัตต์ในเมือง Phang และอีกแห่งในจังหวัด South Jeolla

    เป้าหมายของ Altman คือการลดการพึ่งพา Nvidia ซึ่งปัจจุบันเป็นผู้ผลิต GPU รายใหญ่ที่ OpenAI ใช้ในการฝึกและรันโมเดล AI โดยการพัฒนาชิปของตัวเองจะช่วยให้ OpenAI ควบคุมทั้งฮาร์ดแวร์และซอฟต์แวร์ได้เหมือนที่ Apple ทำกับ Apple Silicon

    ข้อมูลสำคัญจากข่าว
    Sam Altman เดินทางเยือนไต้หวันและเกาหลีใต้เพื่อเจรจาความร่วมมือด้านชิปและดาต้าเซ็นเตอร์
    พบกับ TSMC และ Foxconn เพื่อหารือการผลิตชิป AI แบบ ASIC ด้วยเทคโนโลยี 3nm และ CoWoS
    ชิป AI ของ OpenAI จะใช้หน่วยความจำ HBM และคาดว่าจะผลิตจำนวนมากใน Q3 ปี 2026
    Foxconn จะผลิตเซิร์ฟเวอร์สำหรับโครงการ Stargate โดยใช้โรงงานในรัฐโอไฮโอที่ SoftBank ซื้อไว้
    Altman พบประธานาธิบดีเกาหลีใต้และผู้บริหาร Samsung, SK hynix เพื่อสร้างดาต้าเซ็นเตอร์ 20MW
    ดาต้าเซ็นเตอร์จะตั้งอยู่ในเมือง Phang และจังหวัด South Jeolla
    เป้าหมายคือลดการพึ่งพา Nvidia และควบคุมห่วงโซ่ฮาร์ดแวร์ของตัวเอง
    OpenAI ตั้งทีมออกแบบชิป ASIC ตั้งแต่ปี 2024 และดึงทีมงานจากโครงการ TPU ของ Google

    ข้อมูลเสริมจากภายนอก
    Stargate เป็นโครงการสร้างโครงสร้างพื้นฐาน AI มูลค่ากว่า $500 พันล้านของ OpenAI
    Oracle ลงทุน $300 พันล้านใน compute capacity ให้กับ OpenAI
    SoftBank เป็นพันธมิตรสำคัญของ OpenAI และมีบทบาทในโรงงานและดาต้าเซ็นเตอร์
    TSMC เป็นผู้ผลิตชิปอันดับหนึ่งของโลก และมีเทคโนโลยี 3nm ที่ล้ำหน้าที่สุด
    การพัฒนาชิปของตัวเองช่วยให้ OpenAI สร้างโมเดลที่เหมาะกับฮาร์ดแวร์โดยตรง

    https://www.tomshardware.com/tech-industry/openais-sam-altman-had-secret-tsmc-meeting-over-future-chip-supply-report-claims-ai-pioneer-in-asia-as-south-korea-confirms-20mw-data-center-deal-with-chatgpt-maker
    🧠 “Sam Altman เดินเกมลับในเอเชีย — จับมือ TSMC, Foxconn และเกาหลีใต้ ปูทางผลิตชิป AI ของตัวเองแทน Nvidia” Sam Altman ซีอีโอของ OpenAI เดินทางเยือนเอเชียอย่างเงียบ ๆ ในช่วงปลายเดือนกันยายน 2025 โดยมีจุดหมายสำคัญคือไต้หวันและเกาหลีใต้ เพื่อเจรจาความร่วมมือด้านการผลิตชิป AI และโครงสร้างพื้นฐานดาต้าเซ็นเตอร์ระดับโลก โดยเฉพาะโครงการ “Stargate” ที่มีมูลค่ากว่า 500,000 ล้านดอลลาร์ ซึ่งจะสร้างดาต้าเซ็นเตอร์และโรงงาน AI จำนวนมากในหลายประเทศ ในไต้หวัน Altman ได้พบกับผู้บริหารของ TSMC และ Foxconn เพื่อหารือเรื่องการออกแบบและผลิตชิป AI แบบ ASIC ที่ OpenAI กำลังพัฒนาร่วมกับ Broadcom โดยใช้เทคโนโลยี 3nm และการบรรจุชิปขั้นสูงแบบ CoWoS พร้อมหน่วยความจำ HBM ซึ่งคาดว่าจะเข้าสู่การผลิตจำนวนมากในไตรมาส 3 ปี 2026 Foxconn ซึ่งเป็นผู้ผลิตเซิร์ฟเวอร์รายใหญ่ของ Oracle จะมีบทบาทสำคัญในการผลิตฮาร์ดแวร์สำหรับ Stargate โดยเฉพาะในโรงงานที่ SoftBank เข้าซื้อในรัฐโอไฮโอ เพื่อใช้เป็นฐานการผลิตร่วมกับ OpenAI หลังจากนั้น Altman เดินทางต่อไปยังเกาหลีใต้เพื่อพบกับประธานาธิบดี Lee Jae Myung และผู้บริหารของ Samsung และ SK hynix โดยมีการลงนามข้อตกลงเบื้องต้นในการสร้างดาต้าเซ็นเตอร์ขนาด 20 เมกะวัตต์ในเมือง Phang และอีกแห่งในจังหวัด South Jeolla เป้าหมายของ Altman คือการลดการพึ่งพา Nvidia ซึ่งปัจจุบันเป็นผู้ผลิต GPU รายใหญ่ที่ OpenAI ใช้ในการฝึกและรันโมเดล AI โดยการพัฒนาชิปของตัวเองจะช่วยให้ OpenAI ควบคุมทั้งฮาร์ดแวร์และซอฟต์แวร์ได้เหมือนที่ Apple ทำกับ Apple Silicon ✅ ข้อมูลสำคัญจากข่าว ➡️ Sam Altman เดินทางเยือนไต้หวันและเกาหลีใต้เพื่อเจรจาความร่วมมือด้านชิปและดาต้าเซ็นเตอร์ ➡️ พบกับ TSMC และ Foxconn เพื่อหารือการผลิตชิป AI แบบ ASIC ด้วยเทคโนโลยี 3nm และ CoWoS ➡️ ชิป AI ของ OpenAI จะใช้หน่วยความจำ HBM และคาดว่าจะผลิตจำนวนมากใน Q3 ปี 2026 ➡️ Foxconn จะผลิตเซิร์ฟเวอร์สำหรับโครงการ Stargate โดยใช้โรงงานในรัฐโอไฮโอที่ SoftBank ซื้อไว้ ➡️ Altman พบประธานาธิบดีเกาหลีใต้และผู้บริหาร Samsung, SK hynix เพื่อสร้างดาต้าเซ็นเตอร์ 20MW ➡️ ดาต้าเซ็นเตอร์จะตั้งอยู่ในเมือง Phang และจังหวัด South Jeolla ➡️ เป้าหมายคือลดการพึ่งพา Nvidia และควบคุมห่วงโซ่ฮาร์ดแวร์ของตัวเอง ➡️ OpenAI ตั้งทีมออกแบบชิป ASIC ตั้งแต่ปี 2024 และดึงทีมงานจากโครงการ TPU ของ Google ✅ ข้อมูลเสริมจากภายนอก ➡️ Stargate เป็นโครงการสร้างโครงสร้างพื้นฐาน AI มูลค่ากว่า $500 พันล้านของ OpenAI ➡️ Oracle ลงทุน $300 พันล้านใน compute capacity ให้กับ OpenAI ➡️ SoftBank เป็นพันธมิตรสำคัญของ OpenAI และมีบทบาทในโรงงานและดาต้าเซ็นเตอร์ ➡️ TSMC เป็นผู้ผลิตชิปอันดับหนึ่งของโลก และมีเทคโนโลยี 3nm ที่ล้ำหน้าที่สุด ➡️ การพัฒนาชิปของตัวเองช่วยให้ OpenAI สร้างโมเดลที่เหมาะกับฮาร์ดแวร์โดยตรง https://www.tomshardware.com/tech-industry/openais-sam-altman-had-secret-tsmc-meeting-over-future-chip-supply-report-claims-ai-pioneer-in-asia-as-south-korea-confirms-20mw-data-center-deal-with-chatgpt-maker
    0 Comments 0 Shares 127 Views 0 Reviews
  • “OpenAI ทุ่มสร้าง Stargate — โครงการดาต้าเซ็นเตอร์ AI ใหญ่ที่สุดในโลก กิน DRAM ถึง 40% ของกำลังผลิตโลก”

    OpenAI กำลังเดินหน้าโครงการ “Stargate” ซึ่งเป็นโครงการสร้างโครงสร้างพื้นฐานด้าน AI ที่ใหญ่ที่สุดในประวัติศาสตร์ ด้วยงบประมาณกว่า 500,000 ล้านดอลลาร์ โดยร่วมมือกับพันธมิตรระดับโลกอย่าง Oracle, SoftBank และล่าสุดคือ Samsung และ SK hynix สองยักษ์ใหญ่ด้านหน่วยความจำจากเกาหลีใต้

    Stargate มีเป้าหมายในการสร้างดาต้าเซ็นเตอร์ขนาดมหึมาหลายแห่งทั่วโลก เพื่อรองรับการทำงานของชิป AI จำนวนมหาศาล โดยแต่ละเซิร์ฟเวอร์จะมี GPU หลายร้อยถึงหลายพันตัว เช่น Nvidia Blackwell ซึ่งต้องการหน่วยความจำความเร็วสูงอย่าง HBM และ DDR5 ในปริมาณมหาศาล

    ล่าสุด Samsung และ SK hynix ได้ลงนามในข้อตกลงเบื้องต้นเพื่อจัดส่งแผ่นเวเฟอร์ DRAM ให้กับ OpenAI มากถึง 900,000 แผ่นต่อเดือน ซึ่งคิดเป็นประมาณ 40% ของกำลังผลิต DRAM ทั่วโลกในปี 2025 โดยจะจัดส่งในรูปแบบ “เวเฟอร์ยังไม่ตัด” เพื่อให้ OpenAI สามารถควบคุมการผลิตและบรรจุชิปได้เองตามความต้องการ

    นอกจากการจัดส่งหน่วยความจำแล้ว Samsung SDS ยังร่วมมือกับ OpenAI ในการออกแบบและบริหารดาต้าเซ็นเตอร์ในเกาหลีใต้ พร้อมให้บริการ ChatGPT Enterprise กับองค์กรในประเทศ ขณะที่ Samsung Heavy Industries และ Samsung C&T จะร่วมพัฒนา “ดาต้าเซ็นเตอร์ลอยน้ำ” เพื่อเพิ่มประสิทธิภาพการระบายความร้อนและลดการปล่อยคาร์บอน

    การขยายตัวของ Stargate ยังรวมถึงการเปิดสำนักงาน OpenAI ในกรุงโซล ซึ่งปัจจุบันมีผู้สมัครใช้งาน ChatGPT แบบเสียเงินมากที่สุดเป็นอันดับสองของโลก รองจากสหรัฐฯ

    ข้อมูลสำคัญจากข่าว
    OpenAI สร้างโครงการ Stargate ด้วยงบประมาณกว่า $500 พันล้าน เพื่อสร้างดาต้าเซ็นเตอร์ AI ขนาดใหญ่
    Samsung และ SK hynix จะจัดส่งเวเฟอร์ DRAM ให้ OpenAI มากถึง 900,000 แผ่นต่อเดือน
    ปริมาณนี้คิดเป็นประมาณ 40% ของกำลังผลิต DRAM ทั่วโลกในปี 2025
    เวเฟอร์จะถูกส่งในรูปแบบยังไม่ตัด เพื่อให้ OpenAI ควบคุมการผลิตชิปเอง
    หน่วยความจำที่ใช้รวมถึง DDR5 และ HBM สำหรับชิป AI เช่น Nvidia Blackwell
    Samsung SDS จะร่วมออกแบบและบริหารดาต้าเซ็นเตอร์ในเกาหลีใต้
    Samsung Heavy Industries และ Samsung C&T จะร่วมพัฒนาดาต้าเซ็นเตอร์ลอยน้ำ
    OpenAI เปิดสำนักงานในกรุงโซล ซึ่งมีผู้ใช้ ChatGPT แบบเสียเงินมากเป็นอันดับสองของโลก

    ข้อมูลเสริมจากภายนอก
    HBM (High Bandwidth Memory) เป็นหน่วยความจำที่ซ้อนชิปในแนวตั้ง เพื่อเพิ่มความเร็วและลดการใช้พลังงาน
    Nvidia ลงทุนใน Stargate มากถึง $100 พันล้าน เพื่อจัดหาชิปและกำลังประมวลผล
    Oracle ขาย compute capacity ให้ OpenAI มูลค่า $300 พันล้านในระยะเวลา 5 ปี
    ดาต้าเซ็นเตอร์ของ Stargate อาจต้องใช้โรงไฟฟ้าเฉพาะเพื่อรองรับการใช้พลังงาน
    การใช้เวเฟอร์แบบยังไม่ตัดช่วยให้ OpenAI ปรับแต่งการผลิตได้ตามโมเดล AI ที่ต้องการ

    https://www.tomshardware.com/pc-components/dram/openais-stargate-project-to-consume-up-to-40-percent-of-global-dram-output-inks-deal-with-samsung-and-sk-hynix-to-the-tune-of-up-to-900-000-wafers-per-month
    🌐 “OpenAI ทุ่มสร้าง Stargate — โครงการดาต้าเซ็นเตอร์ AI ใหญ่ที่สุดในโลก กิน DRAM ถึง 40% ของกำลังผลิตโลก” OpenAI กำลังเดินหน้าโครงการ “Stargate” ซึ่งเป็นโครงการสร้างโครงสร้างพื้นฐานด้าน AI ที่ใหญ่ที่สุดในประวัติศาสตร์ ด้วยงบประมาณกว่า 500,000 ล้านดอลลาร์ โดยร่วมมือกับพันธมิตรระดับโลกอย่าง Oracle, SoftBank และล่าสุดคือ Samsung และ SK hynix สองยักษ์ใหญ่ด้านหน่วยความจำจากเกาหลีใต้ Stargate มีเป้าหมายในการสร้างดาต้าเซ็นเตอร์ขนาดมหึมาหลายแห่งทั่วโลก เพื่อรองรับการทำงานของชิป AI จำนวนมหาศาล โดยแต่ละเซิร์ฟเวอร์จะมี GPU หลายร้อยถึงหลายพันตัว เช่น Nvidia Blackwell ซึ่งต้องการหน่วยความจำความเร็วสูงอย่าง HBM และ DDR5 ในปริมาณมหาศาล ล่าสุด Samsung และ SK hynix ได้ลงนามในข้อตกลงเบื้องต้นเพื่อจัดส่งแผ่นเวเฟอร์ DRAM ให้กับ OpenAI มากถึง 900,000 แผ่นต่อเดือน ซึ่งคิดเป็นประมาณ 40% ของกำลังผลิต DRAM ทั่วโลกในปี 2025 โดยจะจัดส่งในรูปแบบ “เวเฟอร์ยังไม่ตัด” เพื่อให้ OpenAI สามารถควบคุมการผลิตและบรรจุชิปได้เองตามความต้องการ นอกจากการจัดส่งหน่วยความจำแล้ว Samsung SDS ยังร่วมมือกับ OpenAI ในการออกแบบและบริหารดาต้าเซ็นเตอร์ในเกาหลีใต้ พร้อมให้บริการ ChatGPT Enterprise กับองค์กรในประเทศ ขณะที่ Samsung Heavy Industries และ Samsung C&T จะร่วมพัฒนา “ดาต้าเซ็นเตอร์ลอยน้ำ” เพื่อเพิ่มประสิทธิภาพการระบายความร้อนและลดการปล่อยคาร์บอน การขยายตัวของ Stargate ยังรวมถึงการเปิดสำนักงาน OpenAI ในกรุงโซล ซึ่งปัจจุบันมีผู้สมัครใช้งาน ChatGPT แบบเสียเงินมากที่สุดเป็นอันดับสองของโลก รองจากสหรัฐฯ ✅ ข้อมูลสำคัญจากข่าว ➡️ OpenAI สร้างโครงการ Stargate ด้วยงบประมาณกว่า $500 พันล้าน เพื่อสร้างดาต้าเซ็นเตอร์ AI ขนาดใหญ่ ➡️ Samsung และ SK hynix จะจัดส่งเวเฟอร์ DRAM ให้ OpenAI มากถึง 900,000 แผ่นต่อเดือน ➡️ ปริมาณนี้คิดเป็นประมาณ 40% ของกำลังผลิต DRAM ทั่วโลกในปี 2025 ➡️ เวเฟอร์จะถูกส่งในรูปแบบยังไม่ตัด เพื่อให้ OpenAI ควบคุมการผลิตชิปเอง ➡️ หน่วยความจำที่ใช้รวมถึง DDR5 และ HBM สำหรับชิป AI เช่น Nvidia Blackwell ➡️ Samsung SDS จะร่วมออกแบบและบริหารดาต้าเซ็นเตอร์ในเกาหลีใต้ ➡️ Samsung Heavy Industries และ Samsung C&T จะร่วมพัฒนาดาต้าเซ็นเตอร์ลอยน้ำ ➡️ OpenAI เปิดสำนักงานในกรุงโซล ซึ่งมีผู้ใช้ ChatGPT แบบเสียเงินมากเป็นอันดับสองของโลก ✅ ข้อมูลเสริมจากภายนอก ➡️ HBM (High Bandwidth Memory) เป็นหน่วยความจำที่ซ้อนชิปในแนวตั้ง เพื่อเพิ่มความเร็วและลดการใช้พลังงาน ➡️ Nvidia ลงทุนใน Stargate มากถึง $100 พันล้าน เพื่อจัดหาชิปและกำลังประมวลผล ➡️ Oracle ขาย compute capacity ให้ OpenAI มูลค่า $300 พันล้านในระยะเวลา 5 ปี ➡️ ดาต้าเซ็นเตอร์ของ Stargate อาจต้องใช้โรงไฟฟ้าเฉพาะเพื่อรองรับการใช้พลังงาน ➡️ การใช้เวเฟอร์แบบยังไม่ตัดช่วยให้ OpenAI ปรับแต่งการผลิตได้ตามโมเดล AI ที่ต้องการ https://www.tomshardware.com/pc-components/dram/openais-stargate-project-to-consume-up-to-40-percent-of-global-dram-output-inks-deal-with-samsung-and-sk-hynix-to-the-tune-of-up-to-900-000-wafers-per-month
    0 Comments 0 Shares 137 Views 0 Reviews
  • “Grok 4 เปิดตัวบน Azure AI Foundry — เมื่อ AI ของ Elon Musk กลายเป็นตัวเลือกใหม่สำหรับงานวิเคราะห์ระดับลึก”

    Microsoft ประกาศเปิดให้ใช้งาน Grok 4 บนแพลตฟอร์ม Azure AI Foundry อย่างเป็นทางการ หลังจากผ่านการทดลองใช้งานแบบส่วนตัว โดย Grok 4 เป็นโมเดล AI จาก xAI ของ Elon Musk ที่เน้นด้าน “frontier-level reasoning” หรือการวิเคราะห์เชิงตรรกะ วิทยาศาสตร์ คณิตศาสตร์ และการเขียนโค้ดขั้นสูง มากกว่าการสร้างสรรค์เนื้อหาแบบทั่วไป

    แม้ Grok 4 จะยังด้อยกว่าคู่แข่งอย่าง GPT-4 และ Gemini ในด้านความเข้าใจภาพและความสามารถแบบมัลติโหมด แต่จุดแข็งของมันคือการประมวลผลข้อมูลเชิงลึกในบริบทที่ซับซ้อน โดยมี context window ขนาดใหญ่ถึง 128,000 tokens ซึ่งเทียบเท่ากับ GPT-4 Turbo และเหนือกว่าหลายโมเดลในตลาด

    Microsoft เปิดให้ใช้งาน Grok 4 ผ่าน Azure ในรูปแบบ “AI supermarket” ที่ให้ลูกค้าเลือกโมเดลจากหลายผู้พัฒนาได้อย่างอิสระ โดยมี 3 รุ่นให้เลือกใช้งาน ได้แก่ Grok 4 Fast Reasoning สำหรับงานวิเคราะห์, Grok 4 Fast Non-Reasoning สำหรับงานทั่วไป และ Grok Code Fast 1 สำหรับนักพัฒนา โดยทั้งหมดมีจุดเด่นด้านความเร็วและการควบคุมความปลอดภัยระดับองค์กร

    ราคาการใช้งานอยู่ที่ $5.5 ต่อ input tokens หนึ่งล้าน และ $27.5 ต่อ output tokens หนึ่งล้าน ซึ่งถือว่าอยู่ในระดับแข่งขันได้เมื่อเทียบกับโมเดลระดับสูงอื่น ๆ

    แม้ Grok 4 จะมีประสิทธิภาพสูง แต่ก็ไม่ใช่โมเดลที่ “deploy แล้วลืม” เพราะ Microsoft เน้นให้ผู้ใช้งานตั้งระบบ guardrails และตรวจสอบผลลัพธ์อย่างต่อเนื่อง โดยจะมีการเผยแพร่คะแนนความปลอดภัยใหม่ในอนาคต

    ก่อนหน้านี้ Grok เคยมีประเด็นด้านความปลอดภัย เช่น การตอบคำถามที่ไม่เหมาะสมในเวอร์ชันก่อน ทำให้ Microsoftเลือกใช้แนวทาง “ระมัดระวัง” ในการเปิดตัวบน Azure เพื่อให้มั่นใจว่าการใช้งานจะอยู่ภายใต้การควบคุมที่เหมาะสม

    ข้อมูลสำคัญจากข่าว
    Microsoft เปิดให้ใช้งาน Grok 4 บน Azure AI Foundry อย่างเป็นทางการ
    Grok 4 เป็นโมเดลจาก xAI ที่เน้นการวิเคราะห์เชิงตรรกะ วิทยาศาสตร์ และโค้ด
    มี context window ขนาด 128,000 tokens เทียบเท่า GPT-4 Turbo
    มี 3 รุ่นให้เลือกใช้งาน: Fast Reasoning, Fast Non-Reasoning, และ Code Fast 1
    ราคาอยู่ที่ $5.5 ต่อ input tokens หนึ่งล้าน และ $27.5 ต่อ output tokens หนึ่งล้าน
    Microsoft เน้นให้ผู้ใช้ตั้งระบบ guardrails และตรวจสอบผลลัพธ์
    Grok 4 เป็นส่วนหนึ่งของแนวคิด “AI supermarket” บน Azure
    เปิดใช้งานทั่วโลกภายใต้หมวด Global Standard Deployment
    xAI เซ็นสัญญากับรัฐบาลสหรัฐฯ เพื่อใช้งาน Grok ในหน่วยงานต่าง ๆ

    ข้อมูลเสริมจากภายนอก
    Grok 4 ถูกพัฒนาโดยทีมของ Elon Musk เพื่อแข่งขันกับ OpenAI และ Google
    xAI มีแผนใช้ GPU H100 จำนวน 50 ล้านตัวใน 5 ปีข้างหน้าเพื่อขยายการใช้งาน Grok
    Grok 2.5 เคยเปิดให้ใช้งานแบบโอเพ่นซอร์สเพื่อให้ชุมชนร่วมพัฒนา
    Azure AI Foundry เป็นแพลตฟอร์มที่รวมโมเดลจากหลายผู้พัฒนา เช่น OpenAI, Meta, Mistral
    การใช้ context window ขนาดใหญ่ช่วยให้โมเดลเข้าใจข้อมูลต่อเนื่องได้ดีขึ้นในงานวิเคราะห์

    https://www.tomshardware.com/tech-industry/artificial-intelligence/microsoft-adds-grok-4-to-azure-ai-foundry-following-cautious-trials-elon-musks-latest-ai-model-is-now-available-to-deploy-for-frontier-level-reasoning
    🧠 “Grok 4 เปิดตัวบน Azure AI Foundry — เมื่อ AI ของ Elon Musk กลายเป็นตัวเลือกใหม่สำหรับงานวิเคราะห์ระดับลึก” Microsoft ประกาศเปิดให้ใช้งาน Grok 4 บนแพลตฟอร์ม Azure AI Foundry อย่างเป็นทางการ หลังจากผ่านการทดลองใช้งานแบบส่วนตัว โดย Grok 4 เป็นโมเดล AI จาก xAI ของ Elon Musk ที่เน้นด้าน “frontier-level reasoning” หรือการวิเคราะห์เชิงตรรกะ วิทยาศาสตร์ คณิตศาสตร์ และการเขียนโค้ดขั้นสูง มากกว่าการสร้างสรรค์เนื้อหาแบบทั่วไป แม้ Grok 4 จะยังด้อยกว่าคู่แข่งอย่าง GPT-4 และ Gemini ในด้านความเข้าใจภาพและความสามารถแบบมัลติโหมด แต่จุดแข็งของมันคือการประมวลผลข้อมูลเชิงลึกในบริบทที่ซับซ้อน โดยมี context window ขนาดใหญ่ถึง 128,000 tokens ซึ่งเทียบเท่ากับ GPT-4 Turbo และเหนือกว่าหลายโมเดลในตลาด Microsoft เปิดให้ใช้งาน Grok 4 ผ่าน Azure ในรูปแบบ “AI supermarket” ที่ให้ลูกค้าเลือกโมเดลจากหลายผู้พัฒนาได้อย่างอิสระ โดยมี 3 รุ่นให้เลือกใช้งาน ได้แก่ Grok 4 Fast Reasoning สำหรับงานวิเคราะห์, Grok 4 Fast Non-Reasoning สำหรับงานทั่วไป และ Grok Code Fast 1 สำหรับนักพัฒนา โดยทั้งหมดมีจุดเด่นด้านความเร็วและการควบคุมความปลอดภัยระดับองค์กร ราคาการใช้งานอยู่ที่ $5.5 ต่อ input tokens หนึ่งล้าน และ $27.5 ต่อ output tokens หนึ่งล้าน ซึ่งถือว่าอยู่ในระดับแข่งขันได้เมื่อเทียบกับโมเดลระดับสูงอื่น ๆ แม้ Grok 4 จะมีประสิทธิภาพสูง แต่ก็ไม่ใช่โมเดลที่ “deploy แล้วลืม” เพราะ Microsoft เน้นให้ผู้ใช้งานตั้งระบบ guardrails และตรวจสอบผลลัพธ์อย่างต่อเนื่อง โดยจะมีการเผยแพร่คะแนนความปลอดภัยใหม่ในอนาคต ก่อนหน้านี้ Grok เคยมีประเด็นด้านความปลอดภัย เช่น การตอบคำถามที่ไม่เหมาะสมในเวอร์ชันก่อน ทำให้ Microsoftเลือกใช้แนวทาง “ระมัดระวัง” ในการเปิดตัวบน Azure เพื่อให้มั่นใจว่าการใช้งานจะอยู่ภายใต้การควบคุมที่เหมาะสม ✅ ข้อมูลสำคัญจากข่าว ➡️ Microsoft เปิดให้ใช้งาน Grok 4 บน Azure AI Foundry อย่างเป็นทางการ ➡️ Grok 4 เป็นโมเดลจาก xAI ที่เน้นการวิเคราะห์เชิงตรรกะ วิทยาศาสตร์ และโค้ด ➡️ มี context window ขนาด 128,000 tokens เทียบเท่า GPT-4 Turbo ➡️ มี 3 รุ่นให้เลือกใช้งาน: Fast Reasoning, Fast Non-Reasoning, และ Code Fast 1 ➡️ ราคาอยู่ที่ $5.5 ต่อ input tokens หนึ่งล้าน และ $27.5 ต่อ output tokens หนึ่งล้าน ➡️ Microsoft เน้นให้ผู้ใช้ตั้งระบบ guardrails และตรวจสอบผลลัพธ์ ➡️ Grok 4 เป็นส่วนหนึ่งของแนวคิด “AI supermarket” บน Azure ➡️ เปิดใช้งานทั่วโลกภายใต้หมวด Global Standard Deployment ➡️ xAI เซ็นสัญญากับรัฐบาลสหรัฐฯ เพื่อใช้งาน Grok ในหน่วยงานต่าง ๆ ✅ ข้อมูลเสริมจากภายนอก ➡️ Grok 4 ถูกพัฒนาโดยทีมของ Elon Musk เพื่อแข่งขันกับ OpenAI และ Google ➡️ xAI มีแผนใช้ GPU H100 จำนวน 50 ล้านตัวใน 5 ปีข้างหน้าเพื่อขยายการใช้งาน Grok ➡️ Grok 2.5 เคยเปิดให้ใช้งานแบบโอเพ่นซอร์สเพื่อให้ชุมชนร่วมพัฒนา ➡️ Azure AI Foundry เป็นแพลตฟอร์มที่รวมโมเดลจากหลายผู้พัฒนา เช่น OpenAI, Meta, Mistral ➡️ การใช้ context window ขนาดใหญ่ช่วยให้โมเดลเข้าใจข้อมูลต่อเนื่องได้ดีขึ้นในงานวิเคราะห์ https://www.tomshardware.com/tech-industry/artificial-intelligence/microsoft-adds-grok-4-to-azure-ai-foundry-following-cautious-trials-elon-musks-latest-ai-model-is-now-available-to-deploy-for-frontier-level-reasoning
    0 Comments 0 Shares 152 Views 0 Reviews
  • “AI ดันศูนย์ข้อมูลสู่ยุค 1 เมกะวัตต์ต่อแร็ค — เมื่อพลังงานและความร้อนกลายเป็นศูนย์กลางของโครงสร้างดิจิทัล”

    ในอดีต แร็คในศูนย์ข้อมูลเคยใช้พลังงานเพียงไม่กี่กิโลวัตต์ แต่ด้วยการเติบโตของงานประมวลผล AI ที่ต้องการพลังมหาศาล ข้อมูลล่าสุดจาก Lennox Data Centre Solutions ระบุว่า ภายในปี 2030 แร็คที่เน้นงาน AI อาจใช้พลังงานสูงถึง 1 เมกะวัตต์ต่อแร็ค ซึ่งเทียบเท่ากับการใช้พลังงานของศูนย์ข้อมูลทั้งแห่งในอดีต

    แร็คทั่วไปจะขยับขึ้นไปอยู่ที่ 30–50 กิโลวัตต์ในช่วงเวลาเดียวกัน แต่แร็ค AI จะใช้พลังงานมากกว่าถึง 20–30 เท่า ทำให้ “การจ่ายไฟ” และ “การระบายความร้อน” กลายเป็นหัวใจของการออกแบบศูนย์ข้อมูลยุคใหม่

    Ted Pulfer จาก Lennox ระบุว่า อุตสาหกรรมกำลังเปลี่ยนจากการใช้ไฟฟ้า AC แบบเดิม ไปสู่ระบบ DC แรงสูง เช่น +/-400V เพื่อลดการสูญเสียพลังงานและขนาดสายไฟ พร้อมทั้งใช้ระบบระบายความร้อนแบบ liquid cooling ที่ควบคุมโดย CDU (Coolant Distribution Unit) ซึ่งส่งน้ำหล่อเย็นไปยัง cold plate ที่ติดตั้งตรงจุดร้อนของเซิร์ฟเวอร์

    Microsoft กำลังทดลองระบบ microfluidics ที่ฝังร่องเล็ก ๆ บนชิปเพื่อให้น้ำหล่อเย็นไหลผ่านโดยตรง ซึ่งช่วยลดอุณหภูมิ GPU ได้ถึง 65% และเพิ่มประสิทธิภาพการระบายความร้อนถึง 3 เท่า เมื่อรวมกับ AI ที่ช่วยตรวจจับจุดร้อนบนชิป ระบบนี้สามารถควบคุมการไหลของน้ำได้แม่นยำยิ่งขึ้น

    แม้ hyperscaler อย่าง Google และ Microsoft จะเป็นผู้นำในด้านนี้ แต่ Ted เชื่อว่าผู้ให้บริการรายเล็กยังมีโอกาส เพราะความคล่องตัวและนวัตกรรมยังเป็นจุดแข็งที่สำคัญในตลาดที่เปลี่ยนแปลงเร็ว

    ข้อมูลสำคัญจากข่าว
    แร็ค AI อาจใช้พลังงานถึง 1 เมกะวัตต์ต่อแร็คภายในปี 2030
    แร็คทั่วไปจะขยับขึ้นไปอยู่ที่ 30–50 กิโลวัตต์ในช่วงเดียวกัน
    แร็ค AI ใช้พลังงานมากกว่ารุ่นทั่วไปถึง 20–30 เท่า
    อุตสาหกรรมเปลี่ยนไปใช้ระบบไฟฟ้า DC แรงสูง เช่น +/-400V
    ระบบระบายความร้อนแบบ liquid cooling ถูกควบคุมโดย CDU
    Microsoft ทดลองระบบ microfluidics ที่ฝังร่องบนชิปเพื่อให้น้ำไหลผ่านโดยตรง
    ระบบใหม่ช่วยลดอุณหภูมิ GPU ได้ถึง 65% และเพิ่มประสิทธิภาพการระบายความร้อนถึง 3 เท่า
    AI ถูกนำมาใช้ร่วมกับระบบระบายความร้อนเพื่อควบคุมการไหลของน้ำอย่างแม่นยำ
    ผู้ให้บริการรายเล็กยังมีโอกาสแข่งขันในตลาดผ่านความคล่องตัวและนวัตกรรม

    ข้อมูลเสริมจากภายนอก
    น้ำมีความสามารถในการนำความร้อนสูงกว่าอากาศถึง 30 เท่า และบรรจุพลังงานความร้อนได้มากกว่า 4,000 เท่า
    Google ใช้ liquid cooling กับ TPU Pods มากกว่า 2,000 ชุด และมี uptime ถึง 99.999% ตลอด 7 ปี
    การใช้ +/-400V DC ช่วยลดขนาดสายไฟและเพิ่มประสิทธิภาพการจ่ายไฟ
    ระบบ AC-to-DC sidecar ช่วยแยกส่วนพลังงานออกจากแร็ค ทำให้พื้นที่ภายในแร็คใช้สำหรับ compute ได้เต็มที่
    การออกแบบแร็คใหม่อาจเป็นตัวกำหนดอนาคตของโครงสร้างดิจิทัลทั้งหมด

    https://www.techradar.com/pro/security/this-graph-alone-shows-how-global-ai-power-consumption-is-getting-out-of-hand-very-quickly-and-its-not-just-about-hyperscalers-or-openai
    🔥 “AI ดันศูนย์ข้อมูลสู่ยุค 1 เมกะวัตต์ต่อแร็ค — เมื่อพลังงานและความร้อนกลายเป็นศูนย์กลางของโครงสร้างดิจิทัล” ในอดีต แร็คในศูนย์ข้อมูลเคยใช้พลังงานเพียงไม่กี่กิโลวัตต์ แต่ด้วยการเติบโตของงานประมวลผล AI ที่ต้องการพลังมหาศาล ข้อมูลล่าสุดจาก Lennox Data Centre Solutions ระบุว่า ภายในปี 2030 แร็คที่เน้นงาน AI อาจใช้พลังงานสูงถึง 1 เมกะวัตต์ต่อแร็ค ซึ่งเทียบเท่ากับการใช้พลังงานของศูนย์ข้อมูลทั้งแห่งในอดีต แร็คทั่วไปจะขยับขึ้นไปอยู่ที่ 30–50 กิโลวัตต์ในช่วงเวลาเดียวกัน แต่แร็ค AI จะใช้พลังงานมากกว่าถึง 20–30 เท่า ทำให้ “การจ่ายไฟ” และ “การระบายความร้อน” กลายเป็นหัวใจของการออกแบบศูนย์ข้อมูลยุคใหม่ Ted Pulfer จาก Lennox ระบุว่า อุตสาหกรรมกำลังเปลี่ยนจากการใช้ไฟฟ้า AC แบบเดิม ไปสู่ระบบ DC แรงสูง เช่น +/-400V เพื่อลดการสูญเสียพลังงานและขนาดสายไฟ พร้อมทั้งใช้ระบบระบายความร้อนแบบ liquid cooling ที่ควบคุมโดย CDU (Coolant Distribution Unit) ซึ่งส่งน้ำหล่อเย็นไปยัง cold plate ที่ติดตั้งตรงจุดร้อนของเซิร์ฟเวอร์ Microsoft กำลังทดลองระบบ microfluidics ที่ฝังร่องเล็ก ๆ บนชิปเพื่อให้น้ำหล่อเย็นไหลผ่านโดยตรง ซึ่งช่วยลดอุณหภูมิ GPU ได้ถึง 65% และเพิ่มประสิทธิภาพการระบายความร้อนถึง 3 เท่า เมื่อรวมกับ AI ที่ช่วยตรวจจับจุดร้อนบนชิป ระบบนี้สามารถควบคุมการไหลของน้ำได้แม่นยำยิ่งขึ้น แม้ hyperscaler อย่าง Google และ Microsoft จะเป็นผู้นำในด้านนี้ แต่ Ted เชื่อว่าผู้ให้บริการรายเล็กยังมีโอกาส เพราะความคล่องตัวและนวัตกรรมยังเป็นจุดแข็งที่สำคัญในตลาดที่เปลี่ยนแปลงเร็ว ✅ ข้อมูลสำคัญจากข่าว ➡️ แร็ค AI อาจใช้พลังงานถึง 1 เมกะวัตต์ต่อแร็คภายในปี 2030 ➡️ แร็คทั่วไปจะขยับขึ้นไปอยู่ที่ 30–50 กิโลวัตต์ในช่วงเดียวกัน ➡️ แร็ค AI ใช้พลังงานมากกว่ารุ่นทั่วไปถึง 20–30 เท่า ➡️ อุตสาหกรรมเปลี่ยนไปใช้ระบบไฟฟ้า DC แรงสูง เช่น +/-400V ➡️ ระบบระบายความร้อนแบบ liquid cooling ถูกควบคุมโดย CDU ➡️ Microsoft ทดลองระบบ microfluidics ที่ฝังร่องบนชิปเพื่อให้น้ำไหลผ่านโดยตรง ➡️ ระบบใหม่ช่วยลดอุณหภูมิ GPU ได้ถึง 65% และเพิ่มประสิทธิภาพการระบายความร้อนถึง 3 เท่า ➡️ AI ถูกนำมาใช้ร่วมกับระบบระบายความร้อนเพื่อควบคุมการไหลของน้ำอย่างแม่นยำ ➡️ ผู้ให้บริการรายเล็กยังมีโอกาสแข่งขันในตลาดผ่านความคล่องตัวและนวัตกรรม ✅ ข้อมูลเสริมจากภายนอก ➡️ น้ำมีความสามารถในการนำความร้อนสูงกว่าอากาศถึง 30 เท่า และบรรจุพลังงานความร้อนได้มากกว่า 4,000 เท่า ➡️ Google ใช้ liquid cooling กับ TPU Pods มากกว่า 2,000 ชุด และมี uptime ถึง 99.999% ตลอด 7 ปี ➡️ การใช้ +/-400V DC ช่วยลดขนาดสายไฟและเพิ่มประสิทธิภาพการจ่ายไฟ ➡️ ระบบ AC-to-DC sidecar ช่วยแยกส่วนพลังงานออกจากแร็ค ทำให้พื้นที่ภายในแร็คใช้สำหรับ compute ได้เต็มที่ ➡️ การออกแบบแร็คใหม่อาจเป็นตัวกำหนดอนาคตของโครงสร้างดิจิทัลทั้งหมด https://www.techradar.com/pro/security/this-graph-alone-shows-how-global-ai-power-consumption-is-getting-out-of-hand-very-quickly-and-its-not-just-about-hyperscalers-or-openai
    WWW.TECHRADAR.COM
    Projections show AI racks may consume 20 to 30 times the energy of traditional racks by 2030
    AI racks could consume 20 to 30 times the energy of traditional racks by 2030
    0 Comments 0 Shares 144 Views 0 Reviews
  • Anthropic เปิดเบื้องหลัง 3 บั๊กใหญ่ที่ทำให้ Claude ตอบผิดเพี้ยน — เมื่อ AI ไม่ได้ “เนิร์ฟ” แต่โครงสร้างพื้นฐานพัง

    ระหว่างเดือนสิงหาคมถึงต้นกันยายน 2025 ผู้ใช้ Claude หลายคนเริ่มสังเกตว่าคุณภาพการตอบกลับของโมเดลลดลงอย่างผิดปกติ บางคนได้รับคำตอบที่แปลกประหลาด เช่นมีตัวอักษรไทยโผล่กลางข้อความภาษาอังกฤษ หรือโค้ดที่ผิดไวยากรณ์อย่างชัดเจน จนเกิดข้อสงสัยว่า Anthropic กำลัง “ลดคุณภาพ” ของโมเดลเพื่อจัดการกับโหลดหรือควบคุมต้นทุน

    แต่ล่าสุด Anthropic ได้ออกมาเปิดเผยอย่างตรงไปตรงมาว่า ปัญหาทั้งหมดเกิดจาก “บั๊กในโครงสร้างพื้นฐาน” ไม่ใช่การลดคุณภาพโดยเจตนา โดยมีทั้งหมด 3 บั๊กที่เกิดขึ้นพร้อมกันและส่งผลกระทบต่อโมเดล Claude หลายรุ่น ได้แก่ Sonnet 4, Opus 4.1, Haiku 3.5 และ Opus 3

    บั๊กแรกคือการ “ส่งคำขอผิดเซิร์ฟเวอร์” โดยคำขอที่ควรใช้ context window แบบสั้น กลับถูกส่งไปยังเซิร์ฟเวอร์ที่เตรียมไว้สำหรับ context window ขนาด 1 ล้านโทเคน ซึ่งยังไม่พร้อมใช้งาน ทำให้การตอบกลับผิดเพี้ยนและช้า โดยเฉพาะในช่วงปลายเดือนสิงหาคมที่มีการเปลี่ยนแปลงระบบ load balancing ทำให้คำขอผิดพลาดเพิ่มขึ้นถึง 16%

    บั๊กที่สองคือ “การสร้างโทเคนผิดพลาด” บนเซิร์ฟเวอร์ TPU ซึ่งเกิดจากการปรับแต่งประสิทธิภาพที่ทำให้โมเดลเลือกโทเคนที่ไม่ควรปรากฏ เช่น ตัวอักษรจีนหรือไทยในคำตอบภาษาอังกฤษ หรือโค้ดที่มี syntax ผิดอย่างชัดเจน

    บั๊กสุดท้ายคือ “การคอมไพล์ผิดพลาดใน XLA:TPU” ซึ่งเกิดจากการใช้การคำนวณแบบ approximate top-k ที่ควรช่วยเพิ่มประสิทธิภาพ แต่กลับทำให้โมเดลเลือกโทเคนผิด โดยเฉพาะเมื่อใช้ precision ที่ไม่ตรงกันระหว่าง bf16 และ fp32 ทำให้โทเคนที่ควรมีโอกาสสูงสุดถูกตัดออกไปโดยไม่ตั้งใจ

    Anthropic ได้แก้ไขบั๊กทั้งหมดแล้ว และประกาศแผนปรับปรุงระบบตรวจสอบคุณภาพให้ละเอียดขึ้น รวมถึงพัฒนาเครื่องมือ debug ที่ไม่ละเมิดความเป็นส่วนตัวของผู้ใช้ พร้อมขอความร่วมมือจากผู้ใช้ให้ส่ง feedback เมื่อพบปัญหา เพื่อช่วยให้ทีมงานตรวจสอบได้เร็วขึ้น

    Claude ตอบผิดเพี้ยนจาก 3 บั๊กในโครงสร้างพื้นฐาน
    ไม่ใช่การลดคุณภาพโดยเจตนา
    ส่งผลกระทบต่อหลายรุ่น เช่น Sonnet 4, Opus 4.1, Haiku 3.5

    บั๊กที่ 1: Context window routing error
    คำขอถูกส่งไปยังเซิร์ฟเวอร์ที่ใช้ context window 1M โดยผิดพลาด
    ส่งผลให้คำตอบผิดเพี้ยน โดยเฉพาะช่วงปลายเดือนสิงหาคม

    บั๊กที่ 2: Output corruption บน TPU
    โทเคนที่ไม่ควรปรากฏถูกเลือก เช่น “สวัสดี” ในคำตอบภาษาอังกฤษ
    เกิดจากการปรับแต่งประสิทธิภาพที่ผิดพลาด

    บั๊กที่ 3: XLA:TPU miscompilation
    การใช้ approximate top-k ทำให้โทเคนที่ควรมีโอกาสสูงสุดถูกตัดออก
    เกิดจาก precision mismatch ระหว่าง bf16 และ fp32

    Anthropic แก้ไขบั๊กทั้งหมดแล้ว
    ปรับ routing logic / rollback การเปลี่ยนแปลง / ใช้ exact top-k แทน
    เพิ่มการตรวจสอบคุณภาพและเครื่องมือ debug ใหม่

    ผู้ใช้สามารถช่วยแจ้งปัญหาได้โดยใช้ /bug หรือปุ่ม thumbs down
    Feedback จากผู้ใช้ช่วยให้ทีมงานตรวจสอบได้เร็วขึ้น
    Anthropic ยืนยันความโปร่งใสและขอบคุณชุมชนที่ช่วยเหลือ

    https://www.anthropic.com/engineering/a-postmortem-of-three-recent-issues
    📰 Anthropic เปิดเบื้องหลัง 3 บั๊กใหญ่ที่ทำให้ Claude ตอบผิดเพี้ยน — เมื่อ AI ไม่ได้ “เนิร์ฟ” แต่โครงสร้างพื้นฐานพัง ระหว่างเดือนสิงหาคมถึงต้นกันยายน 2025 ผู้ใช้ Claude หลายคนเริ่มสังเกตว่าคุณภาพการตอบกลับของโมเดลลดลงอย่างผิดปกติ บางคนได้รับคำตอบที่แปลกประหลาด เช่นมีตัวอักษรไทยโผล่กลางข้อความภาษาอังกฤษ หรือโค้ดที่ผิดไวยากรณ์อย่างชัดเจน จนเกิดข้อสงสัยว่า Anthropic กำลัง “ลดคุณภาพ” ของโมเดลเพื่อจัดการกับโหลดหรือควบคุมต้นทุน แต่ล่าสุด Anthropic ได้ออกมาเปิดเผยอย่างตรงไปตรงมาว่า ปัญหาทั้งหมดเกิดจาก “บั๊กในโครงสร้างพื้นฐาน” ไม่ใช่การลดคุณภาพโดยเจตนา โดยมีทั้งหมด 3 บั๊กที่เกิดขึ้นพร้อมกันและส่งผลกระทบต่อโมเดล Claude หลายรุ่น ได้แก่ Sonnet 4, Opus 4.1, Haiku 3.5 และ Opus 3 บั๊กแรกคือการ “ส่งคำขอผิดเซิร์ฟเวอร์” โดยคำขอที่ควรใช้ context window แบบสั้น กลับถูกส่งไปยังเซิร์ฟเวอร์ที่เตรียมไว้สำหรับ context window ขนาด 1 ล้านโทเคน ซึ่งยังไม่พร้อมใช้งาน ทำให้การตอบกลับผิดเพี้ยนและช้า โดยเฉพาะในช่วงปลายเดือนสิงหาคมที่มีการเปลี่ยนแปลงระบบ load balancing ทำให้คำขอผิดพลาดเพิ่มขึ้นถึง 16% บั๊กที่สองคือ “การสร้างโทเคนผิดพลาด” บนเซิร์ฟเวอร์ TPU ซึ่งเกิดจากการปรับแต่งประสิทธิภาพที่ทำให้โมเดลเลือกโทเคนที่ไม่ควรปรากฏ เช่น ตัวอักษรจีนหรือไทยในคำตอบภาษาอังกฤษ หรือโค้ดที่มี syntax ผิดอย่างชัดเจน บั๊กสุดท้ายคือ “การคอมไพล์ผิดพลาดใน XLA:TPU” ซึ่งเกิดจากการใช้การคำนวณแบบ approximate top-k ที่ควรช่วยเพิ่มประสิทธิภาพ แต่กลับทำให้โมเดลเลือกโทเคนผิด โดยเฉพาะเมื่อใช้ precision ที่ไม่ตรงกันระหว่าง bf16 และ fp32 ทำให้โทเคนที่ควรมีโอกาสสูงสุดถูกตัดออกไปโดยไม่ตั้งใจ Anthropic ได้แก้ไขบั๊กทั้งหมดแล้ว และประกาศแผนปรับปรุงระบบตรวจสอบคุณภาพให้ละเอียดขึ้น รวมถึงพัฒนาเครื่องมือ debug ที่ไม่ละเมิดความเป็นส่วนตัวของผู้ใช้ พร้อมขอความร่วมมือจากผู้ใช้ให้ส่ง feedback เมื่อพบปัญหา เพื่อช่วยให้ทีมงานตรวจสอบได้เร็วขึ้น ✅ Claude ตอบผิดเพี้ยนจาก 3 บั๊กในโครงสร้างพื้นฐาน ➡️ ไม่ใช่การลดคุณภาพโดยเจตนา ➡️ ส่งผลกระทบต่อหลายรุ่น เช่น Sonnet 4, Opus 4.1, Haiku 3.5 ✅ บั๊กที่ 1: Context window routing error ➡️ คำขอถูกส่งไปยังเซิร์ฟเวอร์ที่ใช้ context window 1M โดยผิดพลาด ➡️ ส่งผลให้คำตอบผิดเพี้ยน โดยเฉพาะช่วงปลายเดือนสิงหาคม ✅ บั๊กที่ 2: Output corruption บน TPU ➡️ โทเคนที่ไม่ควรปรากฏถูกเลือก เช่น “สวัสดี” ในคำตอบภาษาอังกฤษ ➡️ เกิดจากการปรับแต่งประสิทธิภาพที่ผิดพลาด ✅ บั๊กที่ 3: XLA:TPU miscompilation ➡️ การใช้ approximate top-k ทำให้โทเคนที่ควรมีโอกาสสูงสุดถูกตัดออก ➡️ เกิดจาก precision mismatch ระหว่าง bf16 และ fp32 ✅ Anthropic แก้ไขบั๊กทั้งหมดแล้ว ➡️ ปรับ routing logic / rollback การเปลี่ยนแปลง / ใช้ exact top-k แทน ➡️ เพิ่มการตรวจสอบคุณภาพและเครื่องมือ debug ใหม่ ✅ ผู้ใช้สามารถช่วยแจ้งปัญหาได้โดยใช้ /bug หรือปุ่ม thumbs down ➡️ Feedback จากผู้ใช้ช่วยให้ทีมงานตรวจสอบได้เร็วขึ้น ➡️ Anthropic ยืนยันความโปร่งใสและขอบคุณชุมชนที่ช่วยเหลือ https://www.anthropic.com/engineering/a-postmortem-of-three-recent-issues
    WWW.ANTHROPIC.COM
    A postmortem of three recent issues
    This is a technical report on three bugs that intermittently degraded responses from Claude. Below we explain what happened, why it took time to fix, and what we're changing.
    0 Comments 0 Shares 222 Views 0 Reviews
  • เรื่องเล่าจาก 3 ล้าน IOPS สู่ 100 ล้าน IOPS: เมื่อ SSD กลายเป็นหัวใจของการประมวลผล AI

    ในปี 2027 Kioxia เตรียมเปิดตัว SSD ที่สามารถทำงานได้ถึง 100 ล้าน IOPS (Input/Output Operations Per Second) ซึ่งมากกว่าความสามารถของ SSD ปัจจุบันถึง 33 เท่า โดยจะใช้ร่วมกับ GPU ของ Nvidia เพื่อเร่งการประมวลผล AI โดยเฉพาะ

    SSD รุ่นใหม่นี้จะเชื่อมต่อผ่าน PCIe 7.0 แบบ peer-to-peer กับ GPU โดยตรง ซึ่งช่วยลด latency และเพิ่ม throughput อย่างมหาศาล เหมาะกับงาน AI ที่ต้องอ่านข้อมูลแบบสุ่มขนาดเล็ก เช่น embeddings, model weights หรือ database entries

    Kioxia วางแผนใช้ XL-Flash ซึ่งเป็น NAND แบบ SLC ที่มี latency ต่ำและ endurance สูง โดยอาจต้องใช้ถึง 915 NAND dies เพื่อให้ได้ความเร็วระดับนั้น ซึ่งจะต้องใช้ controller แบบพิเศษ และอาจต้องใช้เทคโนโลยีใหม่อย่าง High Bandwidth Flash (HBF) ที่รวม NAND หลายตัวไว้ใน stack เดียว

    แม้จะมีความท้าทายด้านการออกแบบ เช่น การจัดการ channel bandwidth, queue depth และ firmware แต่ Kioxia เชื่อว่าการพัฒนา SSD แบบนี้จะเป็นก้าวสำคัญในการรองรับ AI server รุ่นใหม่ที่ต้องการความเร็วระดับ “Giga IOPS”

    ความร่วมมือระหว่าง Kioxia และ Nvidia
    พัฒนา SSD ที่มีความเร็ว 100 ล้าน IOPS สำหรับ AI server
    ใช้ร่วมกับ GPU ของ Nvidia เพื่อเร่งการประมวลผลแบบ peer-to-peer
    เป้าหมายคือการเพิ่มประสิทธิภาพการอ่านข้อมูลแบบสุ่มขนาดเล็ก

    เทคโนโลยีที่ใช้ใน SSD รุ่นใหม่
    ใช้ XL-Flash ซึ่งเป็น SLC NAND ที่มี latency ต่ำ
    อาจต้องใช้ถึง 915 NAND dies เพื่อให้ได้ความเร็วระดับนั้น
    เชื่อมต่อผ่าน PCIe 7.0 และอาจใช้ multi-controller module

    ความสำคัญของ 512B IOPS สำหรับ AI
    AI workloads ต้องการการอ่านข้อมูลแบบสุ่มขนาดเล็กมาก
    512-byte blocks ให้ latency ต่ำกว่า 4K blocks
    การเพิ่ม sequential bandwidth ง่ายกว่าการลด latency

    ทางเลือกใหม่: High Bandwidth Flash (HBF)
    ใช้ TSVs และ microbumps เชื่อม NAND หลายตัวใน stack เดียว
    เพิ่ม parallelism และลด bottleneck ของ controller
    อาจเป็นทางออกสำหรับ SSD ที่ต้องการความเร็วระดับสูง

    https://www.tomshardware.com/tech-industry/nvidia-and-kioxia-target-100-million-iops-ssd-in-2027-33-times-more-than-existing-drives-for-exclusive-use-in-ai-servers
    🎙️ เรื่องเล่าจาก 3 ล้าน IOPS สู่ 100 ล้าน IOPS: เมื่อ SSD กลายเป็นหัวใจของการประมวลผล AI ในปี 2027 Kioxia เตรียมเปิดตัว SSD ที่สามารถทำงานได้ถึง 100 ล้าน IOPS (Input/Output Operations Per Second) ซึ่งมากกว่าความสามารถของ SSD ปัจจุบันถึง 33 เท่า โดยจะใช้ร่วมกับ GPU ของ Nvidia เพื่อเร่งการประมวลผล AI โดยเฉพาะ SSD รุ่นใหม่นี้จะเชื่อมต่อผ่าน PCIe 7.0 แบบ peer-to-peer กับ GPU โดยตรง ซึ่งช่วยลด latency และเพิ่ม throughput อย่างมหาศาล เหมาะกับงาน AI ที่ต้องอ่านข้อมูลแบบสุ่มขนาดเล็ก เช่น embeddings, model weights หรือ database entries Kioxia วางแผนใช้ XL-Flash ซึ่งเป็น NAND แบบ SLC ที่มี latency ต่ำและ endurance สูง โดยอาจต้องใช้ถึง 915 NAND dies เพื่อให้ได้ความเร็วระดับนั้น ซึ่งจะต้องใช้ controller แบบพิเศษ และอาจต้องใช้เทคโนโลยีใหม่อย่าง High Bandwidth Flash (HBF) ที่รวม NAND หลายตัวไว้ใน stack เดียว แม้จะมีความท้าทายด้านการออกแบบ เช่น การจัดการ channel bandwidth, queue depth และ firmware แต่ Kioxia เชื่อว่าการพัฒนา SSD แบบนี้จะเป็นก้าวสำคัญในการรองรับ AI server รุ่นใหม่ที่ต้องการความเร็วระดับ “Giga IOPS” ✅ ความร่วมมือระหว่าง Kioxia และ Nvidia ➡️ พัฒนา SSD ที่มีความเร็ว 100 ล้าน IOPS สำหรับ AI server ➡️ ใช้ร่วมกับ GPU ของ Nvidia เพื่อเร่งการประมวลผลแบบ peer-to-peer ➡️ เป้าหมายคือการเพิ่มประสิทธิภาพการอ่านข้อมูลแบบสุ่มขนาดเล็ก ✅ เทคโนโลยีที่ใช้ใน SSD รุ่นใหม่ ➡️ ใช้ XL-Flash ซึ่งเป็น SLC NAND ที่มี latency ต่ำ ➡️ อาจต้องใช้ถึง 915 NAND dies เพื่อให้ได้ความเร็วระดับนั้น ➡️ เชื่อมต่อผ่าน PCIe 7.0 และอาจใช้ multi-controller module ✅ ความสำคัญของ 512B IOPS สำหรับ AI ➡️ AI workloads ต้องการการอ่านข้อมูลแบบสุ่มขนาดเล็กมาก ➡️ 512-byte blocks ให้ latency ต่ำกว่า 4K blocks ➡️ การเพิ่ม sequential bandwidth ง่ายกว่าการลด latency ✅ ทางเลือกใหม่: High Bandwidth Flash (HBF) ➡️ ใช้ TSVs และ microbumps เชื่อม NAND หลายตัวใน stack เดียว ➡️ เพิ่ม parallelism และลด bottleneck ของ controller ➡️ อาจเป็นทางออกสำหรับ SSD ที่ต้องการความเร็วระดับสูง https://www.tomshardware.com/tech-industry/nvidia-and-kioxia-target-100-million-iops-ssd-in-2027-33-times-more-than-existing-drives-for-exclusive-use-in-ai-servers
    0 Comments 0 Shares 178 Views 0 Reviews
  • “มัลแวร์ยุคใหม่ไม่ต้องคลิก — เมื่อ AI ถูกหลอกด้วยคำสั่งซ่อนในไฟล์ Word และแมโคร”

    ภัยคุกคามไซเบอร์กำลังเปลี่ยนโฉมหน้าอย่างเงียบ ๆ และน่ากลัวกว่าที่เคย เมื่อผู้โจมตีเริ่มใช้เทคนิค “AI Prompt Injection” ผ่านไฟล์เอกสารทั่วไป เช่น Word, PDF หรือแม้แต่เรซูเม่ โดยฝังคำสั่งลับไว้ในแมโครหรือ metadata เพื่อหลอกให้ระบบ AI ที่ใช้วิเคราะห์ไฟล์หรือช่วยงานอัตโนมัติทำตามคำสั่งของผู้โจมตีโดยไม่รู้ตัว

    รายงานล่าสุดจาก CSO Online เปิดเผยว่าเทคนิคนี้ถูกใช้จริงแล้วในหลายกรณี เช่น ช่องโหว่ EchoLeak (CVE-2025-32711) ที่พบใน Microsoft 365 Copilot ซึ่งสามารถฝังคำสั่งในอีเมลหรือไฟล์ Word ให้ Copilot ประมวลผลและรันคำสั่งโดยอัตโนมัติ โดยไม่ต้องคลิกหรือเปิดไฟล์เลยด้วยซ้ำ — นี่คือ “zero-click prompt injection” ที่แท้จริง

    อีกกรณีคือ CurXecute (CVE-2025-54135) ซึ่งโจมตี Cursor IDE โดยใช้ prompt injection ผ่านไฟล์ config ที่ถูกเขียนใหม่แบบเงียบ ๆ เพื่อรันคำสั่งในเครื่องของนักพัฒนาโดยไม่รู้ตัว และ Skynet malware ที่ใช้เทคนิค “Jedi mind trick” เพื่อหลอก AI scanner ให้มองข้ามมัลแวร์

    นักวิจัยด้านความปลอดภัยเตือนว่า prompt injection ไม่ใช่แค่เรื่องของการหลอกให้ AI ตอบผิด — แต่มันคือการควบคุมพฤติกรรมของระบบ AI ทั้งชุด เช่น การสั่งให้เปิดช่องหลัง, ส่งข้อมูลลับ, หรือแม้แต่รันโค้ดอันตราย โดยที่ผู้ใช้ไม่รู้เลยว่ามีคำสั่งซ่อนอยู่ในไฟล์

    รูปแบบการโจมตีแบบใหม่ด้วย AI Prompt Injection
    ฝังคำสั่งในแมโคร, VBA script หรือ metadata ของไฟล์ เช่น DOCX, PDF, EXIF
    เมื่อ AI parser อ่านไฟล์ จะรันคำสั่งโดยไม่ต้องคลิกหรือเปิดไฟล์
    ใช้เทคนิค ASCII smuggling, ฟอนต์ขนาดเล็ก, สีพื้นหลังกลืนกับข้อความ
    ตัวอย่างเช่น EchoLeak ใน Microsoft 365 Copilot และ CurXecute ใน Cursor IDE

    ผลกระทบต่อระบบ AI และองค์กร
    AI ถูกหลอกให้ส่งข้อมูลลับ, เปิดช่องทางเข้าระบบ หรือรันโค้ดอันตราย
    Skynet malware ใช้ prompt injection เพื่อหลอก AI scanner ให้มองข้ามมัลแวร์
    ผู้โจมตีสามารถฝังคำสั่งในเรซูเม่เพื่อให้ AI job portal ดันขึ้นอันดับต้น
    การโจมตีแบบนี้ไม่ต้องใช้ payload แบบเดิม — ใช้คำสั่งแทน

    แนวทางป้องกันที่แนะนำ
    ตรวจสอบไฟล์จากแหล่งที่ไม่เชื่อถือด้วย sandbox และ static analysis
    ใช้ Content Disarm & Reconstruction (CDR) เพื่อลบเนื้อหาที่ฝังคำสั่ง
    แยกการรันแมโครออกจากระบบหลัก เช่น ใช้ protected view หรือ sandbox
    สร้างระบบ AI ที่มี guardrails และการตรวจสอบ input/output อย่างเข้มงวด

    ข้อมูลเสริมจากภายนอก
    Prompt injection เคยเป็นแค่การทดลอง แต่ตอนนี้เริ่มถูกใช้จริงในมัลแวร์
    ช่องโหว่แบบ zero-click ทำให้ผู้ใช้ไม่รู้ตัวเลยว่าถูกโจมตี
    AI agent ที่เชื่อมต่อกับระบบภายนอก เช่น Slack, GitHub, database ยิ่งเสี่ย
    นักวิจัยแนะนำให้องค์กรปฏิบัติต่อ AI pipeline เหมือน CI/CD pipeline — ต้องมี Zero Trust

    https://www.csoonline.com/article/4053107/ai-prompt-injection-gets-real-with-macros-the-latest-hidden-threat.html
    🧠 “มัลแวร์ยุคใหม่ไม่ต้องคลิก — เมื่อ AI ถูกหลอกด้วยคำสั่งซ่อนในไฟล์ Word และแมโคร” ภัยคุกคามไซเบอร์กำลังเปลี่ยนโฉมหน้าอย่างเงียบ ๆ และน่ากลัวกว่าที่เคย เมื่อผู้โจมตีเริ่มใช้เทคนิค “AI Prompt Injection” ผ่านไฟล์เอกสารทั่วไป เช่น Word, PDF หรือแม้แต่เรซูเม่ โดยฝังคำสั่งลับไว้ในแมโครหรือ metadata เพื่อหลอกให้ระบบ AI ที่ใช้วิเคราะห์ไฟล์หรือช่วยงานอัตโนมัติทำตามคำสั่งของผู้โจมตีโดยไม่รู้ตัว รายงานล่าสุดจาก CSO Online เปิดเผยว่าเทคนิคนี้ถูกใช้จริงแล้วในหลายกรณี เช่น ช่องโหว่ EchoLeak (CVE-2025-32711) ที่พบใน Microsoft 365 Copilot ซึ่งสามารถฝังคำสั่งในอีเมลหรือไฟล์ Word ให้ Copilot ประมวลผลและรันคำสั่งโดยอัตโนมัติ โดยไม่ต้องคลิกหรือเปิดไฟล์เลยด้วยซ้ำ — นี่คือ “zero-click prompt injection” ที่แท้จริง อีกกรณีคือ CurXecute (CVE-2025-54135) ซึ่งโจมตี Cursor IDE โดยใช้ prompt injection ผ่านไฟล์ config ที่ถูกเขียนใหม่แบบเงียบ ๆ เพื่อรันคำสั่งในเครื่องของนักพัฒนาโดยไม่รู้ตัว และ Skynet malware ที่ใช้เทคนิค “Jedi mind trick” เพื่อหลอก AI scanner ให้มองข้ามมัลแวร์ นักวิจัยด้านความปลอดภัยเตือนว่า prompt injection ไม่ใช่แค่เรื่องของการหลอกให้ AI ตอบผิด — แต่มันคือการควบคุมพฤติกรรมของระบบ AI ทั้งชุด เช่น การสั่งให้เปิดช่องหลัง, ส่งข้อมูลลับ, หรือแม้แต่รันโค้ดอันตราย โดยที่ผู้ใช้ไม่รู้เลยว่ามีคำสั่งซ่อนอยู่ในไฟล์ ✅ รูปแบบการโจมตีแบบใหม่ด้วย AI Prompt Injection ➡️ ฝังคำสั่งในแมโคร, VBA script หรือ metadata ของไฟล์ เช่น DOCX, PDF, EXIF ➡️ เมื่อ AI parser อ่านไฟล์ จะรันคำสั่งโดยไม่ต้องคลิกหรือเปิดไฟล์ ➡️ ใช้เทคนิค ASCII smuggling, ฟอนต์ขนาดเล็ก, สีพื้นหลังกลืนกับข้อความ ➡️ ตัวอย่างเช่น EchoLeak ใน Microsoft 365 Copilot และ CurXecute ใน Cursor IDE ✅ ผลกระทบต่อระบบ AI และองค์กร ➡️ AI ถูกหลอกให้ส่งข้อมูลลับ, เปิดช่องทางเข้าระบบ หรือรันโค้ดอันตราย ➡️ Skynet malware ใช้ prompt injection เพื่อหลอก AI scanner ให้มองข้ามมัลแวร์ ➡️ ผู้โจมตีสามารถฝังคำสั่งในเรซูเม่เพื่อให้ AI job portal ดันขึ้นอันดับต้น ➡️ การโจมตีแบบนี้ไม่ต้องใช้ payload แบบเดิม — ใช้คำสั่งแทน ✅ แนวทางป้องกันที่แนะนำ ➡️ ตรวจสอบไฟล์จากแหล่งที่ไม่เชื่อถือด้วย sandbox และ static analysis ➡️ ใช้ Content Disarm & Reconstruction (CDR) เพื่อลบเนื้อหาที่ฝังคำสั่ง ➡️ แยกการรันแมโครออกจากระบบหลัก เช่น ใช้ protected view หรือ sandbox ➡️ สร้างระบบ AI ที่มี guardrails และการตรวจสอบ input/output อย่างเข้มงวด ✅ ข้อมูลเสริมจากภายนอก ➡️ Prompt injection เคยเป็นแค่การทดลอง แต่ตอนนี้เริ่มถูกใช้จริงในมัลแวร์ ➡️ ช่องโหว่แบบ zero-click ทำให้ผู้ใช้ไม่รู้ตัวเลยว่าถูกโจมตี ➡️ AI agent ที่เชื่อมต่อกับระบบภายนอก เช่น Slack, GitHub, database ยิ่งเสี่ย ➡️ นักวิจัยแนะนำให้องค์กรปฏิบัติต่อ AI pipeline เหมือน CI/CD pipeline — ต้องมี Zero Trust https://www.csoonline.com/article/4053107/ai-prompt-injection-gets-real-with-macros-the-latest-hidden-threat.html
    WWW.CSOONLINE.COM
    AI prompt injection gets real — with macros the latest hidden threat
    Attackers are evolving their malware delivery tactics by weaponing malicious prompts embedded in document macros to hack AI systems.
    0 Comments 0 Shares 316 Views 0 Reviews
  • “OpenAI ผนึก Broadcom สร้างชิป Titan — ยุทธศาสตร์ใหม่ลดพึ่งพา Nvidia ด้วยคำสั่งซื้อ $10 พันล้าน และเป้าหมายสู่ AGI”

    ในยุคที่การแข่งขันด้าน AI รุนแรงขึ้นทุกวัน OpenAI กำลังเดินเกมใหม่ที่อาจเปลี่ยนสมดุลของอุตสาหกรรมฮาร์ดแวร์ ด้วยการร่วมมือกับ Broadcom เพื่อพัฒนาชิปประมวลผล AI แบบกำหนดเอง (custom ASIC) ภายใต้ชื่อ “Titan” โดยมีเป้าหมายเพื่อลดการพึ่งพา GPU จาก Nvidia ซึ่งมีราคาสูงและขาดแคลนอย่างต่อเนื่อง

    Broadcom ซึ่งเคยเป็นผู้ผลิตชิปสำหรับสมาร์ตโฟน ได้ขยายเข้าสู่ตลาด data center และกลายเป็นผู้นำด้านการออกแบบ XPU สำหรับงาน AI โดยก่อนหน้านี้มีลูกค้าระดับยักษ์อย่าง Google, Meta และ ByteDance ล่าสุด OpenAI กลายเป็นลูกค้ารายที่สี่ พร้อมสั่งซื้อ rack ระบบ AI มูลค่ากว่า $10 พันล้าน ซึ่งจะเริ่มส่งมอบในไตรมาสที่ 3 ปีงบประมาณ 20262

    ชิป Titan จะถูกใช้สำหรับงาน inference โดยเฉพาะ และนำโดย Richard Ho อดีตวิศวกรผู้ออกแบบ Google TPU ซึ่งแสดงให้เห็นว่า OpenAI ต้องการควบคุมโครงสร้างพื้นฐานของตนเองอย่างจริงจัง เพื่อรองรับโมเดลขนาดใหญ่ เช่น GPT-4.5 และโครงการ Stargate ที่มีเป้าหมายสู่ AGI ภายใน 4 ปี

    การตัดสินใจนี้เกิดขึ้นหลังจาก OpenAI ประสบปัญหาขาดแคลน GPU อย่างหนักในช่วงต้นปี 2025 ซึ่งส่งผลให้การเปิดตัว GPT-4.5 ล่าช้า แม้จะมีเงินทุนจาก Microsoft และการระดมทุนรอบ Series F และการขายหุ้นภายในที่ดันมูลค่าบริษัทขึ้นถึง $500 พันล้าน แต่การลงทุนในโครงสร้างพื้นฐานยังเป็นภาระที่ต้องจัดการอย่างเร่งด่วน

    ความร่วมมือระหว่าง OpenAI และ Broadcom
    OpenAI เป็นลูกค้ารายที่ 4 ของ Broadcom ในโครงการ custom XPU
    สั่งซื้อ rack ระบบ AI มูลค่า $10 พันล้าน เริ่มส่งมอบปี 2026
    ชิป Titan ออกแบบสำหรับงาน inference โดยเฉพาะ
    นำโดย Richard Ho อดีตวิศวกร Google TPU

    เหตุผลเบื้องหลังการพัฒนา Titan
    ลดการพึ่งพา Nvidia ที่มีราคาสูงและขาดแคลน
    รองรับโมเดลขนาดใหญ่ เช่น GPT-4.5 และโครงการ Stargate
    เพิ่มประสิทธิภาพและควบคุมต้นทุนโครงสร้างพื้นฐาน
    ตอบสนองความต้องการด้าน compute ที่เพิ่มขึ้นอย่างรวดเร็ว

    ข้อมูลเสริมจากภายนอก
    Broadcom ขยายจากตลาดสมาร์ตโฟนสู่ data center และ AI infrastructure
    Titan เป็นส่วนหนึ่งของยุทธศาสตร์ AGI ภายใน 4 ปีของ OpenAI
    OpenAI เคยพึ่ง Azure cloud ของ Microsoft แต่ต้องการควบคุมระบบมากขึ้น
    การระดมทุน Series F และการขายหุ้นภายในดันมูลค่าบริษัทถึง $500 พันล้าน

    https://www.techradar.com/ai-platforms-assistants/chatgpt/nvidias-biggest-customers-are-lining-up-to-take-it-down-using-asics-and-broadcom-could-be-the-winner-of-that-battle
    💥 “OpenAI ผนึก Broadcom สร้างชิป Titan — ยุทธศาสตร์ใหม่ลดพึ่งพา Nvidia ด้วยคำสั่งซื้อ $10 พันล้าน และเป้าหมายสู่ AGI” ในยุคที่การแข่งขันด้าน AI รุนแรงขึ้นทุกวัน OpenAI กำลังเดินเกมใหม่ที่อาจเปลี่ยนสมดุลของอุตสาหกรรมฮาร์ดแวร์ ด้วยการร่วมมือกับ Broadcom เพื่อพัฒนาชิปประมวลผล AI แบบกำหนดเอง (custom ASIC) ภายใต้ชื่อ “Titan” โดยมีเป้าหมายเพื่อลดการพึ่งพา GPU จาก Nvidia ซึ่งมีราคาสูงและขาดแคลนอย่างต่อเนื่อง Broadcom ซึ่งเคยเป็นผู้ผลิตชิปสำหรับสมาร์ตโฟน ได้ขยายเข้าสู่ตลาด data center และกลายเป็นผู้นำด้านการออกแบบ XPU สำหรับงาน AI โดยก่อนหน้านี้มีลูกค้าระดับยักษ์อย่าง Google, Meta และ ByteDance ล่าสุด OpenAI กลายเป็นลูกค้ารายที่สี่ พร้อมสั่งซื้อ rack ระบบ AI มูลค่ากว่า $10 พันล้าน ซึ่งจะเริ่มส่งมอบในไตรมาสที่ 3 ปีงบประมาณ 20262 ชิป Titan จะถูกใช้สำหรับงาน inference โดยเฉพาะ และนำโดย Richard Ho อดีตวิศวกรผู้ออกแบบ Google TPU ซึ่งแสดงให้เห็นว่า OpenAI ต้องการควบคุมโครงสร้างพื้นฐานของตนเองอย่างจริงจัง เพื่อรองรับโมเดลขนาดใหญ่ เช่น GPT-4.5 และโครงการ Stargate ที่มีเป้าหมายสู่ AGI ภายใน 4 ปี การตัดสินใจนี้เกิดขึ้นหลังจาก OpenAI ประสบปัญหาขาดแคลน GPU อย่างหนักในช่วงต้นปี 2025 ซึ่งส่งผลให้การเปิดตัว GPT-4.5 ล่าช้า แม้จะมีเงินทุนจาก Microsoft และการระดมทุนรอบ Series F และการขายหุ้นภายในที่ดันมูลค่าบริษัทขึ้นถึง $500 พันล้าน แต่การลงทุนในโครงสร้างพื้นฐานยังเป็นภาระที่ต้องจัดการอย่างเร่งด่วน ✅ ความร่วมมือระหว่าง OpenAI และ Broadcom ➡️ OpenAI เป็นลูกค้ารายที่ 4 ของ Broadcom ในโครงการ custom XPU ➡️ สั่งซื้อ rack ระบบ AI มูลค่า $10 พันล้าน เริ่มส่งมอบปี 2026 ➡️ ชิป Titan ออกแบบสำหรับงาน inference โดยเฉพาะ ➡️ นำโดย Richard Ho อดีตวิศวกร Google TPU ✅ เหตุผลเบื้องหลังการพัฒนา Titan ➡️ ลดการพึ่งพา Nvidia ที่มีราคาสูงและขาดแคลน ➡️ รองรับโมเดลขนาดใหญ่ เช่น GPT-4.5 และโครงการ Stargate ➡️ เพิ่มประสิทธิภาพและควบคุมต้นทุนโครงสร้างพื้นฐาน ➡️ ตอบสนองความต้องการด้าน compute ที่เพิ่มขึ้นอย่างรวดเร็ว ✅ ข้อมูลเสริมจากภายนอก ➡️ Broadcom ขยายจากตลาดสมาร์ตโฟนสู่ data center และ AI infrastructure ➡️ Titan เป็นส่วนหนึ่งของยุทธศาสตร์ AGI ภายใน 4 ปีของ OpenAI ➡️ OpenAI เคยพึ่ง Azure cloud ของ Microsoft แต่ต้องการควบคุมระบบมากขึ้น ➡️ การระดมทุน Series F และการขายหุ้นภายในดันมูลค่าบริษัทถึง $500 พันล้าน https://www.techradar.com/ai-platforms-assistants/chatgpt/nvidias-biggest-customers-are-lining-up-to-take-it-down-using-asics-and-broadcom-could-be-the-winner-of-that-battle
    0 Comments 0 Shares 225 Views 0 Reviews
  • “AI Data Center: เบื้องหลังเทคโนโลยีล้ำยุคที่อาจกลายเป็นจุดอ่อนด้านความมั่นคงไซเบอร์ระดับโลก”

    ลองนึกภาพว่าคุณกำลังพัฒนาโมเดล AI ที่ซับซ้อนระดับ GPT-5 หรือระบบวิเคราะห์ภาพทางการแพทย์ที่ต้องใช้พลังประมวลผลมหาศาล คุณอาจคิดถึง GPU, TPU หรือคลาวด์ที่เร็วแรง แต่สิ่งที่คุณอาจมองข้ามคือ “AI Data Center” ที่อยู่เบื้องหลังทั้งหมด — และนั่นคือจุดที่ภัยคุกคามไซเบอร์กำลังพุ่งเป้าเข้าใส่

    ในปี 2025 การลงทุนใน AI Data Center พุ่งสูงอย่างไม่เคยมีมาก่อน เช่น Amazon ทุ่มเงินกว่า $20 พันล้านในเพนซิลเวเนีย และ Meta เตรียมเปิดศูนย์ Prometheus ขนาดหลายกิกะวัตต์ในปี 2026 ขณะเดียวกัน รัฐบาลสหรัฐฯ โดยประธานาธิบดีทรัมป์ ได้ออกแผน AI Action Plan เพื่อเร่งพัฒนาโครงสร้างพื้นฐาน AI ทั้งในประเทศและต่างประเทศ

    แต่เบื้องหลังความก้าวหน้าเหล่านี้คือความเสี่ยงที่เพิ่มขึ้นอย่างมหาศาล ทั้งด้านพลังงาน (คาดว่าใช้ไฟฟ้ากว่า 612 เทราวัตต์ชั่วโมงใน 5 ปี) และด้านความปลอดภัยไซเบอร์ โดยเฉพาะการโจมตีแบบ side-channel, memory-level, model exfiltration และ supply chain sabotage ที่กำลังกลายเป็นเรื่องจริง

    AI Data Center ไม่ได้แค่เก็บข้อมูล แต่ยังเป็นที่อยู่ของโมเดล, น้ำหนักการเรียนรู้, และชุดข้อมูลฝึก ซึ่งหากถูกขโมยหรือถูกแก้ไข อาจส่งผลต่อความแม่นยำ ความน่าเชื่อถือ และแม้แต่ความมั่นคงของประเทศ

    การเติบโตของ AI Data Center
    Amazon ลงทุน $20 พันล้านในเพนซิลเวเนีย
    Meta เตรียมเปิดศูนย์ Prometheus ขนาดหลายกิกะวัตต์ในปี 2026
    รัฐบาลสหรัฐฯ สนับสนุนผ่าน AI Action Plan โดยประธานาธิบดีทรัมป์
    ความต้องการพลังงานสูงถึง 612 เทราวัตต์ชั่วโมงใน 5 ปี
    คาดว่าจะเพิ่มการปล่อยคาร์บอนทั่วโลก 3–4%

    ความเสี่ยงด้านไซเบอร์ที่เพิ่มขึ้น
    โจมตีแบบ DDoS, ransomware, supply chain และ social engineering
    side-channel attack จากฮาร์ดแวร์ เช่น CPU, GPU, TPU
    ตัวอย่าง: AMD พบช่องโหว่ 4 จุดในเดือนกรกฎาคม 2025
    TPUXtract โจมตี TPU โดยเจาะข้อมูลโมเดล AI โดยตรง
    GPU เสี่ยงต่อ memory-level attack และ malware ที่รันในหน่วยความจำ GPU
    ความเสี่ยงจาก model exfiltration, data poisoning, model inversion และ model stealing

    ความเสี่ยงด้านภูมิรัฐศาสตร์และ supply chain
    การโจมตีจากรัฐต่างชาติ เช่น การแทรกซึมจากจีนผ่าน Digital Silk Road 2.0
    การใช้เทคโนโลยี 5G และระบบเฝ้าระวังในภูมิภาคอ่าวเปอร์เซีย
    ความเสี่ยงจากการใช้ชิ้นส่วนที่ผลิตโดยบริษัทจีน
    การโจมตี supply chain ก่อนศูนย์จะเปิดใช้งานจริง

    แนวทางที่ผู้บริหารด้านความปลอดภัยควรพิจารณา
    ตรวจสอบนโยบายของผู้ให้บริการ AI Data Center อย่างละเอียด
    ใช้ Faraday cage หรือ shield chamber เพื่อลด side-channel attack
    ทำ AI audit อย่างต่อเนื่องเพื่อตรวจหาช่องโหว่และ backdoor
    ตรวจสอบตำแหน่งที่ตั้งของศูนย์และแหล่งที่มาของอุปกรณ์
    คัดกรองบุคลากรเพื่อป้องกันการแทรกซึมจากรัฐต่างชาติ

    https://www.csoonline.com/article/4051849/the-importance-of-reviewing-ai-data-centers-policies.html
    🏭 “AI Data Center: เบื้องหลังเทคโนโลยีล้ำยุคที่อาจกลายเป็นจุดอ่อนด้านความมั่นคงไซเบอร์ระดับโลก” ลองนึกภาพว่าคุณกำลังพัฒนาโมเดล AI ที่ซับซ้อนระดับ GPT-5 หรือระบบวิเคราะห์ภาพทางการแพทย์ที่ต้องใช้พลังประมวลผลมหาศาล คุณอาจคิดถึง GPU, TPU หรือคลาวด์ที่เร็วแรง แต่สิ่งที่คุณอาจมองข้ามคือ “AI Data Center” ที่อยู่เบื้องหลังทั้งหมด — และนั่นคือจุดที่ภัยคุกคามไซเบอร์กำลังพุ่งเป้าเข้าใส่ ในปี 2025 การลงทุนใน AI Data Center พุ่งสูงอย่างไม่เคยมีมาก่อน เช่น Amazon ทุ่มเงินกว่า $20 พันล้านในเพนซิลเวเนีย และ Meta เตรียมเปิดศูนย์ Prometheus ขนาดหลายกิกะวัตต์ในปี 2026 ขณะเดียวกัน รัฐบาลสหรัฐฯ โดยประธานาธิบดีทรัมป์ ได้ออกแผน AI Action Plan เพื่อเร่งพัฒนาโครงสร้างพื้นฐาน AI ทั้งในประเทศและต่างประเทศ แต่เบื้องหลังความก้าวหน้าเหล่านี้คือความเสี่ยงที่เพิ่มขึ้นอย่างมหาศาล ทั้งด้านพลังงาน (คาดว่าใช้ไฟฟ้ากว่า 612 เทราวัตต์ชั่วโมงใน 5 ปี) และด้านความปลอดภัยไซเบอร์ โดยเฉพาะการโจมตีแบบ side-channel, memory-level, model exfiltration และ supply chain sabotage ที่กำลังกลายเป็นเรื่องจริง AI Data Center ไม่ได้แค่เก็บข้อมูล แต่ยังเป็นที่อยู่ของโมเดล, น้ำหนักการเรียนรู้, และชุดข้อมูลฝึก ซึ่งหากถูกขโมยหรือถูกแก้ไข อาจส่งผลต่อความแม่นยำ ความน่าเชื่อถือ และแม้แต่ความมั่นคงของประเทศ ✅ การเติบโตของ AI Data Center ➡️ Amazon ลงทุน $20 พันล้านในเพนซิลเวเนีย ➡️ Meta เตรียมเปิดศูนย์ Prometheus ขนาดหลายกิกะวัตต์ในปี 2026 ➡️ รัฐบาลสหรัฐฯ สนับสนุนผ่าน AI Action Plan โดยประธานาธิบดีทรัมป์ ➡️ ความต้องการพลังงานสูงถึง 612 เทราวัตต์ชั่วโมงใน 5 ปี ➡️ คาดว่าจะเพิ่มการปล่อยคาร์บอนทั่วโลก 3–4% ✅ ความเสี่ยงด้านไซเบอร์ที่เพิ่มขึ้น ➡️ โจมตีแบบ DDoS, ransomware, supply chain และ social engineering ➡️ side-channel attack จากฮาร์ดแวร์ เช่น CPU, GPU, TPU ➡️ ตัวอย่าง: AMD พบช่องโหว่ 4 จุดในเดือนกรกฎาคม 2025 ➡️ TPUXtract โจมตี TPU โดยเจาะข้อมูลโมเดล AI โดยตรง ➡️ GPU เสี่ยงต่อ memory-level attack และ malware ที่รันในหน่วยความจำ GPU ➡️ ความเสี่ยงจาก model exfiltration, data poisoning, model inversion และ model stealing ✅ ความเสี่ยงด้านภูมิรัฐศาสตร์และ supply chain ➡️ การโจมตีจากรัฐต่างชาติ เช่น การแทรกซึมจากจีนผ่าน Digital Silk Road 2.0 ➡️ การใช้เทคโนโลยี 5G และระบบเฝ้าระวังในภูมิภาคอ่าวเปอร์เซีย ➡️ ความเสี่ยงจากการใช้ชิ้นส่วนที่ผลิตโดยบริษัทจีน ➡️ การโจมตี supply chain ก่อนศูนย์จะเปิดใช้งานจริง ✅ แนวทางที่ผู้บริหารด้านความปลอดภัยควรพิจารณา ➡️ ตรวจสอบนโยบายของผู้ให้บริการ AI Data Center อย่างละเอียด ➡️ ใช้ Faraday cage หรือ shield chamber เพื่อลด side-channel attack ➡️ ทำ AI audit อย่างต่อเนื่องเพื่อตรวจหาช่องโหว่และ backdoor ➡️ ตรวจสอบตำแหน่งที่ตั้งของศูนย์และแหล่งที่มาของอุปกรณ์ ➡️ คัดกรองบุคลากรเพื่อป้องกันการแทรกซึมจากรัฐต่างชาติ https://www.csoonline.com/article/4051849/the-importance-of-reviewing-ai-data-centers-policies.html
    WWW.CSOONLINE.COM
    The importance of reviewing AI data centers’ policies
    As the race to invest in AI tools, technologies and capabilities continues, it is critical for cybersecurity leaders to not only look at whether the AI-embedded software is secure but also to scrutinize whether the AI data centers are secure as well.
    0 Comments 0 Shares 269 Views 0 Reviews
  • เรื่องเล่าจาก ETH Zurich ถึง 1811 ภาษา: เมื่อโมเดลภาษาไม่ได้ถูกสร้างเพื่อแข่งขัน แต่เพื่อให้ทุกคนเข้าถึงได้

    Apertus เป็นโมเดลภาษาใหญ่ (LLM) ที่พัฒนาโดย Swiss National AI Institute (SNAI) ซึ่งเป็นความร่วมมือระหว่าง ETH Zurich และ EPFL โดยมีเป้าหมายเพื่อสร้างโมเดลที่เปิดทุกส่วน—ตั้งแต่โค้ด, น้ำหนักโมเดล, ข้อมูลเทรน, ไปจนถึงสูตรการเทรนเอง

    โมเดลมีสองขนาดคือ 8B และ 70B พารามิเตอร์ โดยเวอร์ชัน 70B ถูกเทรนด้วยข้อมูล 15 ล้านล้าน token จากเว็บ, โค้ด, และคณิตศาสตร์ ผ่านกระบวนการ curriculum learning ที่จัดลำดับเนื้อหาอย่างเป็นระบบ

    Apertus รองรับภาษามากถึง 1811 ภาษา โดย 40% ของข้อมูลเทรนเป็นภาษาที่ไม่ใช่ภาษาอังกฤษ เช่น Swiss German, Romansh และภาษาอื่น ๆ ที่มักถูกละเลยในโมเดลทั่วไป

    โมเดลใช้สถาปัตยกรรม decoder-only transformer พร้อมฟังก์ชัน activation ใหม่ชื่อ xIELU และ optimizer แบบ AdEMAMix ซึ่งออกแบบมาเพื่อเพิ่มประสิทธิภาพการเทรนในระดับ bfloat16 บน GPU GH200 จำนวน 4096 ตัว

    หลังการเทรน โมเดลยังผ่านการ fine-tune แบบมีผู้ดูแล และ alignment ด้วยเทคนิค QRPO เพื่อให้ตอบสนองต่อผู้ใช้ได้ดีขึ้น โดยไม่ละเมิดความเป็นกลางหรือความปลอดภัย

    สิ่งที่โดดเด่นคือ Apertus เคารพสิทธิ์ของเจ้าของข้อมูลอย่างเข้มงวด โดยใช้ระบบ opt-out ที่สามารถย้อนกลับได้ และมีระบบ output filter ที่ผู้ใช้สามารถดาวน์โหลดทุก 6 เดือน เพื่อกรองข้อมูลส่วนบุคคลออกจากผลลัพธ์ของโมเดล

    นอกจากนี้ Apertus ยังถูกออกแบบให้สอดคล้องกับกฎหมายความโปร่งใสของ EU AI Act และกฎหมายคุ้มครองข้อมูลของสวิตเซอร์แลนด์ โดยมีเอกสารสาธารณะและโค้ดการเทรนให้ตรวจสอบได้ทั้งหมด

    ข้อมูลพื้นฐานของ Apertus
    พัฒนาโดย SNAI ซึ่งเป็นความร่วมมือระหว่าง ETH Zurich และ EPFL
    มีสองขนาด: 8B และ 70B พารามิเตอร์
    เทรนด้วยข้อมูล 15T token จากเว็บ, โค้ด, และคณิตศาสตร์

    สถาปัตยกรรมและเทคนิคการเทรน
    ใช้ decoder-only transformer พร้อมฟังก์ชัน xIELU
    ใช้ optimizer AdEMAMix และ precision แบบ bfloat16
    เทรนบน GPU GH200 จำนวน 4096 ตัว

    ความสามารถด้านภาษาและความโปร่งใส
    รองรับ 1811 ภาษา โดย 40% เป็นภาษาที่ไม่ใช่ภาษาอังกฤษ
    ใช้ข้อมูลที่เปิดและเคารพ opt-out ของเจ้าของข้อมูล
    มีระบบ output filter สำหรับลบข้อมูลส่วนบุคคลจากผลลัพธ์

    การใช้งานและการ deploy
    รองรับ context ยาวถึง 65,536 token
    ใช้งานผ่าน Transformers v4.56.0, vLLM, SGLang และ MLX
    มีอินเทอร์เฟซผ่าน Swisscom และ PublicAI สำหรับผู้ใช้ทั่วไป

    การปฏิบัติตามกฎหมายและจริยธรรม
    สอดคล้องกับ EU AI Act และกฎหมายสวิตเซอร์แลนด์
    มีเอกสารสาธารณะและโค้ดการเทรนให้ตรวจสอบได้
    ไม่ใช้ข้อมูลที่ละเมิดสิทธิ์หรือมีเนื้อหาที่ไม่เหมาะสม

    https://huggingface.co/swiss-ai/Apertus-70B-2509
    🎙️ เรื่องเล่าจาก ETH Zurich ถึง 1811 ภาษา: เมื่อโมเดลภาษาไม่ได้ถูกสร้างเพื่อแข่งขัน แต่เพื่อให้ทุกคนเข้าถึงได้ Apertus เป็นโมเดลภาษาใหญ่ (LLM) ที่พัฒนาโดย Swiss National AI Institute (SNAI) ซึ่งเป็นความร่วมมือระหว่าง ETH Zurich และ EPFL โดยมีเป้าหมายเพื่อสร้างโมเดลที่เปิดทุกส่วน—ตั้งแต่โค้ด, น้ำหนักโมเดล, ข้อมูลเทรน, ไปจนถึงสูตรการเทรนเอง โมเดลมีสองขนาดคือ 8B และ 70B พารามิเตอร์ โดยเวอร์ชัน 70B ถูกเทรนด้วยข้อมูล 15 ล้านล้าน token จากเว็บ, โค้ด, และคณิตศาสตร์ ผ่านกระบวนการ curriculum learning ที่จัดลำดับเนื้อหาอย่างเป็นระบบ Apertus รองรับภาษามากถึง 1811 ภาษา โดย 40% ของข้อมูลเทรนเป็นภาษาที่ไม่ใช่ภาษาอังกฤษ เช่น Swiss German, Romansh และภาษาอื่น ๆ ที่มักถูกละเลยในโมเดลทั่วไป โมเดลใช้สถาปัตยกรรม decoder-only transformer พร้อมฟังก์ชัน activation ใหม่ชื่อ xIELU และ optimizer แบบ AdEMAMix ซึ่งออกแบบมาเพื่อเพิ่มประสิทธิภาพการเทรนในระดับ bfloat16 บน GPU GH200 จำนวน 4096 ตัว หลังการเทรน โมเดลยังผ่านการ fine-tune แบบมีผู้ดูแล และ alignment ด้วยเทคนิค QRPO เพื่อให้ตอบสนองต่อผู้ใช้ได้ดีขึ้น โดยไม่ละเมิดความเป็นกลางหรือความปลอดภัย สิ่งที่โดดเด่นคือ Apertus เคารพสิทธิ์ของเจ้าของข้อมูลอย่างเข้มงวด โดยใช้ระบบ opt-out ที่สามารถย้อนกลับได้ และมีระบบ output filter ที่ผู้ใช้สามารถดาวน์โหลดทุก 6 เดือน เพื่อกรองข้อมูลส่วนบุคคลออกจากผลลัพธ์ของโมเดล นอกจากนี้ Apertus ยังถูกออกแบบให้สอดคล้องกับกฎหมายความโปร่งใสของ EU AI Act และกฎหมายคุ้มครองข้อมูลของสวิตเซอร์แลนด์ โดยมีเอกสารสาธารณะและโค้ดการเทรนให้ตรวจสอบได้ทั้งหมด ✅ ข้อมูลพื้นฐานของ Apertus ➡️ พัฒนาโดย SNAI ซึ่งเป็นความร่วมมือระหว่าง ETH Zurich และ EPFL ➡️ มีสองขนาด: 8B และ 70B พารามิเตอร์ ➡️ เทรนด้วยข้อมูล 15T token จากเว็บ, โค้ด, และคณิตศาสตร์ ✅ สถาปัตยกรรมและเทคนิคการเทรน ➡️ ใช้ decoder-only transformer พร้อมฟังก์ชัน xIELU ➡️ ใช้ optimizer AdEMAMix และ precision แบบ bfloat16 ➡️ เทรนบน GPU GH200 จำนวน 4096 ตัว ✅ ความสามารถด้านภาษาและความโปร่งใส ➡️ รองรับ 1811 ภาษา โดย 40% เป็นภาษาที่ไม่ใช่ภาษาอังกฤษ ➡️ ใช้ข้อมูลที่เปิดและเคารพ opt-out ของเจ้าของข้อมูล ➡️ มีระบบ output filter สำหรับลบข้อมูลส่วนบุคคลจากผลลัพธ์ ✅ การใช้งานและการ deploy ➡️ รองรับ context ยาวถึง 65,536 token ➡️ ใช้งานผ่าน Transformers v4.56.0, vLLM, SGLang และ MLX ➡️ มีอินเทอร์เฟซผ่าน Swisscom และ PublicAI สำหรับผู้ใช้ทั่วไป ✅ การปฏิบัติตามกฎหมายและจริยธรรม ➡️ สอดคล้องกับ EU AI Act และกฎหมายสวิตเซอร์แลนด์ ➡️ มีเอกสารสาธารณะและโค้ดการเทรนให้ตรวจสอบได้ ➡️ ไม่ใช้ข้อมูลที่ละเมิดสิทธิ์หรือมีเนื้อหาที่ไม่เหมาะสม https://huggingface.co/swiss-ai/Apertus-70B-2509
    HUGGINGFACE.CO
    swiss-ai/Apertus-70B-2509 · Hugging Face
    We’re on a journey to advance and democratize artificial intelligence through open source and open science.
    0 Comments 0 Shares 243 Views 0 Reviews
  • เรื่องเล่าจาก logits ถึง embedding: เมื่อคณิตศาสตร์พื้นฐานกลายเป็นภาษาที่ LLM ใช้คิด

    บทความจาก Giles Thomas อธิบายว่า หากคุณเคยเรียนคณิตศาสตร์ระดับมัธยม—โดยเฉพาะเรื่องเวกเตอร์, เมทริกซ์, และการคูณเมทริกซ์—คุณมีพื้นฐานเพียงพอที่จะเข้าใจการทำงานของ LLM ในขั้นตอน “inference” หรือการใช้งานโมเดลที่เทรนมาแล้ว

    เริ่มจาก “เวกเตอร์” ซึ่งใน LLM หมายถึงชุดตัวเลขที่แทนความน่าจะเป็นของคำถัดไปในลำดับข้อความ เช่น โมเดล GPT-2 มีคำศัพท์ 50,257 คำ ดังนั้นเวกเตอร์ logits ที่ออกมาจะมี 50,257 ค่า โดยแต่ละค่าคือความน่าจะเป็นของคำหนึ่ง ๆ ที่จะถูกเลือกเป็นคำถัดไป

    เพื่อแปลงเวกเตอร์นี้ให้กลายเป็น “ความน่าจะเป็นจริง” เราใช้ฟังก์ชัน softmax ซึ่งจะเปลี่ยนค่าทั้งหมดให้รวมกันเป็น 1 และกระจายเป็นเปอร์เซ็นต์ของแต่ละคำ เช่น เวกเตอร์ (1, 2, 3) และ (–9, –8, –7) อาจให้ผล softmax เดียวกันคือ (0.09, 0.24, 0.66) เพราะแม้ค่าจะต่างกัน แต่ “ลำดับความน่าจะเป็น” เหมือนกัน

    จากนั้นเรามี “embedding space” ซึ่งเป็นพื้นที่หลายมิติที่ใช้แทน “ความหมาย” ของคำ โดยคำที่มีความหมายใกล้กันจะอยู่ใกล้กันในพื้นที่นี้ เช่น “แมวบ้าน”, “เสือ”, และ “สิงโต” อาจอยู่ในกลุ่มเดียวกัน ส่วน “หมา”, “หมาป่า”, และ “โคโยตี้” อยู่ในอีกกลุ่มหนึ่ง

    การแปลงจาก vocab space ไปยัง embedding space และกลับมาใช้เมทริกซ์คูณ เช่น การใช้เมทริกซ์ขนาด 50,257 × 768 เพื่อแปลงเวกเตอร์จาก vocab space ไปยัง embedding space และเมทริกซ์ 768 × 50,257 เพื่อแปลงกลับ

    สุดท้าย Giles อธิบายว่า “layer” ใน neural network ก็คือการคูณเมทริกซ์เช่นกัน โดย input เป็นเวกเตอร์ n × d และ weight เป็นเมทริกซ์ d_out × d_in ซึ่งเมื่อคูณกันจะได้ output เป็น n × d_out ซึ่งเป็นการ “project” จากพื้นที่หนึ่งไปยังอีกพื้นที่หนึ่ง

    คณิตศาสตร์พื้นฐานที่ใช้ใน LLM
    เวกเตอร์แทนความน่าจะเป็นของคำถัดไป
    softmax ใช้แปลง logits ให้เป็นความน่าจะเป็นจริง
    embedding space ใช้แทนความหมายของคำในหลายมิติ

    การแปลงระหว่าง vocab space และ embedding space
    ใช้เมทริกซ์ขนาดใหญ่ เช่น 50,257 × 768 เพื่อแปลงเวกเตอร์
    การแปลงกลับใช้เมทริกซ์ 768 × 50,257
    การแปลงนี้อาจ “สูญเสียข้อมูล” หากลดจำนวนมิติ

    การคำนวณใน neural network
    layer หนึ่งคือการคูณเมทริกซ์ระหว่าง input และ weight
    ผลลัพธ์คือการ project จาก input space ไปยัง output space
    bias และ activation function เป็นส่วนเสริมที่ทำให้ระบบไม่เป็นเชิงเส้น

    ตัวอย่างการใช้งานจริง
    เวกเตอร์ logits จาก GPT-2 มี 50,257 ค่า
    softmax แปลงเวกเตอร์ให้รวมเป็น 1 และกระจายเป็นเปอร์เซ็นต์
    embedding space ใช้จัดกลุ่มคำที่มีความหมายใกล้กัน

    https://www.gilesthomas.com/2025/09/maths-for-llms
    🎙️ เรื่องเล่าจาก logits ถึง embedding: เมื่อคณิตศาสตร์พื้นฐานกลายเป็นภาษาที่ LLM ใช้คิด บทความจาก Giles Thomas อธิบายว่า หากคุณเคยเรียนคณิตศาสตร์ระดับมัธยม—โดยเฉพาะเรื่องเวกเตอร์, เมทริกซ์, และการคูณเมทริกซ์—คุณมีพื้นฐานเพียงพอที่จะเข้าใจการทำงานของ LLM ในขั้นตอน “inference” หรือการใช้งานโมเดลที่เทรนมาแล้ว เริ่มจาก “เวกเตอร์” ซึ่งใน LLM หมายถึงชุดตัวเลขที่แทนความน่าจะเป็นของคำถัดไปในลำดับข้อความ เช่น โมเดล GPT-2 มีคำศัพท์ 50,257 คำ ดังนั้นเวกเตอร์ logits ที่ออกมาจะมี 50,257 ค่า โดยแต่ละค่าคือความน่าจะเป็นของคำหนึ่ง ๆ ที่จะถูกเลือกเป็นคำถัดไป เพื่อแปลงเวกเตอร์นี้ให้กลายเป็น “ความน่าจะเป็นจริง” เราใช้ฟังก์ชัน softmax ซึ่งจะเปลี่ยนค่าทั้งหมดให้รวมกันเป็น 1 และกระจายเป็นเปอร์เซ็นต์ของแต่ละคำ เช่น เวกเตอร์ (1, 2, 3) และ (–9, –8, –7) อาจให้ผล softmax เดียวกันคือ (0.09, 0.24, 0.66) เพราะแม้ค่าจะต่างกัน แต่ “ลำดับความน่าจะเป็น” เหมือนกัน จากนั้นเรามี “embedding space” ซึ่งเป็นพื้นที่หลายมิติที่ใช้แทน “ความหมาย” ของคำ โดยคำที่มีความหมายใกล้กันจะอยู่ใกล้กันในพื้นที่นี้ เช่น “แมวบ้าน”, “เสือ”, และ “สิงโต” อาจอยู่ในกลุ่มเดียวกัน ส่วน “หมา”, “หมาป่า”, และ “โคโยตี้” อยู่ในอีกกลุ่มหนึ่ง การแปลงจาก vocab space ไปยัง embedding space และกลับมาใช้เมทริกซ์คูณ เช่น การใช้เมทริกซ์ขนาด 50,257 × 768 เพื่อแปลงเวกเตอร์จาก vocab space ไปยัง embedding space และเมทริกซ์ 768 × 50,257 เพื่อแปลงกลับ สุดท้าย Giles อธิบายว่า “layer” ใน neural network ก็คือการคูณเมทริกซ์เช่นกัน โดย input เป็นเวกเตอร์ n × d และ weight เป็นเมทริกซ์ d_out × d_in ซึ่งเมื่อคูณกันจะได้ output เป็น n × d_out ซึ่งเป็นการ “project” จากพื้นที่หนึ่งไปยังอีกพื้นที่หนึ่ง ✅ คณิตศาสตร์พื้นฐานที่ใช้ใน LLM ➡️ เวกเตอร์แทนความน่าจะเป็นของคำถัดไป ➡️ softmax ใช้แปลง logits ให้เป็นความน่าจะเป็นจริง ➡️ embedding space ใช้แทนความหมายของคำในหลายมิติ ✅ การแปลงระหว่าง vocab space และ embedding space ➡️ ใช้เมทริกซ์ขนาดใหญ่ เช่น 50,257 × 768 เพื่อแปลงเวกเตอร์ ➡️ การแปลงกลับใช้เมทริกซ์ 768 × 50,257 ➡️ การแปลงนี้อาจ “สูญเสียข้อมูล” หากลดจำนวนมิติ ✅ การคำนวณใน neural network ➡️ layer หนึ่งคือการคูณเมทริกซ์ระหว่าง input และ weight ➡️ ผลลัพธ์คือการ project จาก input space ไปยัง output space ➡️ bias และ activation function เป็นส่วนเสริมที่ทำให้ระบบไม่เป็นเชิงเส้น ✅ ตัวอย่างการใช้งานจริง ➡️ เวกเตอร์ logits จาก GPT-2 มี 50,257 ค่า ➡️ softmax แปลงเวกเตอร์ให้รวมเป็น 1 และกระจายเป็นเปอร์เซ็นต์ ➡️ embedding space ใช้จัดกลุ่มคำที่มีความหมายใกล้กัน https://www.gilesthomas.com/2025/09/maths-for-llms
    WWW.GILESTHOMAS.COM
    The maths you need to start understanding LLMs
    A quick refresher on the maths behind LLMs: vectors, matrices, projections, embeddings, logits and softmax.
    0 Comments 0 Shares 182 Views 0 Reviews
  • เรื่องเล่าจาก Ironwood: เมื่อ Google สร้างซูเปอร์คอมพิวเตอร์ที่ไม่ใช่แค่เร็ว แต่ “ฉลาดและยืดหยุ่น” ที่สุดเท่าที่เคยมีมา

    ในงาน Hot Chips 2025 Google ได้เปิดเผยรายละเอียดของ Ironwood TPU ซึ่งเป็นชิปรุ่นที่ 7 ของตระกูล Tensor Processing Unit โดยออกแบบมาเพื่อรองรับงาน inference ขนาดใหญ่โดยเฉพาะ ไม่ใช่การเทรนโมเดลเหมือนรุ่นก่อน ๆ

    แต่ละชิป Ironwood มีสถาปัตยกรรมแบบ dual-die ให้กำลังประมวลผล FP8 สูงถึง 4,614 TFLOPs และมาพร้อมกับหน่วยความจำ HBM3e ขนาด 192GB ต่อชิป โดยมีแบนด์วิดธ์สูงถึง 7.3TB/s

    ระบบสามารถขยายได้ถึง 9,216 ชิปต่อหนึ่ง pod โดยไม่ต้องใช้ glue logic และมี I/O bandwidth รวมถึง 1.2TBps ทำให้สามารถสร้างระบบที่มี shared memory ขนาด 1.77PB ได้—ซึ่งถือเป็นสถิติโลกใหม่สำหรับระบบ multi-CPU ที่ใช้ shared memory

    การเชื่อมต่อระหว่างแร็คใช้ optical circuit switch ที่สามารถ reconfigure ได้เมื่อมี node เสีย พร้อมระบบ checkpoint recovery และฟีเจอร์ด้านความปลอดภัย เช่น root of trust, built-in self test, และการตรวจจับ silent data corruption

    Ironwood ยังใช้ AI ในการออกแบบตัวเอง เช่น การ optimize ALU circuits และ floorplan พร้อมเพิ่ม SparseCore รุ่นที่ 4 เพื่อเร่งงาน embedding และ collective operations เช่น recommendation engine

    ระบบระบายความร้อนใช้ cold plate รุ่นที่ 3 ของ Google ซึ่งเป็น liquid cooling แบบเต็มรูปแบบ และมีการปรับแรงดันไฟฟ้าและความถี่แบบ dynamic เพื่อเพิ่มประสิทธิภาพต่อวัตต์ให้ดีกว่ารุ่น Trillium ถึง 2 เท่า

    สเปกหลักของ Ironwood TPU
    Dual-die architecture ให้ 4,614 TFLOPs FP8 ต่อชิป
    หน่วยความจำ HBM3e ขนาด 192GB ต่อชิป พร้อมแบนด์วิดธ์ 7.3TB/s
    รองรับการขยายถึง 9,216 ชิปต่อ pod ด้วย I/O bandwidth 1.2TBps

    สถิติโลกด้าน shared memory
    ระบบมี shared memory ขนาด 1.77PB แบบ addressable โดยตรง
    ใช้ optical circuit switch เชื่อมต่อแร็คแบบ dynamic
    รองรับ workload recovery และ node reconfiguration

    ฟีเจอร์ด้านความปลอดภัยและเสถียรภาพ
    มี root of trust, built-in self test, และ logic repair
    ตรวจจับและป้องกัน silent data corruption
    ออกแบบเพื่อ RAS: reliability, availability, serviceability

    การออกแบบด้วย AI และการใช้งาน
    ใช้ AI ในการ optimize ALU และ floorplan
    เพิ่ม SparseCore รุ่นที่ 4 สำหรับ embedding และ collective ops
    รองรับงาน inference เช่น LLM, recommendation, simulation

    ระบบระบายความร้อนและประสิทธิภาพ
    ใช้ cold plate liquid cooling รุ่นที่ 3 ของ Google
    ปรับแรงดันและความถี่แบบ dynamic เพื่อเพิ่ม efficiency
    ประสิทธิภาพต่อวัตต์ดีกว่ารุ่น Trillium ถึง 2 เท่า

    https://www.techradar.com/pro/googles-most-powerful-supercomputer-ever-has-a-combined-memory-of-1-77pb-apparently-a-new-world-record-for-shared-memory-multi-cpu-setups
    🎙️ เรื่องเล่าจาก Ironwood: เมื่อ Google สร้างซูเปอร์คอมพิวเตอร์ที่ไม่ใช่แค่เร็ว แต่ “ฉลาดและยืดหยุ่น” ที่สุดเท่าที่เคยมีมา ในงาน Hot Chips 2025 Google ได้เปิดเผยรายละเอียดของ Ironwood TPU ซึ่งเป็นชิปรุ่นที่ 7 ของตระกูล Tensor Processing Unit โดยออกแบบมาเพื่อรองรับงาน inference ขนาดใหญ่โดยเฉพาะ ไม่ใช่การเทรนโมเดลเหมือนรุ่นก่อน ๆ แต่ละชิป Ironwood มีสถาปัตยกรรมแบบ dual-die ให้กำลังประมวลผล FP8 สูงถึง 4,614 TFLOPs และมาพร้อมกับหน่วยความจำ HBM3e ขนาด 192GB ต่อชิป โดยมีแบนด์วิดธ์สูงถึง 7.3TB/s ระบบสามารถขยายได้ถึง 9,216 ชิปต่อหนึ่ง pod โดยไม่ต้องใช้ glue logic และมี I/O bandwidth รวมถึง 1.2TBps ทำให้สามารถสร้างระบบที่มี shared memory ขนาด 1.77PB ได้—ซึ่งถือเป็นสถิติโลกใหม่สำหรับระบบ multi-CPU ที่ใช้ shared memory การเชื่อมต่อระหว่างแร็คใช้ optical circuit switch ที่สามารถ reconfigure ได้เมื่อมี node เสีย พร้อมระบบ checkpoint recovery และฟีเจอร์ด้านความปลอดภัย เช่น root of trust, built-in self test, และการตรวจจับ silent data corruption Ironwood ยังใช้ AI ในการออกแบบตัวเอง เช่น การ optimize ALU circuits และ floorplan พร้อมเพิ่ม SparseCore รุ่นที่ 4 เพื่อเร่งงาน embedding และ collective operations เช่น recommendation engine ระบบระบายความร้อนใช้ cold plate รุ่นที่ 3 ของ Google ซึ่งเป็น liquid cooling แบบเต็มรูปแบบ และมีการปรับแรงดันไฟฟ้าและความถี่แบบ dynamic เพื่อเพิ่มประสิทธิภาพต่อวัตต์ให้ดีกว่ารุ่น Trillium ถึง 2 เท่า ✅ สเปกหลักของ Ironwood TPU ➡️ Dual-die architecture ให้ 4,614 TFLOPs FP8 ต่อชิป ➡️ หน่วยความจำ HBM3e ขนาด 192GB ต่อชิป พร้อมแบนด์วิดธ์ 7.3TB/s ➡️ รองรับการขยายถึง 9,216 ชิปต่อ pod ด้วย I/O bandwidth 1.2TBps ✅ สถิติโลกด้าน shared memory ➡️ ระบบมี shared memory ขนาด 1.77PB แบบ addressable โดยตรง ➡️ ใช้ optical circuit switch เชื่อมต่อแร็คแบบ dynamic ➡️ รองรับ workload recovery และ node reconfiguration ✅ ฟีเจอร์ด้านความปลอดภัยและเสถียรภาพ ➡️ มี root of trust, built-in self test, และ logic repair ➡️ ตรวจจับและป้องกัน silent data corruption ➡️ ออกแบบเพื่อ RAS: reliability, availability, serviceability ✅ การออกแบบด้วย AI และการใช้งาน ➡️ ใช้ AI ในการ optimize ALU และ floorplan ➡️ เพิ่ม SparseCore รุ่นที่ 4 สำหรับ embedding และ collective ops ➡️ รองรับงาน inference เช่น LLM, recommendation, simulation ✅ ระบบระบายความร้อนและประสิทธิภาพ ➡️ ใช้ cold plate liquid cooling รุ่นที่ 3 ของ Google ➡️ ปรับแรงดันและความถี่แบบ dynamic เพื่อเพิ่ม efficiency ➡️ ประสิทธิภาพต่อวัตต์ดีกว่ารุ่น Trillium ถึง 2 เท่า https://www.techradar.com/pro/googles-most-powerful-supercomputer-ever-has-a-combined-memory-of-1-77pb-apparently-a-new-world-record-for-shared-memory-multi-cpu-setups
    0 Comments 0 Shares 282 Views 0 Reviews
  • เรื่องเล่าจาก Safe Mode: เมื่อ PS5 เปิดติดแต่ไม่แสดงภาพ และวิธีแก้ที่ไม่ต้องส่งซ่อม

    ในช่วงที่ราคาของ PS5 พุ่งสูงขึ้น ผู้ใช้บางคนกลับต้องเจอกับปัญหาที่น่าหงุดหงิดยิ่งกว่า—เครื่องเปิดติดแต่หน้าจอขึ้นเป็นสีดำ ไม่มีภาพ ไม่มีเสียง ไม่มีอะไรเลย ซึ่งอาจดูเหมือนว่าเครื่องเสีย แต่จริง ๆ แล้วมีหลายสาเหตุที่สามารถแก้ได้เองโดยไม่ต้องพึ่งช่าง

    สาเหตุหลักที่พบได้บ่อยคือสาย HDMI ที่เสียหรือเสียบไม่แน่น รวมถึงพอร์ต HDMI ที่สกปรกหรือชำรุดทั้งฝั่ง PS5 และทีวี นอกจากนี้ยังมีปัญหาจากการตั้งค่าภาพที่ไม่ตรงกัน เช่น หากเคยใช้กับจอที่รองรับ HDR หรือความละเอียดสูง แล้วเปลี่ยนมาใช้จอธรรมดา เครื่องอาจพยายามส่งสัญญาณที่จอใหม่ไม่รองรับ

    อีกหนึ่งตัวการคือโหมดพักเครื่อง (Rest Mode) ซึ่งบางครั้งทำให้ระบบไม่สามารถกลับมาทำงานได้ตามปกติ และเกิดอาการค้างจนภาพไม่ขึ้น รวมถึงกรณีที่ข้อมูลระบบเสียหาย หรือเครื่องร้อนเกินไปก็อาจทำให้เกิดอาการนี้ได้เช่นกัน

    ข่าวดีคือ ปัญหาส่วนใหญ่สามารถแก้ได้ด้วยวิธีง่าย ๆ เช่น ตรวจสอบสาย HDMI, เปลี่ยนพอร์ต, รีสตาร์ทเครื่อง หรือเข้าสู่ Safe Mode เพื่อปรับค่าภาพใหม่, รีบิลด์ฐานข้อมูล หรือแม้แต่รีเซ็ตระบบ (ซึ่งควรใช้เป็นทางเลือกสุดท้าย)

    สาเหตุทั่วไปของ PS5 Black Screen
    สาย HDMI เสียหรือเสียบไม่แน่น
    พอร์ต HDMI สกปรกหรือชำรุด
    การตั้งค่าภาพไม่ตรงกับจอที่ใช้งาน
    ระบบค้างจาก Rest Mode หรือข้อมูลเสียหาย

    วิธีแก้เบื้องต้นที่ควรลองก่อนส่งซ่อม
    ตรวจสอบทีวีว่าเปิดอยู่และตั้งค่าพอร์ตถูกต้อง
    เปลี่ยนสาย HDMI หรือพอร์ตที่ใช้งาน
    รีสตาร์ทเครื่องโดยกดปุ่ม Power จนได้ยินสองเสียงบี๊บ
    ถอดปลั๊กแล้วรอ 20 นาที ก่อนเสียบกลับและเปิดใหม่

    การใช้ Safe Mode เพื่อแก้ปัญหา
    เข้าสู่ Safe Mode โดยกดปุ่ม Power จนได้ยินเสียงบี๊บสองครั้ง
    ใช้เมนู Change Video Output หรือ Change Resolution เพื่อแก้ปัญหาภาพ
    ใช้ Rebuild Database เพื่อแก้ข้อมูลเสียหาย
    หากยังไม่หาย อาจต้อง Reset หรือ Reinstall System Software

    ทางเลือกเมื่อวิธีเบื้องต้นไม่ได้ผล
    รีเซ็ตระบบจะลบเกมและข้อมูลทั้งหมด—ควรสำรองก่อน
    สามารถอัปเดตระบบผ่าน USB หากไม่เชื่อมต่ออินเทอร์เน็ตได้
    หากยังไม่หาย อาจเกิดจากปัญหาฮาร์ดแวร์ เช่น HDMI chip หรือ power supply

    https://www.slashgear.com/1955501/how-to-fix-ps5-black-screen-issue-what-causes-problem/
    🎙️ เรื่องเล่าจาก Safe Mode: เมื่อ PS5 เปิดติดแต่ไม่แสดงภาพ และวิธีแก้ที่ไม่ต้องส่งซ่อม ในช่วงที่ราคาของ PS5 พุ่งสูงขึ้น ผู้ใช้บางคนกลับต้องเจอกับปัญหาที่น่าหงุดหงิดยิ่งกว่า—เครื่องเปิดติดแต่หน้าจอขึ้นเป็นสีดำ ไม่มีภาพ ไม่มีเสียง ไม่มีอะไรเลย ซึ่งอาจดูเหมือนว่าเครื่องเสีย แต่จริง ๆ แล้วมีหลายสาเหตุที่สามารถแก้ได้เองโดยไม่ต้องพึ่งช่าง สาเหตุหลักที่พบได้บ่อยคือสาย HDMI ที่เสียหรือเสียบไม่แน่น รวมถึงพอร์ต HDMI ที่สกปรกหรือชำรุดทั้งฝั่ง PS5 และทีวี นอกจากนี้ยังมีปัญหาจากการตั้งค่าภาพที่ไม่ตรงกัน เช่น หากเคยใช้กับจอที่รองรับ HDR หรือความละเอียดสูง แล้วเปลี่ยนมาใช้จอธรรมดา เครื่องอาจพยายามส่งสัญญาณที่จอใหม่ไม่รองรับ อีกหนึ่งตัวการคือโหมดพักเครื่อง (Rest Mode) ซึ่งบางครั้งทำให้ระบบไม่สามารถกลับมาทำงานได้ตามปกติ และเกิดอาการค้างจนภาพไม่ขึ้น รวมถึงกรณีที่ข้อมูลระบบเสียหาย หรือเครื่องร้อนเกินไปก็อาจทำให้เกิดอาการนี้ได้เช่นกัน ข่าวดีคือ ปัญหาส่วนใหญ่สามารถแก้ได้ด้วยวิธีง่าย ๆ เช่น ตรวจสอบสาย HDMI, เปลี่ยนพอร์ต, รีสตาร์ทเครื่อง หรือเข้าสู่ Safe Mode เพื่อปรับค่าภาพใหม่, รีบิลด์ฐานข้อมูล หรือแม้แต่รีเซ็ตระบบ (ซึ่งควรใช้เป็นทางเลือกสุดท้าย) ✅ สาเหตุทั่วไปของ PS5 Black Screen ➡️ สาย HDMI เสียหรือเสียบไม่แน่น ➡️ พอร์ต HDMI สกปรกหรือชำรุด ➡️ การตั้งค่าภาพไม่ตรงกับจอที่ใช้งาน ➡️ ระบบค้างจาก Rest Mode หรือข้อมูลเสียหาย ✅ วิธีแก้เบื้องต้นที่ควรลองก่อนส่งซ่อม ➡️ ตรวจสอบทีวีว่าเปิดอยู่และตั้งค่าพอร์ตถูกต้อง ➡️ เปลี่ยนสาย HDMI หรือพอร์ตที่ใช้งาน ➡️ รีสตาร์ทเครื่องโดยกดปุ่ม Power จนได้ยินสองเสียงบี๊บ ➡️ ถอดปลั๊กแล้วรอ 20 นาที ก่อนเสียบกลับและเปิดใหม่ ✅ การใช้ Safe Mode เพื่อแก้ปัญหา ➡️ เข้าสู่ Safe Mode โดยกดปุ่ม Power จนได้ยินเสียงบี๊บสองครั้ง ➡️ ใช้เมนู Change Video Output หรือ Change Resolution เพื่อแก้ปัญหาภาพ ➡️ ใช้ Rebuild Database เพื่อแก้ข้อมูลเสียหาย ➡️ หากยังไม่หาย อาจต้อง Reset หรือ Reinstall System Software ✅ ทางเลือกเมื่อวิธีเบื้องต้นไม่ได้ผล ➡️ รีเซ็ตระบบจะลบเกมและข้อมูลทั้งหมด—ควรสำรองก่อน ➡️ สามารถอัปเดตระบบผ่าน USB หากไม่เชื่อมต่ออินเทอร์เน็ตได้ ➡️ หากยังไม่หาย อาจเกิดจากปัญหาฮาร์ดแวร์ เช่น HDMI chip หรือ power supply https://www.slashgear.com/1955501/how-to-fix-ps5-black-screen-issue-what-causes-problem/
    WWW.SLASHGEAR.COM
    How To Fix The PS5 Black Screen Issue (And What's Causing It, Explained) - SlashGear
    If your PS5 powers on but the screen stays black, check HDMI connections, Safe Mode settings, and software fixes to restore the display.
    0 Comments 0 Shares 240 Views 0 Reviews
  • เรื่องเล่าจาก SGLang: เมื่อ DeepSeek ถูกเสิร์ฟด้วยศิลปะของการแยกงานและแบ่งผู้เชี่ยวชาญ

    DeepSeek เป็นโมเดล LLM ที่ทรงพลังและซับซ้อน ด้วยสถาปัตยกรรมที่ใช้ Multi-head Latent Attention (MLA) และ Mixture of Experts (MoE) ซึ่งทำให้การรัน inference แบบ real-time กลายเป็นความท้าทายระดับสูง แต่ทีม SGLang ได้โชว์ว่า ถ้าออกแบบระบบดีพอ ก็สามารถรัน DeepSeek-V3 บน 96 H100 GPUs ได้อย่างมีประสิทธิภาพสูงสุด

    หัวใจของความสำเร็จนี้คือการใช้เทคนิค PD Disaggregation (แยกงานระหว่าง prefill และ decode) ร่วมกับ Expert Parallelism (EP) ที่ปรับแต่งอย่างละเอียดผ่าน DeepEP, DeepGEMM และ EPLB เพื่อให้การจัดการ memory, communication และ workload balance เป็นไปอย่างไร้รอยต่อ

    ผลลัพธ์คือ throughput สูงถึง 52.3k input tokens/sec และ 22.3k output tokens/sec ต่อ node ซึ่งใกล้เคียงกับระบบ production ของ DeepSeek เอง แต่ใช้ต้นทุนเพียง 20% ของ API ทางการ

    สถาปัตยกรรมการรัน DeepSeek บน SGLang
    ใช้ 12 nodes × 8 H100 GPUs รวม 96 GPUs
    throughput สูงถึง 52.3k input และ 22.3k output tokens/sec ต่อ node
    ต้นทุน inference อยู่ที่ ~$0.20 ต่อ 1M output tokens

    เทคนิค Prefill-Decode Disaggregation (PD)
    แยกการรัน prefill และ decode ออกจากกันเพื่อเพิ่มประสิทธิภาพ
    ลดปัญหา prefill interrupt และ latency จากการจัด batch แบบรวม
    รองรับ dispatch mode ที่ต่างกันสำหรับแต่ละ phase

    Expert Parallelism (EP) ด้วย DeepEP
    ใช้ normal dispatch สำหรับ prefill และ low-latency dispatch สำหรับ decode
    รองรับ auto mode ที่เลือก dispatch ตาม workload
    ลด latency และเพิ่ม throughput โดยใช้ expert routing ที่ปรับแต่งได้

    DeepGEMM สำหรับ MoE computation
    ใช้ Grouped GEMMs แบบ contiguous และ masked layout
    รองรับ CUDA Graph สำหรับ decode phase
    ใช้ Triton kernel เพื่อจัดเรียงข้อมูลให้เหมาะกับ GEMM kernel

    Two-Batch Overlap (TBO)
    แบ่ง batch เป็นสองส่วนเพื่อให้ computation และ communication overlap
    เพิ่ม throughput ได้ถึง 35% และลด peak memory usage
    ใช้ abstraction layer เพื่อจัดการ micro-batch อย่างสะอาดและ maintainable

    Expert Parallelism Load Balancer (EPLB)
    ใช้ expert redundancy เพื่อจัดวาง expert ให้สมดุล
    รองรับ parallelism size ที่ไม่จำกัดแค่ power-of-two เช่น 12 หรือ 72
    เพิ่ม utilization rate และลดการรอ GPU ที่ช้า

    Toolkits เสริมใน SGLang
    DisposableTensor สำหรับจัดการ memory ใน PyTorch โดยตรง
    Expert workload simulator เพื่อประเมิน performance ก่อน deploy จริง
    รองรับการ rebalancing แบบ staged เพื่อไม่ให้รบกวนระบบขณะทำงาน

    https://lmsys.org/blog/2025-05-05-large-scale-ep/
    🎙️ เรื่องเล่าจาก SGLang: เมื่อ DeepSeek ถูกเสิร์ฟด้วยศิลปะของการแยกงานและแบ่งผู้เชี่ยวชาญ DeepSeek เป็นโมเดล LLM ที่ทรงพลังและซับซ้อน ด้วยสถาปัตยกรรมที่ใช้ Multi-head Latent Attention (MLA) และ Mixture of Experts (MoE) ซึ่งทำให้การรัน inference แบบ real-time กลายเป็นความท้าทายระดับสูง แต่ทีม SGLang ได้โชว์ว่า ถ้าออกแบบระบบดีพอ ก็สามารถรัน DeepSeek-V3 บน 96 H100 GPUs ได้อย่างมีประสิทธิภาพสูงสุด หัวใจของความสำเร็จนี้คือการใช้เทคนิค PD Disaggregation (แยกงานระหว่าง prefill และ decode) ร่วมกับ Expert Parallelism (EP) ที่ปรับแต่งอย่างละเอียดผ่าน DeepEP, DeepGEMM และ EPLB เพื่อให้การจัดการ memory, communication และ workload balance เป็นไปอย่างไร้รอยต่อ ผลลัพธ์คือ throughput สูงถึง 52.3k input tokens/sec และ 22.3k output tokens/sec ต่อ node ซึ่งใกล้เคียงกับระบบ production ของ DeepSeek เอง แต่ใช้ต้นทุนเพียง 20% ของ API ทางการ ✅ สถาปัตยกรรมการรัน DeepSeek บน SGLang ➡️ ใช้ 12 nodes × 8 H100 GPUs รวม 96 GPUs ➡️ throughput สูงถึง 52.3k input และ 22.3k output tokens/sec ต่อ node ➡️ ต้นทุน inference อยู่ที่ ~$0.20 ต่อ 1M output tokens ✅ เทคนิค Prefill-Decode Disaggregation (PD) ➡️ แยกการรัน prefill และ decode ออกจากกันเพื่อเพิ่มประสิทธิภาพ ➡️ ลดปัญหา prefill interrupt และ latency จากการจัด batch แบบรวม ➡️ รองรับ dispatch mode ที่ต่างกันสำหรับแต่ละ phase ✅ Expert Parallelism (EP) ด้วย DeepEP ➡️ ใช้ normal dispatch สำหรับ prefill และ low-latency dispatch สำหรับ decode ➡️ รองรับ auto mode ที่เลือก dispatch ตาม workload ➡️ ลด latency และเพิ่ม throughput โดยใช้ expert routing ที่ปรับแต่งได้ ✅ DeepGEMM สำหรับ MoE computation ➡️ ใช้ Grouped GEMMs แบบ contiguous และ masked layout ➡️ รองรับ CUDA Graph สำหรับ decode phase ➡️ ใช้ Triton kernel เพื่อจัดเรียงข้อมูลให้เหมาะกับ GEMM kernel ✅ Two-Batch Overlap (TBO) ➡️ แบ่ง batch เป็นสองส่วนเพื่อให้ computation และ communication overlap ➡️ เพิ่ม throughput ได้ถึง 35% และลด peak memory usage ➡️ ใช้ abstraction layer เพื่อจัดการ micro-batch อย่างสะอาดและ maintainable ✅ Expert Parallelism Load Balancer (EPLB) ➡️ ใช้ expert redundancy เพื่อจัดวาง expert ให้สมดุล ➡️ รองรับ parallelism size ที่ไม่จำกัดแค่ power-of-two เช่น 12 หรือ 72 ➡️ เพิ่ม utilization rate และลดการรอ GPU ที่ช้า ✅ Toolkits เสริมใน SGLang ➡️ DisposableTensor สำหรับจัดการ memory ใน PyTorch โดยตรง ➡️ Expert workload simulator เพื่อประเมิน performance ก่อน deploy จริง ➡️ รองรับการ rebalancing แบบ staged เพื่อไม่ให้รบกวนระบบขณะทำงาน https://lmsys.org/blog/2025-05-05-large-scale-ep/
    LMSYS.ORG
    Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs | LMSYS Org
    DeepSeek is a popular open-source large language model (LLM) praised for its strong performance. However, its large size and unique architecture, which us...
    0 Comments 0 Shares 255 Views 0 Reviews
  • เรื่องเล่าจากเบื้องหลัง AI: ต้นทุนจริงของการรันโมเดลใหญ่

    ช่วงนี้มีเสียงลือกันหนาหูว่า AI โดยเฉพาะการ “รัน inference” คือเครื่องเผาเงินชั้นดี หลายคนเชื่อว่าบริษัทอย่าง OpenAI และ Anthropic กำลังขาดทุนยับเยินจากการให้บริการโมเดลขนาดใหญ่ แต่บทความนี้พาเราไปเจาะลึกแบบ “napkin math” หรือคำนวณคร่าว ๆ จากหลักการพื้นฐาน เพื่อหาคำตอบว่าเรื่องนี้จริงแค่ไหน

    ผู้เขียนใช้ DeepSeek R1 เป็นโมเดลตัวอย่าง ซึ่งมี 671 พารามิเตอร์ทั้งหมด แต่ใช้แค่ 37B ผ่านเทคนิค mixture of experts (MoE) ที่ช่วยลดต้นทุนได้มาก โดยใช้ GPU H100 จำนวน 72 ตัว คิดราคาที่ $2 ต่อชั่วโมงต่อ GPU ซึ่งสูงกว่าราคาจริงในตลาดเสียอีก

    สิ่งที่น่าสนใจคือ “ต้นทุนของ input tokens” กับ “output tokens” ต่างกันมหาศาล! การประมวลผล input tokens สามารถทำได้แบบขนานและเร็วมาก ในขณะที่การสร้าง output tokens ต้องทำแบบลำดับทีละตัว ทำให้ต้นทุนสูงกว่าเป็นพันเท่า

    ยิ่งไปกว่านั้น การใช้งานจริงของผู้ใช้ เช่น นักพัฒนา หรือ power users กลับอยู่ในรูปแบบที่ใช้ input เยอะมาก แต่ output น้อย เช่น การส่งโค้ดทั้งไฟล์เพื่อให้ AI วิเคราะห์ แล้วให้มันตอบกลับแค่ไม่กี่บรรทัด ซึ่งเป็นรูปแบบที่ “คุ้มค่ามาก” สำหรับผู้ให้บริการ

    ต้นทุนการรัน inference ของโมเดล AI
    ใช้ GPU H100 จำนวน 72 ตัว คิดต้นทุน $144/ชั่วโมง
    input tokens ประมวลผลได้เร็วมากถึง ~46.8 พันล้าน tokens/ชั่วโมง
    output tokens สร้างได้เพียง ~46.7 ล้าน tokens/ชั่วโมง
    ต้นทุนต่อ input token อยู่ที่ ~$0.003 ต่อ 1 ล้าน tokens
    ต้นทุนต่อ output token สูงถึง ~$3 ต่อ 1 ล้าน tokens

    ความแตกต่างระหว่าง input และ output
    input สามารถประมวลผลแบบขนานได้
    output ต้องสร้างทีละ token ทำให้ช้ากว่าและแพงกว่า
    ความไม่สมมาตรนี้ทำให้บาง use case คุ้มค่ามาก เช่น coding assistant

    ตัวอย่างการใช้งานจริง
    ผู้ใช้ระดับนักพัฒนาใช้ input เยอะมาก เช่น โค้ดหลายไฟล์
    แต่ต้องการ output น้อย เช่น คำอธิบายหรือโค้ดสั้น ๆ
    ทำให้ต้นทุนจริงต่ำมากเมื่อเทียบกับราคาที่เรียกเก็บ

    โมเดลธุรกิจของ API
    ราคาขายต่อ 1 ล้าน tokens อยู่ที่ ~$3 สำหรับ output
    แต่ต้นทุนจริงอยู่ที่ ~$0.01 สำหรับ input และ ~$3 สำหรับ output
    ทำให้มี margin สูงถึง 80–95%

    ความเข้าใจผิดเกี่ยวกับต้นทุน AI
    หลายคนเชื่อว่า inference ขาดทุนเสมอ ซึ่งไม่จริงในหลายกรณี
    การพูดถึงต้นทุนสูงอาจเป็นกลยุทธ์ของผู้เล่นรายใหญ่เพื่อกันคู่แข่ง

    ความเสี่ยงจาก context ยาว
    เมื่อ context ยาวเกิน 128k tokens จะเปลี่ยนจาก memory-bound เป็น compute-bound
    ทำให้ต้นทุนเพิ่มขึ้น 2–10 เท่า
    บางโมเดลจึงจำกัด context window เพื่อควบคุมต้นทุน

    การตั้งราคาที่ไม่สอดคล้องกับมูลค่าจริง
    การคิดราคาตาม input อาจทำให้ผู้ใช้ลดรายละเอียดใน prompt
    การคิดราคาตาม output อาจทำให้ผู้ใช้รู้สึกว่าไม่คุ้มถ้าได้คำตอบสั้น

    https://martinalderson.com/posts/are-openai-and-anthropic-really-losing-money-on-inference/
    🎙️ เรื่องเล่าจากเบื้องหลัง AI: ต้นทุนจริงของการรันโมเดลใหญ่ ช่วงนี้มีเสียงลือกันหนาหูว่า AI โดยเฉพาะการ “รัน inference” คือเครื่องเผาเงินชั้นดี หลายคนเชื่อว่าบริษัทอย่าง OpenAI และ Anthropic กำลังขาดทุนยับเยินจากการให้บริการโมเดลขนาดใหญ่ แต่บทความนี้พาเราไปเจาะลึกแบบ “napkin math” หรือคำนวณคร่าว ๆ จากหลักการพื้นฐาน เพื่อหาคำตอบว่าเรื่องนี้จริงแค่ไหน ผู้เขียนใช้ DeepSeek R1 เป็นโมเดลตัวอย่าง ซึ่งมี 671 พารามิเตอร์ทั้งหมด แต่ใช้แค่ 37B ผ่านเทคนิค mixture of experts (MoE) ที่ช่วยลดต้นทุนได้มาก โดยใช้ GPU H100 จำนวน 72 ตัว คิดราคาที่ $2 ต่อชั่วโมงต่อ GPU ซึ่งสูงกว่าราคาจริงในตลาดเสียอีก สิ่งที่น่าสนใจคือ “ต้นทุนของ input tokens” กับ “output tokens” ต่างกันมหาศาล! การประมวลผล input tokens สามารถทำได้แบบขนานและเร็วมาก ในขณะที่การสร้าง output tokens ต้องทำแบบลำดับทีละตัว ทำให้ต้นทุนสูงกว่าเป็นพันเท่า ยิ่งไปกว่านั้น การใช้งานจริงของผู้ใช้ เช่น นักพัฒนา หรือ power users กลับอยู่ในรูปแบบที่ใช้ input เยอะมาก แต่ output น้อย เช่น การส่งโค้ดทั้งไฟล์เพื่อให้ AI วิเคราะห์ แล้วให้มันตอบกลับแค่ไม่กี่บรรทัด ซึ่งเป็นรูปแบบที่ “คุ้มค่ามาก” สำหรับผู้ให้บริการ ✅ ต้นทุนการรัน inference ของโมเดล AI ➡️ ใช้ GPU H100 จำนวน 72 ตัว คิดต้นทุน $144/ชั่วโมง ➡️ input tokens ประมวลผลได้เร็วมากถึง ~46.8 พันล้าน tokens/ชั่วโมง ➡️ output tokens สร้างได้เพียง ~46.7 ล้าน tokens/ชั่วโมง ➡️ ต้นทุนต่อ input token อยู่ที่ ~$0.003 ต่อ 1 ล้าน tokens ➡️ ต้นทุนต่อ output token สูงถึง ~$3 ต่อ 1 ล้าน tokens ✅ ความแตกต่างระหว่าง input และ output ➡️ input สามารถประมวลผลแบบขนานได้ ➡️ output ต้องสร้างทีละ token ทำให้ช้ากว่าและแพงกว่า ➡️ ความไม่สมมาตรนี้ทำให้บาง use case คุ้มค่ามาก เช่น coding assistant ✅ ตัวอย่างการใช้งานจริง ➡️ ผู้ใช้ระดับนักพัฒนาใช้ input เยอะมาก เช่น โค้ดหลายไฟล์ ➡️ แต่ต้องการ output น้อย เช่น คำอธิบายหรือโค้ดสั้น ๆ ➡️ ทำให้ต้นทุนจริงต่ำมากเมื่อเทียบกับราคาที่เรียกเก็บ ✅ โมเดลธุรกิจของ API ➡️ ราคาขายต่อ 1 ล้าน tokens อยู่ที่ ~$3 สำหรับ output ➡️ แต่ต้นทุนจริงอยู่ที่ ~$0.01 สำหรับ input และ ~$3 สำหรับ output ➡️ ทำให้มี margin สูงถึง 80–95% ‼️ ความเข้าใจผิดเกี่ยวกับต้นทุน AI ⛔ หลายคนเชื่อว่า inference ขาดทุนเสมอ ซึ่งไม่จริงในหลายกรณี ⛔ การพูดถึงต้นทุนสูงอาจเป็นกลยุทธ์ของผู้เล่นรายใหญ่เพื่อกันคู่แข่ง ‼️ ความเสี่ยงจาก context ยาว ⛔ เมื่อ context ยาวเกิน 128k tokens จะเปลี่ยนจาก memory-bound เป็น compute-bound ⛔ ทำให้ต้นทุนเพิ่มขึ้น 2–10 เท่า ⛔ บางโมเดลจึงจำกัด context window เพื่อควบคุมต้นทุน ‼️ การตั้งราคาที่ไม่สอดคล้องกับมูลค่าจริง ⛔ การคิดราคาตาม input อาจทำให้ผู้ใช้ลดรายละเอียดใน prompt ⛔ การคิดราคาตาม output อาจทำให้ผู้ใช้รู้สึกว่าไม่คุ้มถ้าได้คำตอบสั้น https://martinalderson.com/posts/are-openai-and-anthropic-really-losing-money-on-inference/
    MARTINALDERSON.COM
    Are OpenAI and Anthropic Really Losing Money on Inference?
    Deconstructing the real costs of running AI inference at scale. My napkin math suggests the economics might be far more profitable than commonly claimed.
    0 Comments 0 Shares 185 Views 0 Reviews
  • เมื่อความร้อนจาก AI กลายเป็นศัตรูตัวฉกาจ Google จึงตอบโต้ด้วย “น้ำ”

    ในยุคที่ AI กลายเป็นตัวขับเคลื่อนหลักของดาต้าเซ็นเตอร์ ความร้อนจากชิปประมวลผลก็พุ่งทะยานตามไปด้วย โดยเฉพาะ TPU ของ Google ที่ใช้พลังงานมหาศาลในการฝึกโมเดลขนาดใหญ่ Google จึงเปิดตัวระบบระบายความร้อนด้วยน้ำแบบเต็มรูปแบบในงาน Hot Chips 2025 ซึ่งไม่ใช่แค่ “ติดตั้งหม้อน้ำ” แต่เป็นการออกแบบใหม่ทั้งระบบตั้งแต่ระดับแร็ค

    ระบบนี้ใช้ CDU (Coolant Distribution Unit) จำนวน 6 ตัวต่อแร็ค โดย 5 ตัวทำงาน และอีก 1 ตัวเป็นสำรองเพื่อให้สามารถซ่อมบำรุงได้โดยไม่ต้องหยุดระบบ CDU ทำหน้าที่แลกเปลี่ยนความร้อนระหว่างน้ำหล่อเย็นกับระบบน้ำของอาคาร โดยไม่ให้ของเหลวทั้งสองฝั่งผสมกัน

    น้ำหล่อเย็นจะถูกส่งผ่านท่อไปยังเซิร์ฟเวอร์ TPU โดยไหลผ่านชิปแบบต่อเนื่อง (series loop) ซึ่งหมายความว่าชิปตัวท้ายจะได้รับน้ำที่ร้อนกว่าชิปตัวแรก Google จึงออกแบบระบบให้รองรับความร้อนของชิปตัวสุดท้ายเป็นหลัก และใช้ cold plate แบบ split-flow เพื่อเพิ่มประสิทธิภาพการถ่ายเทความร้อน

    ที่น่าสนใจคือ TPUv4 ของ Google ใช้การระบายความร้อนแบบ bare-die ซึ่งคล้ายกับการ “delid” ในวงการ PC enthusiast เพื่อให้ความร้อนถ่ายเทได้ดีขึ้น เพราะ TPUv4 มีการใช้พลังงานมากกว่า TPUv3 ถึง 1.6 เท่า

    Google ยังพบว่า การใช้ปั๊มน้ำกินไฟน้อยกว่าพัดลมถึง 95% เมื่อเทียบกับระบบระบายความร้อนด้วยอากาศแบบเดิม ซึ่งช่วยลดภาระด้านพลังงานของดาต้าเซ็นเตอร์ได้อย่างมหาศาล

    สรุปเนื้อหาเป็นหัวข้อ
    Google เปิดตัวระบบระบายความร้อนด้วยน้ำระดับดาต้าเซ็นเตอร์ในงาน Hot Chips 2025
    ใช้ CDU จำนวน 6 ตัวต่อแร็ค โดยมี 1 ตัวเป็นสำรองเพื่อซ่อมบำรุงโดยไม่ต้องหยุดระบบ
    CDU ทำหน้าที่แลกเปลี่ยนความร้อนระหว่างน้ำหล่อเย็นกับระบบน้ำของอาคาร
    น้ำหล่อเย็นไหลผ่านชิป TPU แบบต่อเนื่อง โดยออกแบบให้รองรับความร้อนของชิปตัวท้าย
    ใช้ cold plate แบบ split-flow เพื่อเพิ่มประสิทธิภาพการถ่ายเทความร้อน
    TPUv4 ใช้การระบายความร้อนแบบ bare-die เพื่อรองรับพลังงานที่สูงขึ้น 1.6 เท่า
    ปั๊มน้ำใช้พลังงานน้อยกว่าพัดลมถึง 95% เมื่อเทียบกับระบบระบายความร้อนด้วยอากาศ
    ระบบใช้ quick-disconnect fittings เพื่อให้ง่ายต่อการบำรุงรักษา
    มีระบบตรวจจับการรั่ว ระบบแจ้งเตือน และการบำรุงรักษาแบบมีแผนเพื่อป้องกันปัญหา
    Google ใช้การทดสอบรั่วและการตรวจสอบคุณภาพอย่างเข้มงวดก่อนใช้งานจริง

    ข้อมูลเสริมจากภายนอก
    Google เตรียมเปิดตัว CDU รุ่นที่ 5 ชื่อ Project Deschutes ในงาน OCP Summit เพื่อใช้ในแร็คระดับ 1MW
    NVIDIA GB300 และ Rebellions AI ก็ใช้ระบบระบายความร้อนด้วยน้ำในงาน Hot Chips เช่นกัน
    ระบบของ Rebellions AI ใช้ chiller และ water block สำหรับการสาธิต ML accelerator
    การระบายความร้อนด้วยน้ำมีประสิทธิภาพสูงกว่าการใช้อากาศถึง 4,000 เท่าในด้านการนำความร้อน
    ดาต้าเซ็นเตอร์ยุคใหม่ต้องออกแบบระบบระบายความร้อนควบคู่กับการจัดการพลังงานอย่างแม่นยำ

    https://chipsandcheese.com/p/googles-liquid-cooling-at-hot-chips
    💧 เมื่อความร้อนจาก AI กลายเป็นศัตรูตัวฉกาจ Google จึงตอบโต้ด้วย “น้ำ” ในยุคที่ AI กลายเป็นตัวขับเคลื่อนหลักของดาต้าเซ็นเตอร์ ความร้อนจากชิปประมวลผลก็พุ่งทะยานตามไปด้วย โดยเฉพาะ TPU ของ Google ที่ใช้พลังงานมหาศาลในการฝึกโมเดลขนาดใหญ่ Google จึงเปิดตัวระบบระบายความร้อนด้วยน้ำแบบเต็มรูปแบบในงาน Hot Chips 2025 ซึ่งไม่ใช่แค่ “ติดตั้งหม้อน้ำ” แต่เป็นการออกแบบใหม่ทั้งระบบตั้งแต่ระดับแร็ค ระบบนี้ใช้ CDU (Coolant Distribution Unit) จำนวน 6 ตัวต่อแร็ค โดย 5 ตัวทำงาน และอีก 1 ตัวเป็นสำรองเพื่อให้สามารถซ่อมบำรุงได้โดยไม่ต้องหยุดระบบ CDU ทำหน้าที่แลกเปลี่ยนความร้อนระหว่างน้ำหล่อเย็นกับระบบน้ำของอาคาร โดยไม่ให้ของเหลวทั้งสองฝั่งผสมกัน น้ำหล่อเย็นจะถูกส่งผ่านท่อไปยังเซิร์ฟเวอร์ TPU โดยไหลผ่านชิปแบบต่อเนื่อง (series loop) ซึ่งหมายความว่าชิปตัวท้ายจะได้รับน้ำที่ร้อนกว่าชิปตัวแรก Google จึงออกแบบระบบให้รองรับความร้อนของชิปตัวสุดท้ายเป็นหลัก และใช้ cold plate แบบ split-flow เพื่อเพิ่มประสิทธิภาพการถ่ายเทความร้อน ที่น่าสนใจคือ TPUv4 ของ Google ใช้การระบายความร้อนแบบ bare-die ซึ่งคล้ายกับการ “delid” ในวงการ PC enthusiast เพื่อให้ความร้อนถ่ายเทได้ดีขึ้น เพราะ TPUv4 มีการใช้พลังงานมากกว่า TPUv3 ถึง 1.6 เท่า Google ยังพบว่า การใช้ปั๊มน้ำกินไฟน้อยกว่าพัดลมถึง 95% เมื่อเทียบกับระบบระบายความร้อนด้วยอากาศแบบเดิม ซึ่งช่วยลดภาระด้านพลังงานของดาต้าเซ็นเตอร์ได้อย่างมหาศาล 📌 สรุปเนื้อหาเป็นหัวข้อ ➡️ Google เปิดตัวระบบระบายความร้อนด้วยน้ำระดับดาต้าเซ็นเตอร์ในงาน Hot Chips 2025 ➡️ ใช้ CDU จำนวน 6 ตัวต่อแร็ค โดยมี 1 ตัวเป็นสำรองเพื่อซ่อมบำรุงโดยไม่ต้องหยุดระบบ ➡️ CDU ทำหน้าที่แลกเปลี่ยนความร้อนระหว่างน้ำหล่อเย็นกับระบบน้ำของอาคาร ➡️ น้ำหล่อเย็นไหลผ่านชิป TPU แบบต่อเนื่อง โดยออกแบบให้รองรับความร้อนของชิปตัวท้าย ➡️ ใช้ cold plate แบบ split-flow เพื่อเพิ่มประสิทธิภาพการถ่ายเทความร้อน ➡️ TPUv4 ใช้การระบายความร้อนแบบ bare-die เพื่อรองรับพลังงานที่สูงขึ้น 1.6 เท่า ➡️ ปั๊มน้ำใช้พลังงานน้อยกว่าพัดลมถึง 95% เมื่อเทียบกับระบบระบายความร้อนด้วยอากาศ ➡️ ระบบใช้ quick-disconnect fittings เพื่อให้ง่ายต่อการบำรุงรักษา ➡️ มีระบบตรวจจับการรั่ว ระบบแจ้งเตือน และการบำรุงรักษาแบบมีแผนเพื่อป้องกันปัญหา ➡️ Google ใช้การทดสอบรั่วและการตรวจสอบคุณภาพอย่างเข้มงวดก่อนใช้งานจริง ✅ ข้อมูลเสริมจากภายนอก ➡️ Google เตรียมเปิดตัว CDU รุ่นที่ 5 ชื่อ Project Deschutes ในงาน OCP Summit เพื่อใช้ในแร็คระดับ 1MW ➡️ NVIDIA GB300 และ Rebellions AI ก็ใช้ระบบระบายความร้อนด้วยน้ำในงาน Hot Chips เช่นกัน ➡️ ระบบของ Rebellions AI ใช้ chiller และ water block สำหรับการสาธิต ML accelerator ➡️ การระบายความร้อนด้วยน้ำมีประสิทธิภาพสูงกว่าการใช้อากาศถึง 4,000 เท่าในด้านการนำความร้อน ➡️ ดาต้าเซ็นเตอร์ยุคใหม่ต้องออกแบบระบบระบายความร้อนควบคู่กับการจัดการพลังงานอย่างแม่นยำ https://chipsandcheese.com/p/googles-liquid-cooling-at-hot-chips
    0 Comments 0 Shares 197 Views 0 Reviews
  • Gemini 2.5 Flash Image — เมื่อ AI เข้าใจภาพอย่างมี “ความหมาย”

    ในอดีต โมเดลสร้างภาพด้วย AI มักจะเน้นความสวยงาม แต่ขาดความเข้าใจโลกจริง เช่น ถ้าขอให้วาด “แมวถือกล้วยในร้านอาหารหรู” ก็อาจได้ภาพที่ดูดีแต่ไม่สมเหตุสมผล วันนี้ Google เปิดตัว Gemini 2.5 Flash Image ซึ่งไม่ใช่แค่สร้างภาพสวย แต่ “เข้าใจ” ว่าอะไรควรอยู่ตรงไหน และทำไม

    Gemini 2.5 Flash Image สามารถรวมหลายภาพเป็นภาพเดียวได้อย่างกลมกลืน เช่น การวางสินค้าลงในฉากใหม่ หรือเปลี่ยนโทนสีห้องด้วยภาพตัวอย่าง นอกจากนี้ยังสามารถแก้ไขภาพด้วยคำสั่งธรรมดา เช่น “ลบคนด้านหลัง” หรือ “เปลี่ยนท่าทางของตัวละคร” โดยไม่ต้องใช้เครื่องมือซับซ้อน

    สิ่งที่โดดเด่นคือความสามารถในการรักษาความสม่ำเสมอของตัวละคร เช่น ถ้าสร้างภาพตัวละครหนึ่งในฉากต่าง ๆ ตัวละครนั้นจะยังคงหน้าตา เสื้อผ้า และบุคลิกเดิมไว้ได้อย่างแม่นยำ ซึ่งเหมาะกับการสร้างแบรนด์ การ์ตูน หรือสินค้าหลายมุมมอง

    Gemini ยังใช้ความรู้จากโลกจริง เช่น การอ่านภาพวาดมือ การเข้าใจแผนภาพ และการตอบคำถามจากภาพ เพื่อสร้างแอปการเรียนรู้แบบ interactive ได้ทันที

    โมเดลนี้เปิดให้ใช้งานผ่าน Google AI Studio และ Vertex AI โดยมีราคาประมาณ $0.039 ต่อภาพ และทุกภาพจะมีลายน้ำดิจิทัล SynthID ฝังไว้แบบมองไม่เห็น เพื่อระบุว่าเป็นภาพที่สร้างหรือแก้ไขด้วย AI

    สรุปเนื้อหาเป็นหัวข้อ
    Gemini 2.5 Flash Image เป็นโมเดลสร้างและแก้ไขภาพที่ล้ำหน้าที่สุดของ Google
    รองรับการรวมหลายภาพเป็นภาพเดียว (multi-image fusion) ด้วย prompt เดียว
    สามารถแก้ไขภาพแบบเจาะจง เช่น ลบสิ่งของ เปลี่ยนท่าทาง หรือปรับสี ด้วยคำสั่งธรรมดา
    รักษาความสม่ำเสมอของตัวละครในหลายฉากได้อย่างแม่นยำ
    ใช้ความรู้จากโลกจริง เช่น การอ่านภาพวาดมือ และตอบคำถามจากภาพ
    มี template app ใน Google AI Studio สำหรับทดลองและปรับแต่งได้ทันที
    รองรับการสร้างแอปแก้ไขภาพด้วย prompt เดียว เช่น “สร้างแอปใส่ฟิลเตอร์ภาพ”
    เปิดให้ใช้งานผ่าน Gemini API, Google AI Studio และ Vertex AI
    ราคา $30 ต่อ 1 ล้าน output tokens หรือประมาณ $0.039 ต่อภาพ
    ทุกภาพมีลายน้ำ SynthID ฝังไว้เพื่อระบุว่าเป็นภาพจาก AI

    ข้อมูลเสริมจากภายนอก
    Gemini 2.5 Flash Image เป็นโมเดลแรกที่ OpenRouter รองรับการสร้างภาพโดยตรง
    ใช้สถาปัตยกรรมเดียวกับ Gemini 2.5 Flash ซึ่งเน้นความเร็วและต้นทุนต่ำ
    DeepMind ระบุว่า Gemini 2.5 มีความสามารถ reasoning ที่ดีขึ้นจาก reinforcement learning2
    โมเดลนี้สามารถรันผ่าน SDK ที่รองรับ OpenAI API เช่น openai-python และ typescript
    มีการใช้งานร่วมกับ fal.ai เพื่อขยายสู่ชุมชนนักพัฒนา generative media

    https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/
    🎨 Gemini 2.5 Flash Image — เมื่อ AI เข้าใจภาพอย่างมี “ความหมาย” ในอดีต โมเดลสร้างภาพด้วย AI มักจะเน้นความสวยงาม แต่ขาดความเข้าใจโลกจริง เช่น ถ้าขอให้วาด “แมวถือกล้วยในร้านอาหารหรู” ก็อาจได้ภาพที่ดูดีแต่ไม่สมเหตุสมผล วันนี้ Google เปิดตัว Gemini 2.5 Flash Image ซึ่งไม่ใช่แค่สร้างภาพสวย แต่ “เข้าใจ” ว่าอะไรควรอยู่ตรงไหน และทำไม Gemini 2.5 Flash Image สามารถรวมหลายภาพเป็นภาพเดียวได้อย่างกลมกลืน เช่น การวางสินค้าลงในฉากใหม่ หรือเปลี่ยนโทนสีห้องด้วยภาพตัวอย่าง นอกจากนี้ยังสามารถแก้ไขภาพด้วยคำสั่งธรรมดา เช่น “ลบคนด้านหลัง” หรือ “เปลี่ยนท่าทางของตัวละคร” โดยไม่ต้องใช้เครื่องมือซับซ้อน สิ่งที่โดดเด่นคือความสามารถในการรักษาความสม่ำเสมอของตัวละคร เช่น ถ้าสร้างภาพตัวละครหนึ่งในฉากต่าง ๆ ตัวละครนั้นจะยังคงหน้าตา เสื้อผ้า และบุคลิกเดิมไว้ได้อย่างแม่นยำ ซึ่งเหมาะกับการสร้างแบรนด์ การ์ตูน หรือสินค้าหลายมุมมอง Gemini ยังใช้ความรู้จากโลกจริง เช่น การอ่านภาพวาดมือ การเข้าใจแผนภาพ และการตอบคำถามจากภาพ เพื่อสร้างแอปการเรียนรู้แบบ interactive ได้ทันที โมเดลนี้เปิดให้ใช้งานผ่าน Google AI Studio และ Vertex AI โดยมีราคาประมาณ $0.039 ต่อภาพ และทุกภาพจะมีลายน้ำดิจิทัล SynthID ฝังไว้แบบมองไม่เห็น เพื่อระบุว่าเป็นภาพที่สร้างหรือแก้ไขด้วย AI 📌 สรุปเนื้อหาเป็นหัวข้อ ➡️ Gemini 2.5 Flash Image เป็นโมเดลสร้างและแก้ไขภาพที่ล้ำหน้าที่สุดของ Google ➡️ รองรับการรวมหลายภาพเป็นภาพเดียว (multi-image fusion) ด้วย prompt เดียว ➡️ สามารถแก้ไขภาพแบบเจาะจง เช่น ลบสิ่งของ เปลี่ยนท่าทาง หรือปรับสี ด้วยคำสั่งธรรมดา ➡️ รักษาความสม่ำเสมอของตัวละครในหลายฉากได้อย่างแม่นยำ ➡️ ใช้ความรู้จากโลกจริง เช่น การอ่านภาพวาดมือ และตอบคำถามจากภาพ ➡️ มี template app ใน Google AI Studio สำหรับทดลองและปรับแต่งได้ทันที ➡️ รองรับการสร้างแอปแก้ไขภาพด้วย prompt เดียว เช่น “สร้างแอปใส่ฟิลเตอร์ภาพ” ➡️ เปิดให้ใช้งานผ่าน Gemini API, Google AI Studio และ Vertex AI ➡️ ราคา $30 ต่อ 1 ล้าน output tokens หรือประมาณ $0.039 ต่อภาพ ➡️ ทุกภาพมีลายน้ำ SynthID ฝังไว้เพื่อระบุว่าเป็นภาพจาก AI ✅ ข้อมูลเสริมจากภายนอก ➡️ Gemini 2.5 Flash Image เป็นโมเดลแรกที่ OpenRouter รองรับการสร้างภาพโดยตรง ➡️ ใช้สถาปัตยกรรมเดียวกับ Gemini 2.5 Flash ซึ่งเน้นความเร็วและต้นทุนต่ำ ➡️ DeepMind ระบุว่า Gemini 2.5 มีความสามารถ reasoning ที่ดีขึ้นจาก reinforcement learning2 ➡️ โมเดลนี้สามารถรันผ่าน SDK ที่รองรับ OpenAI API เช่น openai-python และ typescript ➡️ มีการใช้งานร่วมกับ fal.ai เพื่อขยายสู่ชุมชนนักพัฒนา generative media https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/
    DEVELOPERS.GOOGLEBLOG.COM
    Introducing Gemini 2.5 Flash Image, our state-of-the-art image model- Google Developers Blog
    Explore Gemini 2.5 Flash Image, a powerful new image generation and editing model with advanced features and creative control.
    0 Comments 0 Shares 251 Views 0 Reviews
  • https://youtu.be/TQ6XTpU0V3c?si=HGd5P5Vcc4f2UtLD
    https://youtu.be/TQ6XTpU0V3c?si=HGd5P5Vcc4f2UtLD
    0 Comments 0 Shares 61 Views 0 Reviews
  • Pixel 10 กับ Tensor G5 – เมื่อ Google เลือก TSMC แทน Samsung เพื่อก้าวสู่ยุค AI บนมือถือ

    ในเดือนสิงหาคม 2025 Google เปิดตัว Pixel 10 และ Pixel 10 Pro พร้อมชิป Tensor G5 ซึ่งถือเป็นการเปลี่ยนแปลงครั้งใหญ่ในสายผลิตภัณฑ์ Pixel เพราะเป็นครั้งแรกที่ Google เลือก TSMC เป็นผู้ผลิตชิป แทนที่ Samsung ที่เคยร่วมงานกันมาตั้งแต่ Tensor รุ่นแรก

    Tensor G5 ถูกผลิตด้วยเทคโนโลยี N3P ของ TSMC ซึ่งเป็นกระบวนการระดับ 3 นาโนเมตรที่ให้ประสิทธิภาพสูงและใช้พลังงานต่ำกว่าเดิม โดย CPU เร็วขึ้น 34% และ TPU สำหรับงาน AI เร็วขึ้นถึง 60% เมื่อเทียบกับ Tensor G4

    นอกจากความเร็วแล้ว Tensor G5 ยังมาพร้อมกับความสามารถด้าน AI ที่ล้ำหน้า เช่น การรันโมเดล Gemini Nano ของ DeepMind บนเครื่องโดยไม่ต้องพึ่งคลาวด์ ทำให้ฟีเจอร์อย่าง Magic Cue, Call Notes, Voice Translate และ Gboard Smart Edit ทำงานได้เร็วและแม่นยำขึ้น

    Pixel 10 ยังมีฟีเจอร์กล้องใหม่ เช่น Add Me, Auto Best Take และ 100x Pro Res Zoom ที่ใช้โมเดล diffusion ขนาดเกือบพันล้านพารามิเตอร์ ซึ่งรันบน TPU โดยตรง พร้อมระบบ ISP ใหม่ที่ช่วยให้ถ่ายวิดีโอ 10-bit ได้แม้ในที่แสงน้อย

    การเปลี่ยนมาใช้ TSMC ไม่ใช่แค่เรื่องประสิทธิภาพ แต่ยังสะท้อนถึงความพยายามของ Google ในการควบคุมคุณภาพและความปลอดภัยของชิป ตั้งแต่การออกแบบจนถึงการผลิต โดยมีเป้าหมายเพื่อสร้างสมาร์ทโฟนที่ฉลาดและปลอดภัยที่สุดในตลาด

    สรุปเนื้อหาเป็นหัวข้อ
    Pixel 10 ใช้ชิป Tensor G5 ที่ผลิตโดย TSMC แทน Samsung
    Tensor G5 ผลิตด้วยเทคโนโลยี N3P ระดับ 3nm ที่มีประสิทธิภาพสูง
    CPU เร็วขึ้น 34% และ TPU เร็วขึ้น 60% เมื่อเทียบกับ Tensor G4
    รองรับโมเดล Gemini Nano จาก DeepMind สำหรับงาน AI บนเครื่อง
    ฟีเจอร์ AI ใหม่ เช่น Magic Cue, Call Notes, Voice Translate, Gboard Smart Edit
    ระบบกล้องใหม่รองรับ 100x Pro Res Zoom และวิดีโอ 10-bit
    Pixel 10 รองรับการชาร์จเร็ว, แบตเตอรี่ใหญ่ขึ้น และชาร์จไร้สายแบบแม่เหล็ก
    รองรับการอัปเดตซอฟต์แวร์นานถึง 7 ปี
    มีการปรับปรุงระบบควบคุมความร้อนให้ชิปทำงานที่ความถี่สูงได้โดยไม่ throttle
    ใช้ LPDDR5X และ UFS 4.0 เพื่อเพิ่มแบนด์วิดท์และความเร็วในการอ่านข้อมูล

    ข้อมูลเสริมจากภายนอก
    TSMC เป็นผู้ผลิตชิปที่มี yield สูงและการออกแบบทรานซิสเตอร์ที่แม่นยำ
    N3P เป็นการพัฒนาเพิ่มเติมจาก N3E โดยให้ประสิทธิภาพดีขึ้นแต่ยังคงความเข้ากันได้กับดีไซน์เดิม
    การเปลี่ยนมาใช้ TSMC อาจเป็นการตอบโต้ต่อปัญหาด้านประสิทธิภาพของ Samsung Foundry
    Tensor G5 ใช้สถาปัตยกรรม Matformer และ Per Layer Embedding เพื่อเพิ่มคุณภาพการตอบสนองของโมเดล
    Pixel 10 เป็นรุ่นแรกที่ใช้ diffusion model ในกล้องโดยตรงบนอุปกรณ์

    https://www.tomshardware.com/tech-industry/semiconductors/google-switches-from-samsung-to-tsmc-pixel-10-and-g5-use-tsmcs-n3p-process
    🎙️ Pixel 10 กับ Tensor G5 – เมื่อ Google เลือก TSMC แทน Samsung เพื่อก้าวสู่ยุค AI บนมือถือ ในเดือนสิงหาคม 2025 Google เปิดตัว Pixel 10 และ Pixel 10 Pro พร้อมชิป Tensor G5 ซึ่งถือเป็นการเปลี่ยนแปลงครั้งใหญ่ในสายผลิตภัณฑ์ Pixel เพราะเป็นครั้งแรกที่ Google เลือก TSMC เป็นผู้ผลิตชิป แทนที่ Samsung ที่เคยร่วมงานกันมาตั้งแต่ Tensor รุ่นแรก Tensor G5 ถูกผลิตด้วยเทคโนโลยี N3P ของ TSMC ซึ่งเป็นกระบวนการระดับ 3 นาโนเมตรที่ให้ประสิทธิภาพสูงและใช้พลังงานต่ำกว่าเดิม โดย CPU เร็วขึ้น 34% และ TPU สำหรับงาน AI เร็วขึ้นถึง 60% เมื่อเทียบกับ Tensor G4 นอกจากความเร็วแล้ว Tensor G5 ยังมาพร้อมกับความสามารถด้าน AI ที่ล้ำหน้า เช่น การรันโมเดล Gemini Nano ของ DeepMind บนเครื่องโดยไม่ต้องพึ่งคลาวด์ ทำให้ฟีเจอร์อย่าง Magic Cue, Call Notes, Voice Translate และ Gboard Smart Edit ทำงานได้เร็วและแม่นยำขึ้น Pixel 10 ยังมีฟีเจอร์กล้องใหม่ เช่น Add Me, Auto Best Take และ 100x Pro Res Zoom ที่ใช้โมเดล diffusion ขนาดเกือบพันล้านพารามิเตอร์ ซึ่งรันบน TPU โดยตรง พร้อมระบบ ISP ใหม่ที่ช่วยให้ถ่ายวิดีโอ 10-bit ได้แม้ในที่แสงน้อย การเปลี่ยนมาใช้ TSMC ไม่ใช่แค่เรื่องประสิทธิภาพ แต่ยังสะท้อนถึงความพยายามของ Google ในการควบคุมคุณภาพและความปลอดภัยของชิป ตั้งแต่การออกแบบจนถึงการผลิต โดยมีเป้าหมายเพื่อสร้างสมาร์ทโฟนที่ฉลาดและปลอดภัยที่สุดในตลาด 📌 สรุปเนื้อหาเป็นหัวข้อ ➡️ Pixel 10 ใช้ชิป Tensor G5 ที่ผลิตโดย TSMC แทน Samsung ➡️ Tensor G5 ผลิตด้วยเทคโนโลยี N3P ระดับ 3nm ที่มีประสิทธิภาพสูง ➡️ CPU เร็วขึ้น 34% และ TPU เร็วขึ้น 60% เมื่อเทียบกับ Tensor G4 ➡️ รองรับโมเดล Gemini Nano จาก DeepMind สำหรับงาน AI บนเครื่อง ➡️ ฟีเจอร์ AI ใหม่ เช่น Magic Cue, Call Notes, Voice Translate, Gboard Smart Edit ➡️ ระบบกล้องใหม่รองรับ 100x Pro Res Zoom และวิดีโอ 10-bit ➡️ Pixel 10 รองรับการชาร์จเร็ว, แบตเตอรี่ใหญ่ขึ้น และชาร์จไร้สายแบบแม่เหล็ก ➡️ รองรับการอัปเดตซอฟต์แวร์นานถึง 7 ปี ➡️ มีการปรับปรุงระบบควบคุมความร้อนให้ชิปทำงานที่ความถี่สูงได้โดยไม่ throttle ➡️ ใช้ LPDDR5X และ UFS 4.0 เพื่อเพิ่มแบนด์วิดท์และความเร็วในการอ่านข้อมูล ✅ ข้อมูลเสริมจากภายนอก ➡️ TSMC เป็นผู้ผลิตชิปที่มี yield สูงและการออกแบบทรานซิสเตอร์ที่แม่นยำ ➡️ N3P เป็นการพัฒนาเพิ่มเติมจาก N3E โดยให้ประสิทธิภาพดีขึ้นแต่ยังคงความเข้ากันได้กับดีไซน์เดิม ➡️ การเปลี่ยนมาใช้ TSMC อาจเป็นการตอบโต้ต่อปัญหาด้านประสิทธิภาพของ Samsung Foundry ➡️ Tensor G5 ใช้สถาปัตยกรรม Matformer และ Per Layer Embedding เพื่อเพิ่มคุณภาพการตอบสนองของโมเดล ➡️ Pixel 10 เป็นรุ่นแรกที่ใช้ diffusion model ในกล้องโดยตรงบนอุปกรณ์ https://www.tomshardware.com/tech-industry/semiconductors/google-switches-from-samsung-to-tsmc-pixel-10-and-g5-use-tsmcs-n3p-process
    0 Comments 0 Shares 240 Views 0 Reviews
  • เมื่อคำสั่งสั้น ๆ ถึง AI กลายเป็นภาระต่อโลก – และการคลิกก็ไม่ไร้ผลอีกต่อไป

    Google เพิ่งเปิดเผยข้อมูลที่หลายคนรอคอยมานาน: คำสั่งข้อความหนึ่งคำสั่งที่ส่งไปยัง Gemini AI ใช้พลังงานไฟฟ้าเฉลี่ย 0.24 วัตต์-ชั่วโมง ซึ่งเทียบเท่ากับการดูทีวีประมาณ 9 วินาที และใช้น้ำประมาณ 0.26 มิลลิลิตร หรือราว 5 หยด เพื่อระบายความร้อนในศูนย์ข้อมูล

    แม้ตัวเลขจะดูเล็ก แต่เมื่อคูณกับจำนวนผู้ใช้หลายร้อยล้านคนทั่วโลก และคำสั่งที่ส่งเข้ามานับพันล้านครั้งต่อวัน ผลกระทบต่อสิ่งแวดล้อมก็เพิ่มขึ้นอย่างมหาศาล โดยเฉพาะเมื่อรวมกับพลังงานที่ใช้ในการฝึกโมเดล AI ซึ่งไม่ได้รวมอยู่ในตัวเลขนี้

    Google ระบุว่า 58% ของพลังงานถูกใช้โดยชิป TPU ที่รันโมเดล AI ส่วนอีก 25% มาจาก CPU และหน่วยความจำของเครื่องแม่ข่าย และอีก 10% จากเครื่องสำรองที่เปิดไว้เผื่อระบบล่ม ส่วนที่เหลือ 8% เป็นค่าใช้จ่ายทั่วไปของศูนย์ข้อมูล เช่น ระบบระบายความร้อนและแปลงไฟ

    แม้ Google จะพยายามลดการใช้พลังงานและคาร์บอนฟุตพริ้นต์ของ Gemini ลงถึง 33 เท่าและ 44 เท่าในช่วง 12 เดือนที่ผ่านมา แต่ผู้เชี่ยวชาญบางคนยังตั้งคำถามว่า ตัวเลขเหล่านี้อาจไม่สะท้อนความจริงทั้งหมด เพราะไม่ได้รวมการใช้น้ำทางอ้อม หรือผลกระทบจากแหล่งพลังงานที่ใช้จริงในแต่ละพื้นที่

    สรุปเนื้อหาเป็นหัวข้อ
    คำสั่งหนึ่งคำสั่งถึง Gemini AI ใช้พลังงานเฉลี่ย 0.24 วัตต์-ชั่วโมง
    เทียบเท่ากับการดูทีวีประมาณ 9 วินาที และใช้น้ำประมาณ 0.26 มิลลิลิตรเพื่อระบายความร้อน
    58% ของพลังงานใช้กับชิป TPU, 25% กับ CPU และ DRAM, 10% กับเครื่องสำรอง, 8% กับระบบศูนย์ข้อมูล
    Google ลดการใช้พลังงานและคาร์บอนฟุตพริ้นต์ของ Gemini ลง 33x และ 44x ภายใน 12 เดือน
    รายงานนี้เป็นครั้งแรกที่บริษัท AI รายใหญ่เปิดเผยข้อมูลการใช้พลังงานต่อคำสั่งอย่างละเอียด
    Google หวังให้รายงานนี้เป็นมาตรฐานใหม่ในการวัดผลกระทบสิ่งแวดล้อมของ AI
    ตัวเลขไม่รวมพลังงานจากการฝึกโมเดล, อุปกรณ์ผู้ใช้, หรือเครือข่ายภายนอก
    Gemini มีผู้ใช้งานมากกว่า 350 ล้านคนต่อเดือน ณ เดือนเมษายน 2025
    การวัดผลกระทบใช้ค่าเฉลี่ยจากศูนย์ข้อมูลทั่วโลกของ Google
    รายงานยังไม่ผ่านการ peer review แต่ Google เปิดรับข้อเสนอให้ตรวจสอบในอนาคต

    ข้อมูลเสริมจากภายนอก
    OpenAI เคยระบุว่าแต่ละคำสั่งใช้พลังงานประมาณ 0.34 วัตต์-ชั่วโมง เทียบเท่าการเปิดเตาอบ 1 วินาที
    นักวิจัยจาก MIT ระบุว่าการเปิดเผยข้อมูลนี้ช่วยให้เข้าใจผลกระทบของ AI ได้ชัดเจนขึ้น
    นักวิชาการบางคนชี้ว่า Google ใช้ “market-based” carbon measure ซึ่งอาจไม่สะท้อนผลกระทบจริงในแต่ละพื้นที่
    การใช้น้ำทางอ้อม เช่น น้ำที่ใช้ผลิตไฟฟ้า ยังไม่รวมอยู่ในตัวเลขที่รายงาน
    การใช้ AI อย่างแพร่หลายอาจทำให้ความพยายามลดคาร์บอนของบริษัทถูกกลบด้วยการใช้งานที่เพิ่มขึ้น

    https://www.thestar.com.my/tech/tech-news/2025/08/22/google-one-ai-prompt-uses-as-much-energy-as-nine-seconds-of-tv
    🎙️ เมื่อคำสั่งสั้น ๆ ถึง AI กลายเป็นภาระต่อโลก – และการคลิกก็ไม่ไร้ผลอีกต่อไป Google เพิ่งเปิดเผยข้อมูลที่หลายคนรอคอยมานาน: คำสั่งข้อความหนึ่งคำสั่งที่ส่งไปยัง Gemini AI ใช้พลังงานไฟฟ้าเฉลี่ย 0.24 วัตต์-ชั่วโมง ซึ่งเทียบเท่ากับการดูทีวีประมาณ 9 วินาที และใช้น้ำประมาณ 0.26 มิลลิลิตร หรือราว 5 หยด เพื่อระบายความร้อนในศูนย์ข้อมูล แม้ตัวเลขจะดูเล็ก แต่เมื่อคูณกับจำนวนผู้ใช้หลายร้อยล้านคนทั่วโลก และคำสั่งที่ส่งเข้ามานับพันล้านครั้งต่อวัน ผลกระทบต่อสิ่งแวดล้อมก็เพิ่มขึ้นอย่างมหาศาล โดยเฉพาะเมื่อรวมกับพลังงานที่ใช้ในการฝึกโมเดล AI ซึ่งไม่ได้รวมอยู่ในตัวเลขนี้ Google ระบุว่า 58% ของพลังงานถูกใช้โดยชิป TPU ที่รันโมเดล AI ส่วนอีก 25% มาจาก CPU และหน่วยความจำของเครื่องแม่ข่าย และอีก 10% จากเครื่องสำรองที่เปิดไว้เผื่อระบบล่ม ส่วนที่เหลือ 8% เป็นค่าใช้จ่ายทั่วไปของศูนย์ข้อมูล เช่น ระบบระบายความร้อนและแปลงไฟ แม้ Google จะพยายามลดการใช้พลังงานและคาร์บอนฟุตพริ้นต์ของ Gemini ลงถึง 33 เท่าและ 44 เท่าในช่วง 12 เดือนที่ผ่านมา แต่ผู้เชี่ยวชาญบางคนยังตั้งคำถามว่า ตัวเลขเหล่านี้อาจไม่สะท้อนความจริงทั้งหมด เพราะไม่ได้รวมการใช้น้ำทางอ้อม หรือผลกระทบจากแหล่งพลังงานที่ใช้จริงในแต่ละพื้นที่ 📌 สรุปเนื้อหาเป็นหัวข้อ ➡️ คำสั่งหนึ่งคำสั่งถึง Gemini AI ใช้พลังงานเฉลี่ย 0.24 วัตต์-ชั่วโมง ➡️ เทียบเท่ากับการดูทีวีประมาณ 9 วินาที และใช้น้ำประมาณ 0.26 มิลลิลิตรเพื่อระบายความร้อน ➡️ 58% ของพลังงานใช้กับชิป TPU, 25% กับ CPU และ DRAM, 10% กับเครื่องสำรอง, 8% กับระบบศูนย์ข้อมูล ➡️ Google ลดการใช้พลังงานและคาร์บอนฟุตพริ้นต์ของ Gemini ลง 33x และ 44x ภายใน 12 เดือน ➡️ รายงานนี้เป็นครั้งแรกที่บริษัท AI รายใหญ่เปิดเผยข้อมูลการใช้พลังงานต่อคำสั่งอย่างละเอียด ➡️ Google หวังให้รายงานนี้เป็นมาตรฐานใหม่ในการวัดผลกระทบสิ่งแวดล้อมของ AI ➡️ ตัวเลขไม่รวมพลังงานจากการฝึกโมเดล, อุปกรณ์ผู้ใช้, หรือเครือข่ายภายนอก ➡️ Gemini มีผู้ใช้งานมากกว่า 350 ล้านคนต่อเดือน ณ เดือนเมษายน 2025 ➡️ การวัดผลกระทบใช้ค่าเฉลี่ยจากศูนย์ข้อมูลทั่วโลกของ Google ➡️ รายงานยังไม่ผ่านการ peer review แต่ Google เปิดรับข้อเสนอให้ตรวจสอบในอนาคต ✅ ข้อมูลเสริมจากภายนอก ➡️ OpenAI เคยระบุว่าแต่ละคำสั่งใช้พลังงานประมาณ 0.34 วัตต์-ชั่วโมง เทียบเท่าการเปิดเตาอบ 1 วินาที ➡️ นักวิจัยจาก MIT ระบุว่าการเปิดเผยข้อมูลนี้ช่วยให้เข้าใจผลกระทบของ AI ได้ชัดเจนขึ้น ➡️ นักวิชาการบางคนชี้ว่า Google ใช้ “market-based” carbon measure ซึ่งอาจไม่สะท้อนผลกระทบจริงในแต่ละพื้นที่ ➡️ การใช้น้ำทางอ้อม เช่น น้ำที่ใช้ผลิตไฟฟ้า ยังไม่รวมอยู่ในตัวเลขที่รายงาน ➡️ การใช้ AI อย่างแพร่หลายอาจทำให้ความพยายามลดคาร์บอนของบริษัทถูกกลบด้วยการใช้งานที่เพิ่มขึ้น https://www.thestar.com.my/tech/tech-news/2025/08/22/google-one-ai-prompt-uses-as-much-energy-as-nine-seconds-of-tv
    WWW.THESTAR.COM.MY
    Google: One AI prompt uses as much energy as nine seconds of TV
    A single text prompt to Google's artificial intelligence (AI) software, Gemini, consumes roughly as much electricity as just under nine seconds of television, the company said on Aug 21.
    0 Comments 0 Shares 245 Views 0 Reviews
  • เมื่อแชตบอตกลายเป็นช่องทางเจาะระบบ – และคำถามธรรมดาอาจเปิดประตูให้แฮกเกอร์

    Lenovo เปิดตัวแชตบอต Lena เพื่อช่วยลูกค้าในระบบสนับสนุน โดยใช้ GPT-4 เป็นแกนหลักในการตอบคำถาม แต่สิ่งที่ดูเหมือนจะเป็นนวัตกรรมกลับกลายเป็นช่องโหว่ร้ายแรง เมื่อทีมวิจัยจาก Cybernews พบว่า Lena สามารถถูกหลอกให้สร้างโค้ด HTML อันตรายผ่าน prompt เพียง 400 ตัวอักษร

    แฮกเกอร์ใช้เทคนิค prompt injection โดยเริ่มต้นด้วยคำถามเกี่ยวกับสินค้า แล้วแทรกคำสั่งให้ Lena ตอบกลับในรูปแบบ HTML พร้อมฝังโค้ด JavaScript ที่ขโมย session cookie เมื่อภาพไม่สามารถโหลดได้

    เมื่อเจ้าหน้าที่สนับสนุนเปิดดูการสนทนา โค้ดนั้นจะทำงานทันทีใน browser ของพวกเขา ทำให้แฮกเกอร์สามารถเข้าถึงระบบสนับสนุนของบริษัทได้โดยไม่ต้องเจาะระบบโดยตรง

    Melissa Ruzzi จาก AppOmni เตือนว่า AI ที่มีสิทธิ์แก้ไขข้อมูลโดยไม่มีการควบคุม อาจกลายเป็นช่องทางโจมตีที่ร้ายแรง และ Arjun Chauhan จาก Everest Group เสริมว่าองค์กรส่วนใหญ่ยังมอง AI เป็น “โครงการทดลอง” มากกว่าระบบที่ต้องมีมาตรการความปลอดภัยจริงจัง

    ช่องโหว่นี้ไม่ใช่แค่การขโมย cookie แต่สามารถนำไปสู่การติดตั้ง keylogger, redirect ไปยังเว็บ phishing หรือแม้แต่การฝัง backdoor เพื่อเคลื่อนย้ายภายในเครือข่ายองค์กร

    Lenovo ยอมรับช่องโหว่และแก้ไขทันทีหลังได้รับการแจ้งเตือนจากนักวิจัย แต่เหตุการณ์นี้สะท้อนถึง blind spot ด้านความปลอดภัยของ AI ที่องค์กรทั่วโลกกำลังเผชิญ

    สรุปเนื้อหาเป็นหัวข้อ
    Lenovo chatbot Lena ถูกพบว่ามีช่องโหว่ XSS จากการตอบสนองต่อ prompt ที่ถูกออกแบบมาอย่างเจาะจง
    ช่องโหว่เกิดจากการ sanitization ของ input และ output ที่ไม่เพียงพอ
    แฮกเกอร์สามารถฝังโค้ด JavaScript ผ่าน HTML ที่ Lena สร้างขึ้น
    โค้ดจะทำงานเมื่อเจ้าหน้าที่สนับสนุนเปิดดูการสนทนา ทำให้ session cookie ถูกขโมย
    ช่องโหว่นี้สามารถนำไปสู่การติดตั้ง keylogger, redirect ไปยังเว็บ phishing และฝัง backdoor
    Lena ใช้ GPT-4 เป็นแกนหลักในการตอบคำถามลูกค้า
    Lenovo ได้รับแจ้งจากนักวิจัยและดำเนินการแก้ไขทันที
    ผู้เชี่ยวชาญเตือนว่า AI ควรได้รับการดูแลด้านความปลอดภัยเทียบเท่ากับแอปพลิเคชันทั่วไป
    ช่องโหว่นี้สะท้อนถึง blind spot ในการออกแบบระบบ AI ที่เน้นความเร็วมากกว่าความปลอดภัย
    การโจมตีใช้ prompt เพียง 400 ตัวอักษรในการเจาะระบบ

    ข้อมูลเสริมจากภายนอก
    Cybernews และ CybersecurityNews รายงานว่า Lena สามารถรันสคริปต์บนเครื่องขององค์กรได้
    ช่องโหว่สามารถขยายผลไปยังระบบอื่นในเครือข่ายผ่าน lateral movement
    OWASP จัด prompt injection เป็นช่องโหว่อันดับหนึ่งใน AI systems
    ปริมาณ bot traffic แซงหน้าการใช้งานของมนุษย์ในปี 2024 คิดเป็น 51% ของทั้งหมด
    การป้องกันต้องใช้ CSP headers, whitelisting, และ context-aware validation

    https://www.csoonline.com/article/4043005/lenovo-chatbot-breach-highlights-ai-security-blind-spots-in-customer-facing-systems.html
    🎙️ เมื่อแชตบอตกลายเป็นช่องทางเจาะระบบ – และคำถามธรรมดาอาจเปิดประตูให้แฮกเกอร์ Lenovo เปิดตัวแชตบอต Lena เพื่อช่วยลูกค้าในระบบสนับสนุน โดยใช้ GPT-4 เป็นแกนหลักในการตอบคำถาม แต่สิ่งที่ดูเหมือนจะเป็นนวัตกรรมกลับกลายเป็นช่องโหว่ร้ายแรง เมื่อทีมวิจัยจาก Cybernews พบว่า Lena สามารถถูกหลอกให้สร้างโค้ด HTML อันตรายผ่าน prompt เพียง 400 ตัวอักษร แฮกเกอร์ใช้เทคนิค prompt injection โดยเริ่มต้นด้วยคำถามเกี่ยวกับสินค้า แล้วแทรกคำสั่งให้ Lena ตอบกลับในรูปแบบ HTML พร้อมฝังโค้ด JavaScript ที่ขโมย session cookie เมื่อภาพไม่สามารถโหลดได้ เมื่อเจ้าหน้าที่สนับสนุนเปิดดูการสนทนา โค้ดนั้นจะทำงานทันทีใน browser ของพวกเขา ทำให้แฮกเกอร์สามารถเข้าถึงระบบสนับสนุนของบริษัทได้โดยไม่ต้องเจาะระบบโดยตรง Melissa Ruzzi จาก AppOmni เตือนว่า AI ที่มีสิทธิ์แก้ไขข้อมูลโดยไม่มีการควบคุม อาจกลายเป็นช่องทางโจมตีที่ร้ายแรง และ Arjun Chauhan จาก Everest Group เสริมว่าองค์กรส่วนใหญ่ยังมอง AI เป็น “โครงการทดลอง” มากกว่าระบบที่ต้องมีมาตรการความปลอดภัยจริงจัง ช่องโหว่นี้ไม่ใช่แค่การขโมย cookie แต่สามารถนำไปสู่การติดตั้ง keylogger, redirect ไปยังเว็บ phishing หรือแม้แต่การฝัง backdoor เพื่อเคลื่อนย้ายภายในเครือข่ายองค์กร Lenovo ยอมรับช่องโหว่และแก้ไขทันทีหลังได้รับการแจ้งเตือนจากนักวิจัย แต่เหตุการณ์นี้สะท้อนถึง blind spot ด้านความปลอดภัยของ AI ที่องค์กรทั่วโลกกำลังเผชิญ 📌 สรุปเนื้อหาเป็นหัวข้อ ➡️ Lenovo chatbot Lena ถูกพบว่ามีช่องโหว่ XSS จากการตอบสนองต่อ prompt ที่ถูกออกแบบมาอย่างเจาะจง ➡️ ช่องโหว่เกิดจากการ sanitization ของ input และ output ที่ไม่เพียงพอ ➡️ แฮกเกอร์สามารถฝังโค้ด JavaScript ผ่าน HTML ที่ Lena สร้างขึ้น ➡️ โค้ดจะทำงานเมื่อเจ้าหน้าที่สนับสนุนเปิดดูการสนทนา ทำให้ session cookie ถูกขโมย ➡️ ช่องโหว่นี้สามารถนำไปสู่การติดตั้ง keylogger, redirect ไปยังเว็บ phishing และฝัง backdoor ➡️ Lena ใช้ GPT-4 เป็นแกนหลักในการตอบคำถามลูกค้า ➡️ Lenovo ได้รับแจ้งจากนักวิจัยและดำเนินการแก้ไขทันที ➡️ ผู้เชี่ยวชาญเตือนว่า AI ควรได้รับการดูแลด้านความปลอดภัยเทียบเท่ากับแอปพลิเคชันทั่วไป ➡️ ช่องโหว่นี้สะท้อนถึง blind spot ในการออกแบบระบบ AI ที่เน้นความเร็วมากกว่าความปลอดภัย ➡️ การโจมตีใช้ prompt เพียง 400 ตัวอักษรในการเจาะระบบ ✅ ข้อมูลเสริมจากภายนอก ➡️ Cybernews และ CybersecurityNews รายงานว่า Lena สามารถรันสคริปต์บนเครื่องขององค์กรได้ ➡️ ช่องโหว่สามารถขยายผลไปยังระบบอื่นในเครือข่ายผ่าน lateral movement ➡️ OWASP จัด prompt injection เป็นช่องโหว่อันดับหนึ่งใน AI systems ➡️ ปริมาณ bot traffic แซงหน้าการใช้งานของมนุษย์ในปี 2024 คิดเป็น 51% ของทั้งหมด ➡️ การป้องกันต้องใช้ CSP headers, whitelisting, และ context-aware validation https://www.csoonline.com/article/4043005/lenovo-chatbot-breach-highlights-ai-security-blind-spots-in-customer-facing-systems.html
    WWW.CSOONLINE.COM
    Lenovo chatbot breach highlights AI security blind spots in customer-facing systems
    Experts say the vulnerability in Lenovo’s GPT-4-powered chatbot reflects a broader enterprise trend: deploying AI tools without applying the same security rigor as traditional applications.
    0 Comments 0 Shares 256 Views 0 Reviews
  • Tensor G5 – ชิป 3nm ตัวแรกจาก Google ที่ไม่ใช่แค่เร็ว แต่ฉลาดขึ้นอย่างมีนัย

    Google เปิดตัวชิป Tensor G5 พร้อมกับ Pixel 10 Series ซึ่งถือเป็นก้าวสำคัญของบริษัทในด้านฮาร์ดแวร์ เพราะนี่คือชิปแรกที่ผลิตด้วยเทคโนโลยี 3nm โดย TSMC แทนที่จะใช้โรงงานของ Samsung เหมือนรุ่นก่อนหน้า

    Tensor G5 ไม่ได้เน้นแค่ความเร็ว แต่ถูกออกแบบเพื่อรองรับงาน AI โดยเฉพาะ โดยมีการปรับโครงสร้าง CPU เป็นแบบ 1+5+2 (1 core แรง, 5 core กลาง, 2 core ประหยัดพลังงาน) และมีความเร็วสูงสุดถึง 3.78GHz จากผลทดสอบ Geekbench

    Google เคลมว่า Tensor G5 เร็วขึ้น 34% โดยเฉลี่ยเมื่อเทียบกับ Tensor G4 และ TPU (หน่วยประมวลผล AI) ก็แรงขึ้นถึง 60% ซึ่งช่วยให้ Gemini Nano รุ่นใหม่ทำงานเร็วขึ้น 2.6 เท่า และประหยัดพลังงานมากขึ้น

    ชิปนี้ยังรองรับ context window ขนาด 32,000 token ซึ่งเทียบเท่ากับการประมวลผลข้อมูลจากอีเมลทั้งเดือนหรือภาพหน้าจอ 100 ภาพ ทำให้ฟีเจอร์ AI อย่าง Magic Cue, Call Notes, Scam Detection และ Camera Coach ทำงานได้แบบเรียลไทม์โดยไม่ต้องพึ่งคลาวด์

    ด้านกราฟิก แม้จะมีการอัปเกรด GPU แต่ Tensor G5 ยังไม่รองรับ ray tracing ซึ่งทำให้ยังตามหลังคู่แข่งในด้านเกมมือถือ ส่วน ISP (Image Signal Processor) ก็ได้รับการปรับปรุงให้รองรับ 10-bit HDR และลดการเบลอในวิดีโอแสงน้อย

    Pixel 10 Series ที่ใช้ Tensor G5 มีให้เลือกหลายรุ่น ตั้งแต่ Pixel 10 ธรรมดาไปจนถึง Pixel 10 Pro Fold โดยมีราคาเริ่มต้นที่ $799 และมีโปรโมชั่นแจกบัตรของขวัญสูงสุดถึง $300

    สรุปเนื้อหาเป็นหัวข้อ
    Tensor G5 เป็นชิป 3nm ตัวแรกจาก Google ผลิตโดย TSMC
    ใช้โครงสร้าง CPU แบบ 1+5+2 และความเร็วสูงสุด 3.78GHz
    เร็วขึ้น 34% โดยเฉลี่ยจาก Tensor G4 และ TPU แรงขึ้น 60%
    Gemini Nano ทำงานเร็วขึ้น 2.6 เท่าและประหยัดพลังงานมากขึ้น
    รองรับ context window ขนาด 32,000 token สำหรับงาน AI
    ฟีเจอร์ AI ใหม่ เช่น Magic Cue, Scam Detection, Journal, Call Notes
    GPU อัปเกรดแต่ไม่รองรับ ray tracing
    ISP รองรับ 10-bit HDR และลดเบลอในวิดีโอแสงน้อย
    Pixel 10 Series มีรุ่นธรรมดา, Pro, Pro XL และ Pro Fold
    ราคาเริ่มต้น $799 พร้อมบัตรของขวัญสูงสุด $300

    ข้อมูลเสริมจากภายนอก
    Tensor G5 ใช้ LPDDR5X และ UFS 4.0 เพื่อเพิ่มแบนด์วิดท์และความเร็ว
    ใช้สถาปัตยกรรม Matryoshka Transformer และ Per Layer Embedding
    Pixel 10 รองรับ Android 16 และอัปเดตนาน 7 ปี
    Pixel 10 Pro มี vapor chamber cooling แต่รุ่นธรรมดาใช้ graphene
    Pixel 10 รองรับ Qi2 wireless charging และมีจอ Actua 120Hz

    https://wccftech.com/tensor-g5-goes-official-first-3nm-chipset-from-google/
    🎙️ Tensor G5 – ชิป 3nm ตัวแรกจาก Google ที่ไม่ใช่แค่เร็ว แต่ฉลาดขึ้นอย่างมีนัย Google เปิดตัวชิป Tensor G5 พร้อมกับ Pixel 10 Series ซึ่งถือเป็นก้าวสำคัญของบริษัทในด้านฮาร์ดแวร์ เพราะนี่คือชิปแรกที่ผลิตด้วยเทคโนโลยี 3nm โดย TSMC แทนที่จะใช้โรงงานของ Samsung เหมือนรุ่นก่อนหน้า Tensor G5 ไม่ได้เน้นแค่ความเร็ว แต่ถูกออกแบบเพื่อรองรับงาน AI โดยเฉพาะ โดยมีการปรับโครงสร้าง CPU เป็นแบบ 1+5+2 (1 core แรง, 5 core กลาง, 2 core ประหยัดพลังงาน) และมีความเร็วสูงสุดถึง 3.78GHz จากผลทดสอบ Geekbench Google เคลมว่า Tensor G5 เร็วขึ้น 34% โดยเฉลี่ยเมื่อเทียบกับ Tensor G4 และ TPU (หน่วยประมวลผล AI) ก็แรงขึ้นถึง 60% ซึ่งช่วยให้ Gemini Nano รุ่นใหม่ทำงานเร็วขึ้น 2.6 เท่า และประหยัดพลังงานมากขึ้น ชิปนี้ยังรองรับ context window ขนาด 32,000 token ซึ่งเทียบเท่ากับการประมวลผลข้อมูลจากอีเมลทั้งเดือนหรือภาพหน้าจอ 100 ภาพ ทำให้ฟีเจอร์ AI อย่าง Magic Cue, Call Notes, Scam Detection และ Camera Coach ทำงานได้แบบเรียลไทม์โดยไม่ต้องพึ่งคลาวด์ ด้านกราฟิก แม้จะมีการอัปเกรด GPU แต่ Tensor G5 ยังไม่รองรับ ray tracing ซึ่งทำให้ยังตามหลังคู่แข่งในด้านเกมมือถือ ส่วน ISP (Image Signal Processor) ก็ได้รับการปรับปรุงให้รองรับ 10-bit HDR และลดการเบลอในวิดีโอแสงน้อย Pixel 10 Series ที่ใช้ Tensor G5 มีให้เลือกหลายรุ่น ตั้งแต่ Pixel 10 ธรรมดาไปจนถึง Pixel 10 Pro Fold โดยมีราคาเริ่มต้นที่ $799 และมีโปรโมชั่นแจกบัตรของขวัญสูงสุดถึง $300 📌 สรุปเนื้อหาเป็นหัวข้อ ➡️ Tensor G5 เป็นชิป 3nm ตัวแรกจาก Google ผลิตโดย TSMC ➡️ ใช้โครงสร้าง CPU แบบ 1+5+2 และความเร็วสูงสุด 3.78GHz ➡️ เร็วขึ้น 34% โดยเฉลี่ยจาก Tensor G4 และ TPU แรงขึ้น 60% ➡️ Gemini Nano ทำงานเร็วขึ้น 2.6 เท่าและประหยัดพลังงานมากขึ้น ➡️ รองรับ context window ขนาด 32,000 token สำหรับงาน AI ➡️ ฟีเจอร์ AI ใหม่ เช่น Magic Cue, Scam Detection, Journal, Call Notes ➡️ GPU อัปเกรดแต่ไม่รองรับ ray tracing ➡️ ISP รองรับ 10-bit HDR และลดเบลอในวิดีโอแสงน้อย ➡️ Pixel 10 Series มีรุ่นธรรมดา, Pro, Pro XL และ Pro Fold ➡️ ราคาเริ่มต้น $799 พร้อมบัตรของขวัญสูงสุด $300 ✅ ข้อมูลเสริมจากภายนอก ➡️ Tensor G5 ใช้ LPDDR5X และ UFS 4.0 เพื่อเพิ่มแบนด์วิดท์และความเร็ว ➡️ ใช้สถาปัตยกรรม Matryoshka Transformer และ Per Layer Embedding ➡️ Pixel 10 รองรับ Android 16 และอัปเดตนาน 7 ปี ➡️ Pixel 10 Pro มี vapor chamber cooling แต่รุ่นธรรมดาใช้ graphene ➡️ Pixel 10 รองรับ Qi2 wireless charging และมีจอ Actua 120Hz https://wccftech.com/tensor-g5-goes-official-first-3nm-chipset-from-google/
    WCCFTECH.COM
    Google Has Announced Its First 3nm Chipset, The Tensor G5, Alongside The Pixel 10 Series; Company Claims A 34 Percent Average Performance Increase Over The Tensor G4, No RT Support & More
    Google has officially announced its first 3nm SoC, the Tensor G5, and here is everything you need to know about the flagship silicon
    0 Comments 0 Shares 242 Views 0 Reviews
  • Nvidia ยังนำ แต่คู่แข่งกำลังไล่ – เมื่อ AI ต้องเลือกมากกว่าความแรง

    ในโลกของ AI ที่ต้องการพลังการประมวลผลมหาศาล Nvidia ยังคงเป็นผู้นำด้านฮาร์ดแวร์ โดยเฉพาะ GPU ที่ใช้ในการฝึกโมเดลขนาดใหญ่ แต่ผลการสำรวจล่าสุดจาก Liquid Web ในเดือนสิงหาคม 2025 พบว่าเกือบหนึ่งในสามของทีม AI เริ่มหันไปใช้ฮาร์ดแวร์จาก Google, AMD และ Intel แทน

    เหตุผลหลักคือ “ต้นทุน” และ “ความพร้อมใช้งาน” ที่เริ่มกลายเป็นอุปสรรคสำคัญ ทีมงานหลายแห่งต้องลดขนาดโครงการ หรือยกเลิกไปเลย เพราะไม่สามารถจัดหาฮาร์ดแวร์ Nvidia ได้ทันเวลา หรือมีงบประมาณไม่พอ

    แม้ว่า 68% ของทีมยังคงเลือก Nvidia เป็นหลัก แต่มีถึง 28% ที่ยอมรับว่าไม่ได้เปรียบเทียบทางเลือกอื่นอย่างจริงจังก่อนตัดสินใจ ซึ่งนำไปสู่การติดตั้งระบบที่ไม่เหมาะสม และประสิทธิภาพต่ำกว่าที่ควร

    นอกจากนี้ การใช้ระบบแบบ hybrid และ cloud ก็เพิ่มขึ้นอย่างต่อเนื่อง โดยมากกว่าครึ่งของทีม AI ใช้ทั้งระบบในองค์กรและคลาวด์ร่วมกัน เพื่อหลีกเลี่ยงปัญหาด้านพลังงานและการจัดการ GPU แบบแบ่งส่วน

    สรุปเนื้อหาเป็นหัวข้อ
    Nvidia ยังคงเป็นผู้นำด้านฮาร์ดแวร์ AI โดยมีผู้ใช้ถึง 68% จากการสำรวจ
    เกือบหนึ่งในสามของทีม AI เริ่มใช้ฮาร์ดแวร์จาก Google, AMD และ Intel
    เหตุผลหลักคือข้อจำกัดด้านงบประมาณและการขาดแคลน GPU
    42% ของทีมต้องลดขนาดโครงการ และ 14% ยกเลิกโครงการเพราะต้นทุน
    28% ของผู้ตอบแบบสอบถามยอมรับว่าไม่ได้เปรียบเทียบทางเลือกอื่นก่อนซื้อ
    การขาดการทดสอบนำไปสู่ระบบที่ไม่เหมาะสมและประสิทธิภาพต่ำ
    มากกว่าครึ่งของทีมใช้ระบบ hybrid และ cloud เพื่อเสริมความยืดหยุ่น
    Dedicated GPU hosting ถูกมองว่าเป็นทางเลือกที่ลดการสูญเสียประสิทธิภาพ
    แม้ 45% ให้ความสำคัญกับการใช้พลังงานอย่างมีประสิทธิภาพ แต่มีเพียง 13% ที่ปรับระบบเพื่อประหยัดพลังงานจริง
    ความคุ้นเคยและประสบการณ์เดิมเป็นปัจจัยหลักในการเลือก GPU มากกว่าประสิทธิภาพหรือราคา

    ข้อมูลเสริมจากภายนอก
    Google TPU ถูกใช้โดย OpenAI และบริษัทใหญ่หลายแห่งเพื่อหลีกเลี่ยงต้นทุน Nvidia
    AMD เข้าซื้อกิจการหลายแห่งเพื่อพัฒนา Instinct GPU ให้ใกล้เคียงกับ Nvidia Blackwell
    Intel พัฒนา Gaudi2 และ Gaudi3 เพื่อเจาะตลาด AI โดยเน้นราคาต่ำและประสิทธิภาพเฉพาะทาง
    Nvidia เปิดตัว Cosmos Reason และ NuRec ที่ SIGGRAPH 2025 เพื่อเสริมการประมวลผล AI เชิงกายภาพ
    การแข่งขันด้านฮาร์ดแวร์ AI ส่งผลต่อการพัฒนาโมเดลใหม่ เช่น diffusion, LLM และ vision AI

    https://www.techradar.com/pro/google-amd-and-intel-catching-up-on-nvidia-survey-shows-almost-a-third-of-ai-teams-now-use-non-nvidia-hardware
    🎙️ Nvidia ยังนำ แต่คู่แข่งกำลังไล่ – เมื่อ AI ต้องเลือกมากกว่าความแรง ในโลกของ AI ที่ต้องการพลังการประมวลผลมหาศาล Nvidia ยังคงเป็นผู้นำด้านฮาร์ดแวร์ โดยเฉพาะ GPU ที่ใช้ในการฝึกโมเดลขนาดใหญ่ แต่ผลการสำรวจล่าสุดจาก Liquid Web ในเดือนสิงหาคม 2025 พบว่าเกือบหนึ่งในสามของทีม AI เริ่มหันไปใช้ฮาร์ดแวร์จาก Google, AMD และ Intel แทน เหตุผลหลักคือ “ต้นทุน” และ “ความพร้อมใช้งาน” ที่เริ่มกลายเป็นอุปสรรคสำคัญ ทีมงานหลายแห่งต้องลดขนาดโครงการ หรือยกเลิกไปเลย เพราะไม่สามารถจัดหาฮาร์ดแวร์ Nvidia ได้ทันเวลา หรือมีงบประมาณไม่พอ แม้ว่า 68% ของทีมยังคงเลือก Nvidia เป็นหลัก แต่มีถึง 28% ที่ยอมรับว่าไม่ได้เปรียบเทียบทางเลือกอื่นอย่างจริงจังก่อนตัดสินใจ ซึ่งนำไปสู่การติดตั้งระบบที่ไม่เหมาะสม และประสิทธิภาพต่ำกว่าที่ควร นอกจากนี้ การใช้ระบบแบบ hybrid และ cloud ก็เพิ่มขึ้นอย่างต่อเนื่อง โดยมากกว่าครึ่งของทีม AI ใช้ทั้งระบบในองค์กรและคลาวด์ร่วมกัน เพื่อหลีกเลี่ยงปัญหาด้านพลังงานและการจัดการ GPU แบบแบ่งส่วน 📌 สรุปเนื้อหาเป็นหัวข้อ ➡️ Nvidia ยังคงเป็นผู้นำด้านฮาร์ดแวร์ AI โดยมีผู้ใช้ถึง 68% จากการสำรวจ ➡️ เกือบหนึ่งในสามของทีม AI เริ่มใช้ฮาร์ดแวร์จาก Google, AMD และ Intel ➡️ เหตุผลหลักคือข้อจำกัดด้านงบประมาณและการขาดแคลน GPU ➡️ 42% ของทีมต้องลดขนาดโครงการ และ 14% ยกเลิกโครงการเพราะต้นทุน ➡️ 28% ของผู้ตอบแบบสอบถามยอมรับว่าไม่ได้เปรียบเทียบทางเลือกอื่นก่อนซื้อ ➡️ การขาดการทดสอบนำไปสู่ระบบที่ไม่เหมาะสมและประสิทธิภาพต่ำ ➡️ มากกว่าครึ่งของทีมใช้ระบบ hybrid และ cloud เพื่อเสริมความยืดหยุ่น ➡️ Dedicated GPU hosting ถูกมองว่าเป็นทางเลือกที่ลดการสูญเสียประสิทธิภาพ ➡️ แม้ 45% ให้ความสำคัญกับการใช้พลังงานอย่างมีประสิทธิภาพ แต่มีเพียง 13% ที่ปรับระบบเพื่อประหยัดพลังงานจริง ➡️ ความคุ้นเคยและประสบการณ์เดิมเป็นปัจจัยหลักในการเลือก GPU มากกว่าประสิทธิภาพหรือราคา ✅ ข้อมูลเสริมจากภายนอก ➡️ Google TPU ถูกใช้โดย OpenAI และบริษัทใหญ่หลายแห่งเพื่อหลีกเลี่ยงต้นทุน Nvidia ➡️ AMD เข้าซื้อกิจการหลายแห่งเพื่อพัฒนา Instinct GPU ให้ใกล้เคียงกับ Nvidia Blackwell ➡️ Intel พัฒนา Gaudi2 และ Gaudi3 เพื่อเจาะตลาด AI โดยเน้นราคาต่ำและประสิทธิภาพเฉพาะทาง ➡️ Nvidia เปิดตัว Cosmos Reason และ NuRec ที่ SIGGRAPH 2025 เพื่อเสริมการประมวลผล AI เชิงกายภาพ ➡️ การแข่งขันด้านฮาร์ดแวร์ AI ส่งผลต่อการพัฒนาโมเดลใหม่ เช่น diffusion, LLM และ vision AI https://www.techradar.com/pro/google-amd-and-intel-catching-up-on-nvidia-survey-shows-almost-a-third-of-ai-teams-now-use-non-nvidia-hardware
    WWW.TECHRADAR.COM
    Rising costs push AI developers to weigh Google, AMD, and Intel hardware alongside Nvidia
    Rising costs, hardware shortages, and cloud adoption are pushing teams to test alternatives
    0 Comments 0 Shares 288 Views 0 Reviews
  • เรื่องเล่าใหม่: GPU ไม่ใช่แค่การ์ดจอ – แต่คือเครื่องจักรแห่งการเรียนรู้ของ AI

    ในยุคที่ AI ใหญ่ขึ้นทุกวัน การเข้าใจว่า GPU ทำงานอย่างไรจึงสำคัญมาก โดยเฉพาะเมื่อเปรียบเทียบกับ TPU ที่ Google ใช้กันอย่างแพร่หลาย

    GPU สมัยใหม่ เช่น NVIDIA H100, B200 และ GB200 NVL72 ไม่ได้เป็นแค่การ์ดจอสำหรับเล่นเกมอีกต่อไป แต่กลายเป็นเครื่องมือหลักในการฝึกและรันโมเดลขนาดใหญ่ (LLMs) ด้วยพลังการคำนวณมหาศาลจาก Tensor Core ที่ออกแบบมาเพื่อการคูณเมทริกซ์โดยเฉพาะ

    แต่ละ GPU ประกอบด้วยหลาย SM (Streaming Multiprocessor) ซึ่งใน H100 มีถึง 132 SM และใน B200 มี 148 SM โดยแต่ละ SM มี Tensor Core, Warp Scheduler และ CUDA Cores ที่ทำงานแบบ SIMD/SIMT เพื่อประมวลผลแบบขนาน

    GPU ยังมีระบบหน่วยความจำหลายระดับ ตั้งแต่ Register, SMEM (L1 cache), L2 cache ไปจนถึง HBM (High Bandwidth Memory) ซึ่งใน B200 มีถึง 192GB และแบนด์วิดท์สูงถึง 9TB/s

    นอกจากนี้ยังมีระบบเครือข่ายภายในและระหว่าง GPU ที่ซับซ้อน เช่น NVLink, NVSwitch และ InfiniBand ที่ช่วยให้ GPU หลายตัวทำงานร่วมกันได้อย่างมีประสิทธิภาพ โดยเฉพาะในระบบ DGX SuperPod ที่สามารถเชื่อมต่อ GPU ได้ถึง 1024 ตัว

    GPU ยังรองรับการทำงานแบบ parallelism หลายรูปแบบ เช่น data parallelism, tensor parallelism, expert parallelism และ pipeline parallelism ซึ่งแต่ละแบบมีข้อดีข้อเสียต่างกัน และต้องเลือกใช้ให้เหมาะกับขนาดและโครงสร้างของโมเดล

    ข้อมูลในข่าว
    GPU สมัยใหม่เช่น H100 และ B200 มี Tensor Core สำหรับคูณเมทริกซ์โดยเฉพาะ
    H100 มี 132 SM ส่วน B200 มี 148 SM แต่ละ SM มี Tensor Core, Warp Scheduler และ CUDA Cores
    หน่วยความจำของ GPU มีหลายระดับ: Register, SMEM, L2 cache และ HBM
    B200 มี HBM ขนาด 192GB และแบนด์วิดท์ 9TB/s
    ระบบเครือข่ายภายในใช้ NVLink และ NVSwitch เชื่อม GPU ภายใน node
    ระบบเครือข่ายระหว่าง node ใช้ InfiniBand แบบ fat tree topology
    DGX SuperPod สามารถเชื่อม GPU ได้ถึง 1024 ตัว
    GPU รองรับ parallelism หลายแบบ: data, tensor, expert และ pipeline
    NVIDIA SHARP ช่วยให้การทำ AllReduce มีประสิทธิภาพมากขึ้น
    GB200 NVL72 มี node ขนาดใหญ่ขึ้น (72 GPU) และแบนด์วิดท์สูงถึง 3.6TB/s

    ข้อมูลเสริมจากภายนอก
    RTX PRO 4000 Blackwell SFF เปิดตัวเมื่อ 11 ส.ค. 2025 มี Tensor Core รุ่นที่ 5
    ใช้สถาปัตยกรรม Blackwell 2.0 บนกระบวนการผลิต 5nm โดย TSMC
    มี 8960 CUDA cores และ 280 Tensor cores พร้อม GDDR7 ขนาด 24GB
    ประสิทธิภาพ AI สูงขึ้น 2.5 เท่าเมื่อเทียบกับรุ่นก่อน
    ใช้พลังงานเพียง 70W เหมาะกับเวิร์กสเตชันขนาดเล็ก
    รองรับ PCIe 5.0 x8 และ DisplayPort 2.1b

    https://jax-ml.github.io/scaling-book/gpus/
    🧠 เรื่องเล่าใหม่: GPU ไม่ใช่แค่การ์ดจอ – แต่คือเครื่องจักรแห่งการเรียนรู้ของ AI ในยุคที่ AI ใหญ่ขึ้นทุกวัน การเข้าใจว่า GPU ทำงานอย่างไรจึงสำคัญมาก โดยเฉพาะเมื่อเปรียบเทียบกับ TPU ที่ Google ใช้กันอย่างแพร่หลาย GPU สมัยใหม่ เช่น NVIDIA H100, B200 และ GB200 NVL72 ไม่ได้เป็นแค่การ์ดจอสำหรับเล่นเกมอีกต่อไป แต่กลายเป็นเครื่องมือหลักในการฝึกและรันโมเดลขนาดใหญ่ (LLMs) ด้วยพลังการคำนวณมหาศาลจาก Tensor Core ที่ออกแบบมาเพื่อการคูณเมทริกซ์โดยเฉพาะ แต่ละ GPU ประกอบด้วยหลาย SM (Streaming Multiprocessor) ซึ่งใน H100 มีถึง 132 SM และใน B200 มี 148 SM โดยแต่ละ SM มี Tensor Core, Warp Scheduler และ CUDA Cores ที่ทำงานแบบ SIMD/SIMT เพื่อประมวลผลแบบขนาน GPU ยังมีระบบหน่วยความจำหลายระดับ ตั้งแต่ Register, SMEM (L1 cache), L2 cache ไปจนถึง HBM (High Bandwidth Memory) ซึ่งใน B200 มีถึง 192GB และแบนด์วิดท์สูงถึง 9TB/s นอกจากนี้ยังมีระบบเครือข่ายภายในและระหว่าง GPU ที่ซับซ้อน เช่น NVLink, NVSwitch และ InfiniBand ที่ช่วยให้ GPU หลายตัวทำงานร่วมกันได้อย่างมีประสิทธิภาพ โดยเฉพาะในระบบ DGX SuperPod ที่สามารถเชื่อมต่อ GPU ได้ถึง 1024 ตัว GPU ยังรองรับการทำงานแบบ parallelism หลายรูปแบบ เช่น data parallelism, tensor parallelism, expert parallelism และ pipeline parallelism ซึ่งแต่ละแบบมีข้อดีข้อเสียต่างกัน และต้องเลือกใช้ให้เหมาะกับขนาดและโครงสร้างของโมเดล ✅ ข้อมูลในข่าว ➡️ GPU สมัยใหม่เช่น H100 และ B200 มี Tensor Core สำหรับคูณเมทริกซ์โดยเฉพาะ ➡️ H100 มี 132 SM ส่วน B200 มี 148 SM แต่ละ SM มี Tensor Core, Warp Scheduler และ CUDA Cores ➡️ หน่วยความจำของ GPU มีหลายระดับ: Register, SMEM, L2 cache และ HBM ➡️ B200 มี HBM ขนาด 192GB และแบนด์วิดท์ 9TB/s ➡️ ระบบเครือข่ายภายในใช้ NVLink และ NVSwitch เชื่อม GPU ภายใน node ➡️ ระบบเครือข่ายระหว่าง node ใช้ InfiniBand แบบ fat tree topology ➡️ DGX SuperPod สามารถเชื่อม GPU ได้ถึง 1024 ตัว ➡️ GPU รองรับ parallelism หลายแบบ: data, tensor, expert และ pipeline ➡️ NVIDIA SHARP ช่วยให้การทำ AllReduce มีประสิทธิภาพมากขึ้น ➡️ GB200 NVL72 มี node ขนาดใหญ่ขึ้น (72 GPU) และแบนด์วิดท์สูงถึง 3.6TB/s ✅ ข้อมูลเสริมจากภายนอก ➡️ RTX PRO 4000 Blackwell SFF เปิดตัวเมื่อ 11 ส.ค. 2025 มี Tensor Core รุ่นที่ 5 ➡️ ใช้สถาปัตยกรรม Blackwell 2.0 บนกระบวนการผลิต 5nm โดย TSMC ➡️ มี 8960 CUDA cores และ 280 Tensor cores พร้อม GDDR7 ขนาด 24GB ➡️ ประสิทธิภาพ AI สูงขึ้น 2.5 เท่าเมื่อเทียบกับรุ่นก่อน ➡️ ใช้พลังงานเพียง 70W เหมาะกับเวิร์กสเตชันขนาดเล็ก ➡️ รองรับ PCIe 5.0 x8 และ DisplayPort 2.1b https://jax-ml.github.io/scaling-book/gpus/
    0 Comments 0 Shares 249 Views 0 Reviews
More Results