เรื่องเล่าจาก Ironwood: เมื่อ Google สร้างซูเปอร์คอมพิวเตอร์ที่ไม่ใช่แค่เร็ว แต่ “ฉลาดและยืดหยุ่น” ที่สุดเท่าที่เคยมีมา
ในงาน Hot Chips 2025 Google ได้เปิดเผยรายละเอียดของ Ironwood TPU ซึ่งเป็นชิปรุ่นที่ 7 ของตระกูล Tensor Processing Unit โดยออกแบบมาเพื่อรองรับงาน inference ขนาดใหญ่โดยเฉพาะ ไม่ใช่การเทรนโมเดลเหมือนรุ่นก่อน ๆ
แต่ละชิป Ironwood มีสถาปัตยกรรมแบบ dual-die ให้กำลังประมวลผล FP8 สูงถึง 4,614 TFLOPs และมาพร้อมกับหน่วยความจำ HBM3e ขนาด 192GB ต่อชิป โดยมีแบนด์วิดธ์สูงถึง 7.3TB/s
ระบบสามารถขยายได้ถึง 9,216 ชิปต่อหนึ่ง pod โดยไม่ต้องใช้ glue logic และมี I/O bandwidth รวมถึง 1.2TBps ทำให้สามารถสร้างระบบที่มี shared memory ขนาด 1.77PB ได้—ซึ่งถือเป็นสถิติโลกใหม่สำหรับระบบ multi-CPU ที่ใช้ shared memory
การเชื่อมต่อระหว่างแร็คใช้ optical circuit switch ที่สามารถ reconfigure ได้เมื่อมี node เสีย พร้อมระบบ checkpoint recovery และฟีเจอร์ด้านความปลอดภัย เช่น root of trust, built-in self test, และการตรวจจับ silent data corruption
Ironwood ยังใช้ AI ในการออกแบบตัวเอง เช่น การ optimize ALU circuits และ floorplan พร้อมเพิ่ม SparseCore รุ่นที่ 4 เพื่อเร่งงาน embedding และ collective operations เช่น recommendation engine
ระบบระบายความร้อนใช้ cold plate รุ่นที่ 3 ของ Google ซึ่งเป็น liquid cooling แบบเต็มรูปแบบ และมีการปรับแรงดันไฟฟ้าและความถี่แบบ dynamic เพื่อเพิ่มประสิทธิภาพต่อวัตต์ให้ดีกว่ารุ่น Trillium ถึง 2 เท่า
สเปกหลักของ Ironwood TPU
Dual-die architecture ให้ 4,614 TFLOPs FP8 ต่อชิป
หน่วยความจำ HBM3e ขนาด 192GB ต่อชิป พร้อมแบนด์วิดธ์ 7.3TB/s
รองรับการขยายถึง 9,216 ชิปต่อ pod ด้วย I/O bandwidth 1.2TBps
สถิติโลกด้าน shared memory
ระบบมี shared memory ขนาด 1.77PB แบบ addressable โดยตรง
ใช้ optical circuit switch เชื่อมต่อแร็คแบบ dynamic
รองรับ workload recovery และ node reconfiguration
ฟีเจอร์ด้านความปลอดภัยและเสถียรภาพ
มี root of trust, built-in self test, และ logic repair
ตรวจจับและป้องกัน silent data corruption
ออกแบบเพื่อ RAS: reliability, availability, serviceability
การออกแบบด้วย AI และการใช้งาน
ใช้ AI ในการ optimize ALU และ floorplan
เพิ่ม SparseCore รุ่นที่ 4 สำหรับ embedding และ collective ops
รองรับงาน inference เช่น LLM, recommendation, simulation
ระบบระบายความร้อนและประสิทธิภาพ
ใช้ cold plate liquid cooling รุ่นที่ 3 ของ Google
ปรับแรงดันและความถี่แบบ dynamic เพื่อเพิ่ม efficiency
ประสิทธิภาพต่อวัตต์ดีกว่ารุ่น Trillium ถึง 2 เท่า
https://www.techradar.com/pro/googles-most-powerful-supercomputer-ever-has-a-combined-memory-of-1-77pb-apparently-a-new-world-record-for-shared-memory-multi-cpu-setups
ในงาน Hot Chips 2025 Google ได้เปิดเผยรายละเอียดของ Ironwood TPU ซึ่งเป็นชิปรุ่นที่ 7 ของตระกูล Tensor Processing Unit โดยออกแบบมาเพื่อรองรับงาน inference ขนาดใหญ่โดยเฉพาะ ไม่ใช่การเทรนโมเดลเหมือนรุ่นก่อน ๆ
แต่ละชิป Ironwood มีสถาปัตยกรรมแบบ dual-die ให้กำลังประมวลผล FP8 สูงถึง 4,614 TFLOPs และมาพร้อมกับหน่วยความจำ HBM3e ขนาด 192GB ต่อชิป โดยมีแบนด์วิดธ์สูงถึง 7.3TB/s
ระบบสามารถขยายได้ถึง 9,216 ชิปต่อหนึ่ง pod โดยไม่ต้องใช้ glue logic และมี I/O bandwidth รวมถึง 1.2TBps ทำให้สามารถสร้างระบบที่มี shared memory ขนาด 1.77PB ได้—ซึ่งถือเป็นสถิติโลกใหม่สำหรับระบบ multi-CPU ที่ใช้ shared memory
การเชื่อมต่อระหว่างแร็คใช้ optical circuit switch ที่สามารถ reconfigure ได้เมื่อมี node เสีย พร้อมระบบ checkpoint recovery และฟีเจอร์ด้านความปลอดภัย เช่น root of trust, built-in self test, และการตรวจจับ silent data corruption
Ironwood ยังใช้ AI ในการออกแบบตัวเอง เช่น การ optimize ALU circuits และ floorplan พร้อมเพิ่ม SparseCore รุ่นที่ 4 เพื่อเร่งงาน embedding และ collective operations เช่น recommendation engine
ระบบระบายความร้อนใช้ cold plate รุ่นที่ 3 ของ Google ซึ่งเป็น liquid cooling แบบเต็มรูปแบบ และมีการปรับแรงดันไฟฟ้าและความถี่แบบ dynamic เพื่อเพิ่มประสิทธิภาพต่อวัตต์ให้ดีกว่ารุ่น Trillium ถึง 2 เท่า
สเปกหลักของ Ironwood TPU
Dual-die architecture ให้ 4,614 TFLOPs FP8 ต่อชิป
หน่วยความจำ HBM3e ขนาด 192GB ต่อชิป พร้อมแบนด์วิดธ์ 7.3TB/s
รองรับการขยายถึง 9,216 ชิปต่อ pod ด้วย I/O bandwidth 1.2TBps
สถิติโลกด้าน shared memory
ระบบมี shared memory ขนาด 1.77PB แบบ addressable โดยตรง
ใช้ optical circuit switch เชื่อมต่อแร็คแบบ dynamic
รองรับ workload recovery และ node reconfiguration
ฟีเจอร์ด้านความปลอดภัยและเสถียรภาพ
มี root of trust, built-in self test, และ logic repair
ตรวจจับและป้องกัน silent data corruption
ออกแบบเพื่อ RAS: reliability, availability, serviceability
การออกแบบด้วย AI และการใช้งาน
ใช้ AI ในการ optimize ALU และ floorplan
เพิ่ม SparseCore รุ่นที่ 4 สำหรับ embedding และ collective ops
รองรับงาน inference เช่น LLM, recommendation, simulation
ระบบระบายความร้อนและประสิทธิภาพ
ใช้ cold plate liquid cooling รุ่นที่ 3 ของ Google
ปรับแรงดันและความถี่แบบ dynamic เพื่อเพิ่ม efficiency
ประสิทธิภาพต่อวัตต์ดีกว่ารุ่น Trillium ถึง 2 เท่า
https://www.techradar.com/pro/googles-most-powerful-supercomputer-ever-has-a-combined-memory-of-1-77pb-apparently-a-new-world-record-for-shared-memory-multi-cpu-setups
🎙️ เรื่องเล่าจาก Ironwood: เมื่อ Google สร้างซูเปอร์คอมพิวเตอร์ที่ไม่ใช่แค่เร็ว แต่ “ฉลาดและยืดหยุ่น” ที่สุดเท่าที่เคยมีมา
ในงาน Hot Chips 2025 Google ได้เปิดเผยรายละเอียดของ Ironwood TPU ซึ่งเป็นชิปรุ่นที่ 7 ของตระกูล Tensor Processing Unit โดยออกแบบมาเพื่อรองรับงาน inference ขนาดใหญ่โดยเฉพาะ ไม่ใช่การเทรนโมเดลเหมือนรุ่นก่อน ๆ
แต่ละชิป Ironwood มีสถาปัตยกรรมแบบ dual-die ให้กำลังประมวลผล FP8 สูงถึง 4,614 TFLOPs และมาพร้อมกับหน่วยความจำ HBM3e ขนาด 192GB ต่อชิป โดยมีแบนด์วิดธ์สูงถึง 7.3TB/s
ระบบสามารถขยายได้ถึง 9,216 ชิปต่อหนึ่ง pod โดยไม่ต้องใช้ glue logic และมี I/O bandwidth รวมถึง 1.2TBps ทำให้สามารถสร้างระบบที่มี shared memory ขนาด 1.77PB ได้—ซึ่งถือเป็นสถิติโลกใหม่สำหรับระบบ multi-CPU ที่ใช้ shared memory
การเชื่อมต่อระหว่างแร็คใช้ optical circuit switch ที่สามารถ reconfigure ได้เมื่อมี node เสีย พร้อมระบบ checkpoint recovery และฟีเจอร์ด้านความปลอดภัย เช่น root of trust, built-in self test, และการตรวจจับ silent data corruption
Ironwood ยังใช้ AI ในการออกแบบตัวเอง เช่น การ optimize ALU circuits และ floorplan พร้อมเพิ่ม SparseCore รุ่นที่ 4 เพื่อเร่งงาน embedding และ collective operations เช่น recommendation engine
ระบบระบายความร้อนใช้ cold plate รุ่นที่ 3 ของ Google ซึ่งเป็น liquid cooling แบบเต็มรูปแบบ และมีการปรับแรงดันไฟฟ้าและความถี่แบบ dynamic เพื่อเพิ่มประสิทธิภาพต่อวัตต์ให้ดีกว่ารุ่น Trillium ถึง 2 เท่า
✅ สเปกหลักของ Ironwood TPU
➡️ Dual-die architecture ให้ 4,614 TFLOPs FP8 ต่อชิป
➡️ หน่วยความจำ HBM3e ขนาด 192GB ต่อชิป พร้อมแบนด์วิดธ์ 7.3TB/s
➡️ รองรับการขยายถึง 9,216 ชิปต่อ pod ด้วย I/O bandwidth 1.2TBps
✅ สถิติโลกด้าน shared memory
➡️ ระบบมี shared memory ขนาด 1.77PB แบบ addressable โดยตรง
➡️ ใช้ optical circuit switch เชื่อมต่อแร็คแบบ dynamic
➡️ รองรับ workload recovery และ node reconfiguration
✅ ฟีเจอร์ด้านความปลอดภัยและเสถียรภาพ
➡️ มี root of trust, built-in self test, และ logic repair
➡️ ตรวจจับและป้องกัน silent data corruption
➡️ ออกแบบเพื่อ RAS: reliability, availability, serviceability
✅ การออกแบบด้วย AI และการใช้งาน
➡️ ใช้ AI ในการ optimize ALU และ floorplan
➡️ เพิ่ม SparseCore รุ่นที่ 4 สำหรับ embedding และ collective ops
➡️ รองรับงาน inference เช่น LLM, recommendation, simulation
✅ ระบบระบายความร้อนและประสิทธิภาพ
➡️ ใช้ cold plate liquid cooling รุ่นที่ 3 ของ Google
➡️ ปรับแรงดันและความถี่แบบ dynamic เพื่อเพิ่ม efficiency
➡️ ประสิทธิภาพต่อวัตต์ดีกว่ารุ่น Trillium ถึง 2 เท่า
https://www.techradar.com/pro/googles-most-powerful-supercomputer-ever-has-a-combined-memory-of-1-77pb-apparently-a-new-world-record-for-shared-memory-multi-cpu-setups
0 Comments
0 Shares
70 Views
0 Reviews