Google's 'uninterruptible' power supply ironically...

shared a link

2025-04-16 01:58:44 -

Google Cloud ประสบปัญหา ไฟฟ้าขัดข้อง ส่งผลให้เกิด ระบบล่มนานกว่า 6 ชั่วโมง ในศูนย์ข้อมูล us-east5-c ที่ตั้งอยู่ใน Columbus, Ohio โดยสาเหตุหลักมาจาก ความล้มเหลวของระบบสำรองไฟ (UPS) ซึ่งควรจะช่วยรักษาการทำงานของเซิร์ฟเวอร์ในกรณีที่ไฟฟ้าหลักดับ

ไฟฟ้าขัดข้องทำให้ระบบล่มในศูนย์ข้อมูลของ Google Cloud
- เหตุการณ์เกิดขึ้นเมื่อวันที่ 29 มีนาคม 2025 และกินเวลานาน 6 ชั่วโมง 10 นาที
- ศูนย์ข้อมูลที่ได้รับผลกระทบใช้ AMD EPYC และ Intel Xeon processors

สาเหตุของปัญหา
- ระบบสำรองไฟ UPS ควรจะช่วยรักษาการทำงานของเซิร์ฟเวอร์ แต่เกิด ความล้มเหลวของแบตเตอรี่
- ส่งผลให้เซิร์ฟเวอร์ในโซน us-east5-c ดับลง และเกิด packet loss ในเครือข่าย

ผลกระทบต่อบริการของ Google Cloud
- ลูกค้าหลายรายพบว่า VM instances ในโซนนี้ไม่สามารถใช้งานได้
- มี ดิสก์บางส่วน ที่ไม่สามารถเข้าถึงได้ในช่วงที่เกิดเหตุ

การแก้ไขปัญหา
- วิศวกรของ Google เปลี่ยนเส้นทางทราฟฟิก ไปยังโซนอื่นเพื่อลดผลกระทบ
- ระบบถูกกู้คืนโดยใช้ เครื่องกำเนิดไฟฟ้า และกลับมาออนไลน์เมื่อเวลา 14:49 น. ตามเวลาสหรัฐฯ แปซิฟิก

มาตรการป้องกันในอนาคต
- Google จะ ปรับปรุงระบบสำรองไฟ เพื่อให้สามารถกู้คืนได้เร็วขึ้น
- มีการตรวจสอบ ระบบ failover เพื่อปิดช่องโหว่ที่ทำให้เกิดปัญหา
- Google จะทำงานร่วมกับ ผู้ผลิต UPS เพื่อแก้ไขปัญหาแบตเตอรี่

ข้อควรระวังและประเด็นที่ต้องติดตาม
ผลกระทบต่อธุรกิจที่ใช้ Google Cloud
- บริษัทที่พึ่งพา Google Cloud อาจต้องพิจารณา กลยุทธ์สำรองข้อมูล เพื่อรับมือกับเหตุการณ์ลักษณะนี้

ความเสี่ยงของระบบสำรองไฟ
- แม้ UPS จะถูกออกแบบมาเพื่อป้องกันไฟฟ้าดับ แต่ ความล้มเหลวของแบตเตอรี่ อาจทำให้ระบบล่มได้
- ควรมี ระบบสำรองเพิ่มเติม เช่น การใช้ multi-zone redundancy

แนวโน้มของการพัฒนาโครงสร้างพื้นฐานคลาวด์
- บริษัทเทคโนโลยีอาจต้องลงทุนใน ระบบสำรองไฟที่มีความเสถียรสูงขึ้น
- อาจมีการพัฒนา AI-based monitoring เพื่อช่วยตรวจจับปัญหาก่อนเกิดเหตุ

https://www.neowin.net/news/googles-uninterruptible-power-supply-ironically-interrupted-cloud-with-a-six-hour-outage/

Google Cloud ประสบปัญหา ไฟฟ้าขัดข้อง ส่งผลให้เกิด ระบบล่มนานกว่า 6 ชั่วโมง ในศูนย์ข้อมูล us-east5-c ที่ตั้งอยู่ใน Columbus, Ohio โดยสาเหตุหลักมาจาก ความล้มเหลวของระบบสำรองไฟ (UPS) ซึ่งควรจะช่วยรักษาการทำงานของเซิร์ฟเวอร์ในกรณีที่ไฟฟ้าหลักดับ ✅ ไฟฟ้าขัดข้องทำให้ระบบล่มในศูนย์ข้อมูลของ Google Cloud - เหตุการณ์เกิดขึ้นเมื่อวันที่ 29 มีนาคม 2025 และกินเวลานาน 6 ชั่วโมง 10 นาที - ศูนย์ข้อมูลที่ได้รับผลกระทบใช้ AMD EPYC และ Intel Xeon processors ✅ สาเหตุของปัญหา - ระบบสำรองไฟ UPS ควรจะช่วยรักษาการทำงานของเซิร์ฟเวอร์ แต่เกิด ความล้มเหลวของแบตเตอรี่ - ส่งผลให้เซิร์ฟเวอร์ในโซน us-east5-c ดับลง และเกิด packet loss ในเครือข่าย ✅ ผลกระทบต่อบริการของ Google Cloud - ลูกค้าหลายรายพบว่า VM instances ในโซนนี้ไม่สามารถใช้งานได้ - มี ดิสก์บางส่วน ที่ไม่สามารถเข้าถึงได้ในช่วงที่เกิดเหตุ ✅ การแก้ไขปัญหา - วิศวกรของ Google เปลี่ยนเส้นทางทราฟฟิก ไปยังโซนอื่นเพื่อลดผลกระทบ - ระบบถูกกู้คืนโดยใช้ เครื่องกำเนิดไฟฟ้า และกลับมาออนไลน์เมื่อเวลา 14:49 น. ตามเวลาสหรัฐฯ แปซิฟิก ✅ มาตรการป้องกันในอนาคต - Google จะ ปรับปรุงระบบสำรองไฟ เพื่อให้สามารถกู้คืนได้เร็วขึ้น - มีการตรวจสอบ ระบบ failover เพื่อปิดช่องโหว่ที่ทำให้เกิดปัญหา - Google จะทำงานร่วมกับ ผู้ผลิต UPS เพื่อแก้ไขปัญหาแบตเตอรี่ ⚠️ ข้อควรระวังและประเด็นที่ต้องติดตาม ℹ️ ผลกระทบต่อธุรกิจที่ใช้ Google Cloud - บริษัทที่พึ่งพา Google Cloud อาจต้องพิจารณา กลยุทธ์สำรองข้อมูล เพื่อรับมือกับเหตุการณ์ลักษณะนี้ ℹ️ ความเสี่ยงของระบบสำรองไฟ - แม้ UPS จะถูกออกแบบมาเพื่อป้องกันไฟฟ้าดับ แต่ ความล้มเหลวของแบตเตอรี่ อาจทำให้ระบบล่มได้ - ควรมี ระบบสำรองเพิ่มเติม เช่น การใช้ multi-zone redundancy ℹ️ แนวโน้มของการพัฒนาโครงสร้างพื้นฐานคลาวด์ - บริษัทเทคโนโลยีอาจต้องลงทุนใน ระบบสำรองไฟที่มีความเสถียรสูงขึ้น - อาจมีการพัฒนา AI-based monitoring เพื่อช่วยตรวจจับปัญหาก่อนเกิดเหตุ https://www.neowin.net/news/googles-uninterruptible-power-supply-ironically-interrupted-cloud-with-a-six-hour-outage/

WWW.NEOWIN.NET

Google's 'uninterruptible' power supply ironically interrupted Cloud with a six hour outage

Google Cloud was hit with a six-hour-long outage at the end of the last month when its uninterruptible power supply system failed.

0 Comments 0 Shares 309 Views 0 Reviews