Google Cloud ประสบปัญหา ไฟฟ้าขัดข้อง ส่งผลให้เกิด ระบบล่มนานกว่า 6 ชั่วโมง ในศูนย์ข้อมูล us-east5-c ที่ตั้งอยู่ใน Columbus, Ohio โดยสาเหตุหลักมาจาก ความล้มเหลวของระบบสำรองไฟ (UPS) ซึ่งควรจะช่วยรักษาการทำงานของเซิร์ฟเวอร์ในกรณีที่ไฟฟ้าหลักดับ
✅ ไฟฟ้าขัดข้องทำให้ระบบล่มในศูนย์ข้อมูลของ Google Cloud
- เหตุการณ์เกิดขึ้นเมื่อวันที่ 29 มีนาคม 2025 และกินเวลานาน 6 ชั่วโมง 10 นาที
- ศูนย์ข้อมูลที่ได้รับผลกระทบใช้ AMD EPYC และ Intel Xeon processors
✅ สาเหตุของปัญหา
- ระบบสำรองไฟ UPS ควรจะช่วยรักษาการทำงานของเซิร์ฟเวอร์ แต่เกิด ความล้มเหลวของแบตเตอรี่
- ส่งผลให้เซิร์ฟเวอร์ในโซน us-east5-c ดับลง และเกิด packet loss ในเครือข่าย
✅ ผลกระทบต่อบริการของ Google Cloud
- ลูกค้าหลายรายพบว่า VM instances ในโซนนี้ไม่สามารถใช้งานได้
- มี ดิสก์บางส่วน ที่ไม่สามารถเข้าถึงได้ในช่วงที่เกิดเหตุ
✅ การแก้ไขปัญหา
- วิศวกรของ Google เปลี่ยนเส้นทางทราฟฟิก ไปยังโซนอื่นเพื่อลดผลกระทบ
- ระบบถูกกู้คืนโดยใช้ เครื่องกำเนิดไฟฟ้า และกลับมาออนไลน์เมื่อเวลา 14:49 น. ตามเวลาสหรัฐฯ แปซิฟิก
✅ มาตรการป้องกันในอนาคต
- Google จะ ปรับปรุงระบบสำรองไฟ เพื่อให้สามารถกู้คืนได้เร็วขึ้น
- มีการตรวจสอบ ระบบ failover เพื่อปิดช่องโหว่ที่ทำให้เกิดปัญหา
- Google จะทำงานร่วมกับ ผู้ผลิต UPS เพื่อแก้ไขปัญหาแบตเตอรี่
⚠️ ข้อควรระวังและประเด็นที่ต้องติดตาม
ℹ️ ผลกระทบต่อธุรกิจที่ใช้ Google Cloud
- บริษัทที่พึ่งพา Google Cloud อาจต้องพิจารณา กลยุทธ์สำรองข้อมูล เพื่อรับมือกับเหตุการณ์ลักษณะนี้
ℹ️ ความเสี่ยงของระบบสำรองไฟ
- แม้ UPS จะถูกออกแบบมาเพื่อป้องกันไฟฟ้าดับ แต่ ความล้มเหลวของแบตเตอรี่ อาจทำให้ระบบล่มได้
- ควรมี ระบบสำรองเพิ่มเติม เช่น การใช้ multi-zone redundancy
ℹ️ แนวโน้มของการพัฒนาโครงสร้างพื้นฐานคลาวด์
- บริษัทเทคโนโลยีอาจต้องลงทุนใน ระบบสำรองไฟที่มีความเสถียรสูงขึ้น
- อาจมีการพัฒนา AI-based monitoring เพื่อช่วยตรวจจับปัญหาก่อนเกิดเหตุ
https://www.neowin.net/news/googles-uninterruptible-power-supply-ironically-interrupted-cloud-with-a-six-hour-outage/
✅ ไฟฟ้าขัดข้องทำให้ระบบล่มในศูนย์ข้อมูลของ Google Cloud
- เหตุการณ์เกิดขึ้นเมื่อวันที่ 29 มีนาคม 2025 และกินเวลานาน 6 ชั่วโมง 10 นาที
- ศูนย์ข้อมูลที่ได้รับผลกระทบใช้ AMD EPYC และ Intel Xeon processors
✅ สาเหตุของปัญหา
- ระบบสำรองไฟ UPS ควรจะช่วยรักษาการทำงานของเซิร์ฟเวอร์ แต่เกิด ความล้มเหลวของแบตเตอรี่
- ส่งผลให้เซิร์ฟเวอร์ในโซน us-east5-c ดับลง และเกิด packet loss ในเครือข่าย
✅ ผลกระทบต่อบริการของ Google Cloud
- ลูกค้าหลายรายพบว่า VM instances ในโซนนี้ไม่สามารถใช้งานได้
- มี ดิสก์บางส่วน ที่ไม่สามารถเข้าถึงได้ในช่วงที่เกิดเหตุ
✅ การแก้ไขปัญหา
- วิศวกรของ Google เปลี่ยนเส้นทางทราฟฟิก ไปยังโซนอื่นเพื่อลดผลกระทบ
- ระบบถูกกู้คืนโดยใช้ เครื่องกำเนิดไฟฟ้า และกลับมาออนไลน์เมื่อเวลา 14:49 น. ตามเวลาสหรัฐฯ แปซิฟิก
✅ มาตรการป้องกันในอนาคต
- Google จะ ปรับปรุงระบบสำรองไฟ เพื่อให้สามารถกู้คืนได้เร็วขึ้น
- มีการตรวจสอบ ระบบ failover เพื่อปิดช่องโหว่ที่ทำให้เกิดปัญหา
- Google จะทำงานร่วมกับ ผู้ผลิต UPS เพื่อแก้ไขปัญหาแบตเตอรี่
⚠️ ข้อควรระวังและประเด็นที่ต้องติดตาม
ℹ️ ผลกระทบต่อธุรกิจที่ใช้ Google Cloud
- บริษัทที่พึ่งพา Google Cloud อาจต้องพิจารณา กลยุทธ์สำรองข้อมูล เพื่อรับมือกับเหตุการณ์ลักษณะนี้
ℹ️ ความเสี่ยงของระบบสำรองไฟ
- แม้ UPS จะถูกออกแบบมาเพื่อป้องกันไฟฟ้าดับ แต่ ความล้มเหลวของแบตเตอรี่ อาจทำให้ระบบล่มได้
- ควรมี ระบบสำรองเพิ่มเติม เช่น การใช้ multi-zone redundancy
ℹ️ แนวโน้มของการพัฒนาโครงสร้างพื้นฐานคลาวด์
- บริษัทเทคโนโลยีอาจต้องลงทุนใน ระบบสำรองไฟที่มีความเสถียรสูงขึ้น
- อาจมีการพัฒนา AI-based monitoring เพื่อช่วยตรวจจับปัญหาก่อนเกิดเหตุ
https://www.neowin.net/news/googles-uninterruptible-power-supply-ironically-interrupted-cloud-with-a-six-hour-outage/
Google Cloud ประสบปัญหา ไฟฟ้าขัดข้อง ส่งผลให้เกิด ระบบล่มนานกว่า 6 ชั่วโมง ในศูนย์ข้อมูล us-east5-c ที่ตั้งอยู่ใน Columbus, Ohio โดยสาเหตุหลักมาจาก ความล้มเหลวของระบบสำรองไฟ (UPS) ซึ่งควรจะช่วยรักษาการทำงานของเซิร์ฟเวอร์ในกรณีที่ไฟฟ้าหลักดับ
✅ ไฟฟ้าขัดข้องทำให้ระบบล่มในศูนย์ข้อมูลของ Google Cloud
- เหตุการณ์เกิดขึ้นเมื่อวันที่ 29 มีนาคม 2025 และกินเวลานาน 6 ชั่วโมง 10 นาที
- ศูนย์ข้อมูลที่ได้รับผลกระทบใช้ AMD EPYC และ Intel Xeon processors
✅ สาเหตุของปัญหา
- ระบบสำรองไฟ UPS ควรจะช่วยรักษาการทำงานของเซิร์ฟเวอร์ แต่เกิด ความล้มเหลวของแบตเตอรี่
- ส่งผลให้เซิร์ฟเวอร์ในโซน us-east5-c ดับลง และเกิด packet loss ในเครือข่าย
✅ ผลกระทบต่อบริการของ Google Cloud
- ลูกค้าหลายรายพบว่า VM instances ในโซนนี้ไม่สามารถใช้งานได้
- มี ดิสก์บางส่วน ที่ไม่สามารถเข้าถึงได้ในช่วงที่เกิดเหตุ
✅ การแก้ไขปัญหา
- วิศวกรของ Google เปลี่ยนเส้นทางทราฟฟิก ไปยังโซนอื่นเพื่อลดผลกระทบ
- ระบบถูกกู้คืนโดยใช้ เครื่องกำเนิดไฟฟ้า และกลับมาออนไลน์เมื่อเวลา 14:49 น. ตามเวลาสหรัฐฯ แปซิฟิก
✅ มาตรการป้องกันในอนาคต
- Google จะ ปรับปรุงระบบสำรองไฟ เพื่อให้สามารถกู้คืนได้เร็วขึ้น
- มีการตรวจสอบ ระบบ failover เพื่อปิดช่องโหว่ที่ทำให้เกิดปัญหา
- Google จะทำงานร่วมกับ ผู้ผลิต UPS เพื่อแก้ไขปัญหาแบตเตอรี่
⚠️ ข้อควรระวังและประเด็นที่ต้องติดตาม
ℹ️ ผลกระทบต่อธุรกิจที่ใช้ Google Cloud
- บริษัทที่พึ่งพา Google Cloud อาจต้องพิจารณา กลยุทธ์สำรองข้อมูล เพื่อรับมือกับเหตุการณ์ลักษณะนี้
ℹ️ ความเสี่ยงของระบบสำรองไฟ
- แม้ UPS จะถูกออกแบบมาเพื่อป้องกันไฟฟ้าดับ แต่ ความล้มเหลวของแบตเตอรี่ อาจทำให้ระบบล่มได้
- ควรมี ระบบสำรองเพิ่มเติม เช่น การใช้ multi-zone redundancy
ℹ️ แนวโน้มของการพัฒนาโครงสร้างพื้นฐานคลาวด์
- บริษัทเทคโนโลยีอาจต้องลงทุนใน ระบบสำรองไฟที่มีความเสถียรสูงขึ้น
- อาจมีการพัฒนา AI-based monitoring เพื่อช่วยตรวจจับปัญหาก่อนเกิดเหตุ
https://www.neowin.net/news/googles-uninterruptible-power-supply-ironically-interrupted-cloud-with-a-six-hour-outage/
0 Comments
0 Shares
32 Views
0 Reviews