Server AWS dính "tên lửa" theo đúng nghĩa đen: Cloud hóa ra cũng chỉ là cái máy tính của người khác thôi!
Khi AWS Middle East Central sập vì chiến tranh, anh em dev mới ngộ ra: Cloud dù xịn đến mấy cũng không đỡ nổi tên lửa. Bài học xương máu về Disaster Recovery.

Các ông cứ tưởng thuê server AWS là "bất tử", uptime 99.99% là kê cao gối ngủ? Nhầm to nhé. Gặp quả "hàng nóng" từ trên trời rơi xuống thì Region nào cũng thành hố vôi thôi. Vụ AWS Middle East Central (mec1-az2) vừa rồi là minh chứng hùng hồn nhất cho việc: Công nghệ đỉnh cao cũng không thắng nổi... thuốc nổ.
Toàn cảnh vụ "ăn kẹo" của AWS tại Trung Đông
Chuyện là vùng Central của AWS tại Trung Đông, cụ thể là Availability Zone (AZ) mang mã mec1-az2, vừa trải qua một đợt downtime đi vào lòng đất. Theo các thông tin rò rỉ và tình hình chiến sự tại khu vực, nguyên nhân khiến cái AZ này "bay màu" không phải do bug code hay tràn RAM, mà khả năng cao là do bị trúng hỏa tiễn.
Trong khi anh em dev đang cuống cuồng check log, trang AWS Health vẫn điềm tĩnh báo một dòng xanh rờn nhưng nội dung thì đầy mùi thuốc súng: "Increased Error Rates" (Tăng tỷ lệ lỗi). Vâng, lỗi này lạ lắm, lỗi này hình như có mùi khét của linh kiện bị nướng chín.
Giang hồ mạng và những pha comment "mặn hơn muối biển"
Đúng là lúc hoạn nạn mới thấy trình độ tấu hài của anh em dev quốc tế. Trên Reddit, thớt này đang hot xình xịch với đủ loại gạch đá và châm biếm:
- Định nghĩa lại về Cloud: Một ông phán chuẩn không cần chỉnh: "Thì như chúng ta vẫn hay nói đấy thôi, Cloud thực ra chỉ là cái máy tính của thằng khác. Và cũng giống như mọi cái máy tính khác, nó hoàn toàn có thể bị một quả tên lửa hỏi thăm." Một ông khác bồi thêm: "AWS làm ăn chán quá, server gì mà không có tính năng chống tên lửa? SMH (lắc đầu ngán ngẩm)."
- HTTP Code cho chiến tranh: Dân tình đang tranh cãi xem nếu server bị trúng Tomahawk thì nên trả về code gì cho đúng chuẩn RESTful. Ứng cử viên sáng giá nhất là 410 Gone (Biến mất vĩnh viễn). Thôi thì ít nhất nó cũng thật thà hơn cái thông báo "tăng tỷ lệ lỗi" của mấy sếp AWS.
- Disaster Recovery (DR) bằng niềm tin: Có ông còn tranh thủ khịa: "Đến lúc lôi cái tài liệu phục hồi sau thảm họa ra đọc rồi đấy các bạn trẻ". Khổ nỗi, nếu data center đã thành cái hố đen thì DR kiểu gì nếu không backup sang Region khác?
Góc nhìn thực dụng từ WorkCloud: Đừng để "trứng chung một rổ"
Từ vụ này, mình rút ra được vài bài học thực tế cho anh em SME Việt Nam. Nhiều ông sếp cứ nghe đến "Cloud" là tưởng nó ở trên mây thật, không bao giờ hỏng. Nhưng thực tế, hạ tầng nào cũng có rủi ro: từ cá mập cắn cáp, sập nguồn điện cho đến... chiến tranh.
- Đừng bao giờ tin tuyệt đối vào 1 AZ: Nếu data của các ông chỉ nằm ở một chỗ, thì khi chỗ đó "toang", sự nghiệp của các ông cũng đi theo luôn. Ít nhất cũng phải có backup liên vùng (Cross-region).
- Tối ưu chi phí nhưng đừng tiết kiệm bảo mật/backup: Nhiều doanh nghiệp SME ngại chi tiền cho phương án dự phòng vì thấy nó... tốn. Nhưng hãy nhìn vụ AWS này đi, đến lúc nó sập thật thì cái giá phải trả còn đắt hơn gấp vạn lần.
- WorkCloud luôn sẵn sàng: Tại WorkCloud, chúng tôi hiểu rằng vận hành doanh nghiệp cần sự ổn định tuyệt đối. Với triết lý "Work OS" thực dụng, chúng tôi hỗ trợ các SME tối ưu hóa quy trình trên nền tảng Cloud ổn định, chi phí rẻ nhưng luôn đề cao tính an toàn và khả năng dự phòng. Chứ để đến lúc "ăn tên lửa" mới lo đi tìm doc DR thì chỉ có nước quay xe lên phường thôi.
Nói tóm lại, Cloud là tốt, nhưng đừng phó mặc số phận công ty cho một cái "máy tính của người khác" mà không có phương án B. Chúc anh em dev giữ được server (và tính mạng) an toàn qua mùa bão táp này!