Phân tích sự cố nghiêm trọng từ Cloudflare
CloudFlare là một trong những dịch vụ CDN lớn nhất thế giới, giúp cho các doanh nghiệp quản lý lưu lượng truy cập giữa server tới các Client một cách nhanh nhất, từ đó tối ưu hiệu suất vận hành của trang web.
Tuy nhiên, vào ngày 02/07 vừa qua, trang chủ và các dịch vụ của Cloudflare gặp sự cố, khiến các trang web liên quan đều xuất hiện lỗi 502 Bad Gateway , gây ảnh hưởng tới hoạt động của nhiều người dùng và doanh nghiệp khi đang cố gắng truy cập.
Cloudflare cho biết nguyên nhân của sự cố trên liên quan đến việc bị rò rỉ định tuyến, khiến cho nhiều website lớn bị tê liệt và ngừng hoạt động, trong đó có thể kể đến những cái tên bị ảnh hưởng như Discord, Feedly, Crunchyroll và Amazon. CLoudflare thừa nhận rằng tình trạng này diễn ra trên toàn thế giới và đã đưa ra các biện pháp khắc phục nhanh chóng ngay khi sự cố xảy ra.
Sự cố CloudFlare gây ảnh hưởng tới hoạt động của nhiều người dùng và doanh nghiệp
Qua điều tra, chúng ta đều có thể nhận thấy rằng, sự cố mà Cloudflare gặp phải bắt nguồn từ một loại tấn công dạng “triển khai phần mềm gây lỗi”. Tuy nhiên, tất cả các dịch vụ đã trở lại hoạt động bình thường sau khi sự cố cloudflare được khôi phục.
Nhìn lại từ sự cố với AWS trước đây.
Trở lại vào năm 2017, AWS cũng đã gặp một vấn đề tương tự như Cloudflare. Như bạn biết, hầu hết các trang web và ứng dụng web đều lưu trữ dịch vụ của họ trên AWS. Tuy nhiên, AWS S3 đã gặp phải sự cố dẫn đến tình trạng ngoại tuyến kéo dài 4 giờ đồng hồ. Sự cố này đã khiến cho nhiều người dùng hoảng loạn và lo lắng vì các hoạt động giao dịch hàng ngày và công việc của họ bị gián đoạn một cách bất ngờ.
Sự cố này đã từng xảy ra với AWS trước đây
Sự cố này một lần nữa tiếp diễn ở hiện tại với CloudFlare. Thực tế, khi lựa chọn nhà cung cấp giải pháp điện toán đám mây, đa phần chúng ta thường quên đi tầm quan trọng của nguồn tài nguyên dự phòng. Không phải vì nó không quan trọng, mà là bởi sự chủ quan của chúng ta khi nghĩ rằng những nhà cung cấp CDN lớn sẽ không bao giờ gặp vấn đề gì cả. Và do đó, những doanh nghiệp không có giải pháp dự phòng sẽ dễ phải đối mặt với những hậu quả khôn lường khi có vấn đề xảy ra.
Có vẻ như chúng ta chưa rút ra được bài học nào từ câu chuyện sự cố AWS.
Liên kết nhiều dịch vụ lưu trữ đám mây khác nhau.
“ Multi-Cloud ” (hay Liên kết điện toán đám mây) dần trở thành thuật ngữ thông dụng và được dùng phổ biến trong những năm gần đây, tuy nhiên nó vẫn chưa thực sự là chủ đề nóng thu hút nhiều sự quan tâm trong ngành. Tuy nhiên, khi nói đến việc quản lý sự cố mất tài nguyên thì Multi Cloud là một trong những giải pháp tốt nhất hiện nay.
Đây là một ý tưởng kết hợp nhiều cơ sở hạ tầng public dưới dạng một Cơ sở hạ tầng hoạt động như một dịch vụ (IaaS - Infrastructure as a service), điển hình như Microsoft Azure, Amazon Web Services hay Google Cloud. Tất cả đều hoạt động như một phần của một kiến trúc không đồng nhất (còn gọi là chiến lược điện toán đám mây Polynimbus). Với mô hình này, bạn không còn bị phụ thuộc vào một hệ thống điện toán đám mây duy nhất để duy trì hoạt động, từ đó giúp phân tán rủi ro và giảm thiểu tình trạng downtime của website.
VNETWORK đã xây dựng, phát triển và hoàn thiện công nghệ Multi CDN trong nhiều năm. Dự án Multi CDN là sự kết hợp của nhiều CDN trên cùng 1 nền tảng quản lý chung. Chúng tôi cũng đã xây dựng nền tảng này với hệ thống AI (Trí Tuệ Nhân Tạo) có thể giúp người dùng của chúng tôi tự động chuyển sang CDN tốt nhất cho trang web của họ, tránh xảy ra tình trạng mất kết nối hay ngừng hoạt động.
Nền tảng này của chúng tôi giúp đảm bảo sự an toàn và liên tục cho website, tránh các sự cố như đứt cáp, dẫn tới internet ngừng hoạt động. Giải pháp Multi CDN cũng bao gồm giải quyết cả sự cố nghiêm trọng của Cloudflare xảy ra ngày 02/07/2019 vừa qua.