Nhịp sống số

Chỉ một lỗi nhỏ không ngờ khiến Internet toàn cầu sụp đổ trong phút chốc

Hoàng Thái 26/10/2025 10:53

Cú sập toàn cầu của Amazon AWS được hé lộ bắt nguồn từ một khoảnh khắc xung đột nhỏ đã đánh sập cả một đế chế đám mây.

Một lỗi nhỏ khiến hệ thống internet ngừng hoạt động

Sự cố sập mạng diện rộng của Amazon Web Services (AWS) hôm thứ Hai, khiến các ứng dụng và dịch vụ phổ biến nhất thế giới ngừng hoạt động, lại bắt nguồn từ một trục trặc kỹ thuật tưởng chừng rất nhỏ.

gettyimages-2166701641.jpg
Sự cố của Amazon bắt nguồn từ việc hai chương trình cạnh tranh để ghi cùng một mục DNS

Trong một bản đánh giá sau sự cố, gã khổng lồ công nghệ này thừa nhận một lỗi đơn giản đã leo thang nghiêm trọng, khiến các kỹ sư phải chạy đua để sửa chữa.

Cú sập của đám mây AWS đã ngay lập tức gây ra hiệu ứng domino trên toàn cầu. Hàng triệu người dùng không thể đặt đồ ăn, liên lạc với mạng lưới bệnh viện, truy cập ngân hàng di động, hoặc kết nối với hệ thống an ninh và thiết bị nhà thông minh.

Các tập đoàn toàn cầu lớn, bao gồm Netflix, Starbucks và United Airlines, cũng tạm thời đứng hình, không thể cung cấp dịch vụ trực tuyến cho khách hàng.

Amazon cho biết trong một tuyên bố: "Chúng tôi xin lỗi vì những ảnh hưởng mà sự kiện này gây ra cho khách hàng. AWS sẽ làm mọi cách có thể để rút kinh nghiệm và tận dụng nó để cải thiện khả năng cung cấp dịch vụ hơn nữa."

Lý do đằng sau cú sập lịch sử

Ở cấp độ kỹ thuật, vấn đề bắt nguồn từ việc hai chương trình tự động "tranh giành" nhau để cùng ghi đè một mục DNS – vốn được ví như một bản ghi trong cuốn danh bạ của Internet. Khi xung đột xảy ra, kết quả là một trang trống bị tạo ra, không chứa thông tin. Điều này ngay lập tức khiến nhiều dịch vụ cốt lõi của AWS rơi vào hỗn loạn.

Angelique Medina, giám đốc dịch vụ giám sát mạng tại Cisco, chia sẻ với CNN: "Phép so sánh với danh bạ điện thoại là khá chính xác. Những người ở đầu dây bên kia vẫn ở đó, nhưng nếu bạn không biết cách liên lạc với họ, thì bạn sẽ gặp rắc rối. Trong trường hợp này, cuốn danh bạ đó thực sự đã biến mất."

Indranil Gupta, giáo sư kỹ thuật điện và máy tính tại Đại học Illinois, đã sử dụng một phép so sánh khác trong lớp học để giải thích phân tích kỹ thuật của Amazon.

Sự cố này tiếp tục tạo ra hiệu ứng lan tỏa, ảnh hưởng trực tiếp đến các dịch vụ AWS khác như EC2 (dịch vụ cung cấp máy chủ ảo để phát triển ứng dụng) và Network Load Balancer (dịch vụ quản lý cân bằng tải trên toàn mạng).

Vấn đề trở nên tồi tệ hơn khi DynamoDB hoạt động trở lại, EC2 đã cố gắng đưa tất cả máy chủ của mình hoạt động cùng một lúc nhưng không thể theo kịp, gây ra tình trạng quá tải dây chuyền.

Amazon cho biết đang thực hiện một số thay đổi đối với hệ thống của mình sau sự cố, bao gồm sửa tình huống chạy đua cốt lõi và thêm bộ kiểm tra bổ sung cho dịch vụ EC2.

Giáo sư Gupta nhận định, những sự cố mất điện quy mô lớn như thế này tuy hiếm gặp nhưng vẫn là một thực tế không thể tránh khỏi trong thế giới công nghệ. "Những sự cố như thế này cứ thế xảy ra. Nhưng tôi nghĩ cách công ty phản ứng với sự cố và cập nhật thông tin minh bạch cho khách hàng mới thực sự là điều quan trọng."

      Nổi bật
          Mới nhất
          Chỉ một lỗi nhỏ không ngờ khiến Internet toàn cầu sụp đổ trong phút chốc
          • Mặc định

          POWERED BY ONECMS - A PRODUCT OF NEKO