Lý do Cloudflare gặp sự cố làm tê liệt nửa internet toàn cầu

VNZ-NEWS
Cloudflare, công ty cung cấp hạ tầng Internet quan trọng, đã gặp sự cố lớn vào tối qua. Nhiều trang web, bao gồm mạng xã hội X (Twitter) và ChatGPT của OpenAI, đồng loạt gặp trục trặc. Cộng đồng IT đùa rằng: “Lần trước Amazon sập kéo theo nửa Internet, lần này Cloudflare đem nốt nửa còn lại đi.”
Ngay sau đó, Cloudflare đã đăng bài trên blog chính thức, giải thích nguyên nhân sự cố.

Cloudflare-su-co.jpg

Thời điểm và diễn biến sự cố​

  • 19:20 ngày 18/11/2025 (giờ Việt Nam)
    Mạng Cloudflare bắt đầu gặp lỗi nghiêm trọng khiến lưu lượng cốt lõi không thể truyền tải.
  • Người dùng Internet khi truy cập các trang sử dụng Cloudflare đều thấy trang lỗi, báo rằng hệ thống nội bộ Cloudflare gặp vấn đề.
Cloudflare khẳng định sự cố không phải do tấn công mạng, cũng không liên quan đến hoạt động độc hại.

Nguyên nhân thực sự của sự cố​


Sự cố bắt nguồn từ:

1. Thay đổi quyền trong hệ thống cơ sở dữ liệu Cloudflare​

Việc thay đổi quyền này khiến cơ sở dữ liệu tạo ra nhiều mục dữ liệu bất thường và ghi vào “feature file” — tập tin được sử dụng bởi hệ thống quản lý Bot.

2. Kích thước feature file tăng gấp đôi bất ngờ​

Tập tin phình to vượt mức giới hạn mà phần mềm xử lý trên toàn mạng có thể đọc được → gây lỗi hàng loạt.

3. Tập tin lỗi lan truyền khắp mạng​

Do hệ thống phân phối tự động, tập tin lỗi được đồng bộ tới mọi máy trong mạng Cloudflare.

4. Phần mềm điều hướng lưu lượng bị treo​

Phần mềm này cần đọc feature file để phản ứng với các mối đe dọa bot mới. Nhưng khi gặp tập tin quá lớn → phần mềm sập, dẫn đến lỗi 5xx hàng loạt.

Diễn biến xử lý sự cố​

  • Ban đầu Cloudflare nghi ngờ là DDoS siêu lớn, nhưng sau đó nhận ra nguyên nhân thực sự.
  • Họ lập tức quay về phiên bản feature file cũ.
  • Đến 22:30 (giờ Việt Nam): lưu lượng cốt lõi cơ bản phục hồi.
  • Trong vài giờ tiếp theo, Cloudflare tiếp tục giảm tải các phần mạng bị quá tải.
  • 01:06 ngày 19/11 (giờ Việt Nam): toàn bộ hệ thống Cloudflare trở lại bình thường.

Hành vi bất thường trong lỗi​


BLOG-3079_3.png

Biểu đồ lỗi 5xx cho thấy:
  • Trước 19:20, mức lỗi ở mức bình thường.
  • Sau đó lỗi tăng vọt khi tập tin lỗi được phát tán.
  • Hệ thống đôi lúc tự phục hồi rồi lại sập, hành vi hiếm gặp ở lỗi nội bộ.
Nguyên nhân là:
  • Feature file được tạo mỗi 5 phút bởi một truy vấn trong cụm cơ sở dữ liệu ClickHouse đang được nâng cấp dần.
  • Khi truy vấn chạy ở phần đã nâng cấp → tạo dữ liệu lỗi.
  • Kết quả: cứ 5 phút một lần, hệ thống có thể nhận file đúng hoặc file lỗi → lỗi liên tục tái diễn.
Sự cố kéo dài đến 22:30 khi file lỗi bị chặn và thay bằng file chuẩn, rồi ép các tác nhân cốt lõi khởi động lại.

Các dịch vụ bị ảnh hưởng​


Dịch vụ / Sản phẩmMức ảnh hưởng
CDN và dịch vụ bảo mật lõiHiển thị trang lỗi HTTP 5xx cho người dùng.
TurnstileKhông thể tải.
Workers KVTăng mạnh lỗi 5xx do các gateway gặp lỗi.
Bảng điều khiển (Dashboard)Giao diện tải được nhưng người dùng không đăng nhập được vì Turnstile lỗi.
Bảo mật EmailXử lý email không ảnh hưởng, nhưng một nguồn dữ liệu IP reputation bị gián đoạn, giảm độ chính xác phát hiện spam. Một số tác vụ tự động bị lỗi và đã được sửa lại.
Access (Xác thực truy cập ứng dụng)Đa số người dùng không thể xác thực từ đầu sự cố đến 21:05 khi việc rollback bắt đầu. Phiên đã đăng nhập vẫn hoạt động.
Cập nhật cấu hình AccessHầu hết thất bại hoặc lan truyền rất chậm. Đến nay đã phục hồi hoàn toàn.
 
Trả lời

Long Sao

Rìu Vàng
Sự cố này là sự cốc mà gần như trang nào càng lớn càng mạnh nền tảng nào càng lớn thì ảnh hưởng càng lớn